从图片里检索文字,有什么成熟的算法或策略么?

梦想家起飞 2016-10-18 01:19:08
加精
面对古籍扫描件,数量很多,不过也有穷,非海量。
从用户操作而言,用户输入的文字,可能是普通unicode字符,也可能是图片(图片文字),
检索出来的是包含关键字的书籍扫描件(一页或多页)。

目前试验过的第一个思路如下:
1、扫描件切字,因为很工整,把扫描件的字一个一个切出来变成图片,并根据原位置建立索引;
2、为每个切出来的字提取特征点(用SIFT/SURF算法);
3、为用户输入的关键字图片(非图片的先渲染为图片)上的文字区域提取特征点(算法同上);
4、将2和3的特征点进行匹配,筛出可靠的匹配并rank得出检索结果;

这个思路有一个比较严重的问题未能解决:对于笔画简单的文字,像“一、二、十、七、士、土”之类,
能提取的有效特征点数量太少,不足以精确匹配。还有一些结构复杂的字,匹配效果也缺乏鲁棒性。基本上是考虑放弃了。

第二个思路和上一个类似,只是改用Shape Context算法,目前还没有来得及验证。

第三个思路是使用模板匹配(如OpenCV的matchTemplate)与之相关的算法也很多,以前少量试过的效果还可以,
不过这个思路因为不能提取特征,每次检索都得大量匹配,在性能上恐怕是没法接受的。。

第四个思路,使用分类器,将每个汉字训练多次,最终让分类器自己能“认识”图片上的文字,
这个思路的问题是训练用的素材和训练本身工作量会非常大,而且古籍的异体字极多,没有多少现成的素材。。

第五个思路是传统OCR,如果对于一般现代文,这个思路可能效果会不错,但是对于古籍。。。
不仅异体字很多,而且很多字在unicode的扩展区,有的甚至根本没有被unicode收纳(字体就更别提了)。
不能妥善支持图片文字的话,对于检索工作是帮助不大的,这也是优先不考虑OCR的原因。

除了三之外,其他几个都是可以后期通过CNN进行训练和优化的,不过,那是后话了。现在还没有找到鲁棒性足够好的思路。

跟一般的基于文字的搜索引擎或者“以图找图”引擎相比,有两个显著的特征是很不一样的:
1、普通照片、图画很容易提取特征点,而文字很难;
2、生僻字、异体字的兼容性需要足够好;
本来也是小众需求,这两方面目前还很难找到有效的参考资料。

求指导。。。//bow~
...全文
7333 11 打赏 收藏 转发到动态 举报
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
我不是校长 2017-02-17
  • 打赏
  • 举报
回复
可能还需要考虑预处理,比如 (1)倾斜校正 (2)扭曲校正 (3)光线均匀 (4)去噪 很多实验室的产品最后不好用都是因为抗干扰能力差
梦想家起飞 2017-01-14
  • 打赏
  • 举报
回复
非常感谢大家给出的宝贵建议。 我们会慢慢跟进。:)
引用 3 楼 lovesmiles 的回复:
非常难, 关于生僻字、异体字,这个需求你可以直接忽略掉先,这个问题是难点,但不是重点,不要钻这个牛角尖,不影响大局。 关于古籍,如果是手写的行书草书,基本不可能识别,没有成熟的策略,放弃吧。 印刷的古籍和手写楷书,其实可以参考现成的OCR 印刷体的识别,如果预处理做得好,归一化后,将字符图片变成二进制指纹,模板匹配算法其实是非常快的。 难点其实在字符分割和预处理方面。看你处理的都是些什么古籍了。
chenchenpc 2016-11-10
  • 打赏
  • 举报
回复
又长见识了,感谢各位大神
  • 打赏
  • 举报
回复
过来长长见识
cattpon 2016-10-29
  • 打赏
  • 举报
回复
不已经有很多模块了吗?
ljheee 2016-10-29
  • 打赏
  • 举报
回复
这个不简单啊。楼主,伟大的工程
细水长流- 2016-10-29
  • 打赏
  • 举报
回复
这个方面还没有见识过,来看看大牛们怎么做
勤奋的小游侠 2016-10-28
  • 打赏
  • 举报
回复
非常难, 关于生僻字、异体字,这个需求你可以直接忽略掉先,这个问题是难点,但不是重点,不要钻这个牛角尖,不影响大局。 关于古籍,如果是手写的行书草书,基本不可能识别,没有成熟的策略,放弃吧。 印刷的古籍和手写楷书,其实可以参考现成的OCR 印刷体的识别,如果预处理做得好,归一化后,将字符图片变成二进制指纹,模板匹配算法其实是非常快的。 难点其实在字符分割和预处理方面。看你处理的都是些什么古籍了。
天外怪魔 2016-10-28
  • 打赏
  • 举报
回复
引用 1 楼 wangyaninglm 的回复:
系统工程,图片检索,和ocr 结合吧,我认为,图片检索不一定非要特征点匹配,可以用下采样然后编码的索引的办法。 感知哈希算法
建议采用采样编码索引。
shiter 2016-10-28
  • 打赏
  • 举报
回复
系统工程,图片检索,和ocr 结合吧,我认为,图片检索不一定非要特征点匹配,可以用下采样然后编码的索引的办法。 感知哈希算法

4,242

社区成员

发帖
与我相关
我的任务
社区描述
OpenCV相关技术交流专区
计算机视觉人工智能opencv 技术论坛(原bbs) 广东省·深圳市
社区管理员
  • OpenCV
  • 幻灰龙
  • OpenCV中国团队
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

OpenCV中国团队官方博客:https://blog.csdn.net/opencvchina

试试用AI创作助手写篇文章吧