/关于ocr的训练/

JOKER叔叔 2017-07-28 11:16:45

我用的Tesseract-ocr，训练出来的识别率有些不如意，有没有什么好的意见，只要不花钱，换一个也无所谓

...全文

229 7 打赏收藏转发到动态举报

写回复

用AI写文章

7 条回复

切换为时间正序

请发表友善的回复…

发表回复

JOKER叔叔 2017-07-31

打赏
举报

引用 6 楼 zc881124 的回复:

图像识别？免费和开源的效果肯定要差些，自己去优化，难度比较大不过一般的需求能满足，如果你的图片不是很清晰或者做了混淆比如验证码。

机打票，字体、清晰度和位置都不可控，有没有什么好的建议

JOKER叔叔 2017-07-28

打赏
举报

tesseract OCR训练新字体对图片的预处理和要求同tesseract OCR识别对图片有要求一样，在训练新的字符集或新的字体时，对图片也有一定要求，符合要求的图片，能大大提高训练的效率。在图像处理方面，去除噪声，使训练的字符图片尽量连贯、清晰。其他方面，通常的要求如下： 1. 在一幅图片内，字体统一，决不能将多种字体混合出现在一幅训练图片内；如果不是通过扫描文本获取的字符图片，这个条件很容易被忽视。 2. 理想条件下，同种字体的字符图片集中到一幅大的训练图片中，在同一页内； 3. 要保留一定的字符间距与行间距； 4. 字符高度（大小），只要满足高度最小条件即可，对于小写字符x，其高度要至少大于10个像素； 5. 对于非字母字符，如!@#$%^&(),.{}<>/?，不要集中在一起出现，原因是这样不利于tesseract找出文本行基线baseline，不利于文本高度及大小的检测，baseline检测是tesseract engine的第一步； 6. 一般每个字符需要10个样本，高频常见字符至少20个样本，不常见字符需要5个样本； 7. 对于同种字体，多页训练图片，可以在训练中，件用相同的方式合并tr文件和box文件，两类文件内的字符次序要相同，利于提高训练效果。在获取训练字符图片方面，不一定非要从待识别图片中收集，可以利用word字符集找到对应字体，打印，扫描，获取训练图片，简单、方便。这个根据实际情况来应用。 tesseract中有这样一句话： but note that there is no incremental training mode that allows you to add new training data to existing sets. 大意是，没有增量训练的方式，把新的训练数据加入现有的数据集。