/*关于ocr的训练*/

JOKER叔叔 2017-07-28 11:16:45
我用的Tesseract-ocr,训练出来的识别率有些不如意,有没有什么好的意见,只要不花钱,换一个也无所谓
...全文
229 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
JOKER叔叔 2017-07-31
  • 打赏
  • 举报
回复
引用 6 楼 zc881124 的回复:
图像识别?免费和开源的效果肯定要差些,自己去优化,难度比较大 不过一般的需求能满足,如果你的图片不是很清晰或者做了混淆 比如验证码。
机打票,字体、清晰度和位置都不可控,有没有什么好的建议
JOKER叔叔 2017-07-28
  • 打赏
  • 举报
回复
tesseract OCR训练新字体对图片的预处理和要求 同tesseract OCR识别对图片有要求一样,在训练新的字符集或新的字体时,对图片也有一定要求,符合要求的图片,能大大提高训练的效率。 在图像处理方面,去除噪声,使训练的字符图片尽量连贯、清晰。 其他方面,通常的要求如下: 1. 在一幅图片内,字体统一,决不能将多种字体混合出现在一幅训练图片内;如果不是通过扫描文本获取的字符图片,这个条件很容易被忽视。 2. 理想条件下,同种字体的字符图片集中到一幅大的训练图片中,在同一页内; 3. 要保留一定的字符间距与行间距; 4. 字符高度(大小),只要满足高度最小条件即可,对于小写字符x,其高度要至少大于10个像素; 5. 对于非字母字符,如!@#$%^&(),.{}<>/?,不要集中在一起出现,原因是这样不利于tesseract找出 文本行基线baseline,不利于文本高度及大小的检测,baseline检测是tesseract engine的第一步; 6. 一般每个字符需要10个样本,高频常见字符至少20个样本,不常见字符需要5个样本; 7. 对于同种字体,多页训练图片,可以在训练中,件用相同的方式合并tr文件和box文件,两类文件内的字符次序要相同,利于提高训练效果。 在获取训练字符图片方面,不一定非要从待识别图片中收集,可以利用word字符集找到对应字体,打印,扫描,获取训练图片,简单、方便。这个根据实际情况来应用。 tesseract中有这样一句话: but note that there is no incremental training mode that allows you to add new training data to existing sets. 大意是,没有增量训练的方式,把新的训练数据加入现有的数据集。
110成成 2017-07-28
  • 打赏
  • 举报
回复
图像识别?免费和开源的效果肯定要差些,自己去优化,难度比较大 不过一般的需求能满足,如果你的图片不是很清晰或者做了混淆 比如验证码。
晨曦遇晓 2017-07-28
  • 打赏
  • 举报
回复
引用 3 楼 pany1209 的回复:
ocr.......高级啊]
JOKER叔叔 2017-07-28
  • 打赏
  • 举报
回复
引用 3 楼 pany1209 的回复:
ocr.......高级啊]
错误率有些高,扫描的票据不太友好....
李德胜1995 2017-07-28
  • 打赏
  • 举报
回复
ocr.......高级啊]
JOKER叔叔 2017-07-28
  • 打赏
  • 举报
回复
就这么沉了吗?

67,512

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧