Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件下载

AI100_小助手 2018-05-31 09:17:07
新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件
可自己训练.
1. 样本图片准备
2. 打开 jTessBoxEditor ,选择 Tools -> Merge TIFF,打开对话框,选择训练样本所在文件夹,并选中所有要参与训练的样本图片
3 弹出保存对话框,还是选择在当前路径下保存,文件命名为ty.cp.exp6.tif
4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox
5. 打开 jTessBoxEditor ,点击 Box Editor -> Open ,打开步骤2中生成的ty.cp.exp6.tif ,会自动关联到 “ty.cp.exp6.box” 文件:

6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0”

7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件
在终端中执行以下命名:
tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train

8. 生成字符集文件
在终端中执行以下命令:
unicharset_extractor ty.cp.exp6.box

9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr

cntraining ty.cp.exp6.tr

生成之后手工修改 Clustering 过程生成的 4 个文件(inttemp、pffmtable、normproto、shapetable)的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。

10. 合并数据文件
在终端中执行以下命令:
combine_tessdata ty.


tesseract b01.jpg result -l ty --psm 7
相关下载链接://download.csdn.net/download/xiao899/10448313?utm_source=bbsseo
...全文
417 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

12,806

社区成员

发帖
与我相关
我的任务
社区描述
CSDN 下载资源悬赏专区
其他 技术论坛(原bbs)
社区管理员
  • 下载资源悬赏专区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧