Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件下载

AI100_小助手 2018-05-31 09:17:07

新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件
可自己训练.
1. 样本图片准备
2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片
3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif
4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox
5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件：

6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0”

7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件
在终端中执行以下命名：
tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train

8. 生成字符集文件
在终端中执行以下命令：
unicharset_extractor ty.cp.exp6.box

9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr
与
cntraining ty.cp.exp6.tr

生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。

10. 合并数据文件
在终端中执行以下命令：
combine_tessdata ty.

tesseract b01.jpg result -l ty --psm 7
相关下载链接：//download.csdn.net/download/xiao899/10448313?utm_source=bbsseo

...全文

417 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可自己训练. 1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

Tesseract语言包 eng.traineddata chi_sim.traineddata chi_tra.traineddata 来自github，下载慢的可以用这个

tesseract-ocr中英文数据包chi_sim.traineddata.gz eng.traineddata.gz

Tesseract-OCR语言包，包含chi_sim.traineddata，chi_tra.traineddata，eng.traineddata，osd.traineddata

下载资源悬赏专区

12,806

社区成员

12,340,782

社区内容

发帖

与我相关

我的任务

其他技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章