Tesseract不能打开eng是怎么回事？

r00_a2lBUR 2017-09-14 10:57:49

我想在C#中调用Tesseract，参考文章：http://www.cnblogs.com/cnlian/p/5765871.html 下载了一个安装包，按上面的提示，运行：tesseract test1.jpg test2 -1 eng报错，运行:tesseract test1.jpg就可以运行，运行tesseract test2.png test2 -1 chi_sim也报错：

这是不是要下载什么语言包？

...全文

399 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

r00_a2lBUR 2017-10-13

打赏
举报

回复

引用 1 楼 qq2495534085 的回复:

把1换成小写的L就可以。

试了一下，确实可以。

_乾坤_ 2017-10-13

打赏
举报

回复

把1换成小写的L就可以。

新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可自己训练. 1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

1.1tesseract 1.1.1基础知识主要用来文字图片的识别，验证码的识别等。就是将图像翻译成文字，也就是文字识别，是由googl公司推出的安装包下载地址训练数据集下载地址使用方式百度搜索：tesseract，下载该软件，安装设置该软件的环境变量在含有想要识别的文件中打开cmd，使用命令tesserct 图片名.png 文本文件名如果想要识别中文数据，我们可以通过更改训练数据的包来更改。首先，在tesseract中找到目录tessdata，将该数据集中的eng.traineddata文件替换成我们从网上下载的训练集，名字要和原来的文件的名字一样。 1.1.2

jTessBoxEditor是一个用于Tesseract OCR的字体编辑器与训练器，可以编辑Tesseract 2.0x和3.0x格式的字体数据，并全自动完成Tesseract训练。它能读取包括多页TIFF在内的常见图像格式，运行该程序需要Java运行环境7或更高版本。使用jTessBoxEditor生成.box文件的步骤是：选择Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片，然后点击打开按钮，出现文件保存对话框，输入文件名：num_1.font.exp0.tif，完成后会出现merge完成的提示。打开命令提示符，进入步骤1生成的num_1.font.exp0.tif文件所在目录，然后执行命令：tesseract num_1.font.exp0.tif num_1.font.exp0 –l eng batch.nochop makebox，执行完成后，会在当前目录下生成num_1.font.exp0.box文件。

TextShot 该工具使用户能够拍摄屏幕快照并将屏幕快照的文本内容复制到剪贴板。在Windows，macOS和大多数现代Linux发行版上均可使用。使用使用python / python3运行textshot.py将在屏幕上打开一个覆盖图，可以在包含用户希望复制的文本的屏幕部分上绘制一个矩形。可选的命令行参数可以指定语言。例如， python textshot.py eng+fra将使用英语作为主要语言，使用法语作为次要语言。默认值为eng （英语）。确保为其他语言安装了适用于Tesseract的适当数据文件。可以在找到所有支持的语言的列表。建议在此工具上附加一个全局热键，这样您就可以在不打开控制台和键入命令的情况下运行它。在Windows上，可以通过使用脚本来完成此操作。 textshot.ahk包含一个可以使用的示例AHK脚本。在Ubuntu上，打开“键盘设置”，其中显示了

110,545

社区成员

642,580

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章