Tesseract3.01 中文乱码问题

nlb_ch 2013-10-21 05:50:59

C#代码:
Bitmap bmp = (Bitmap)Bitmap.FromFile(@"E:\12.png");
TesseractProcessor tp = new TesseractProcessor();
if (tp.Init(null, "chi_sim", 7))
{
string result = tp.Apply(bmp);
}
我用以上代码OCR上面图片(Tesseract版本为3.01),结果为:
result == "涓腑涓腑涓腑涓腑涓?涓腑\n\n";
用Encoding.UTF8.GetString(Encoding.GetEncoding("GB2312").GetBytes(result)),结果为:
"中中中中中中中中

?中中\n\n";

感觉Tesseract OCR中文编码为GB2312;,但是结果总是受字符间的空格影响为乱码.
Encoding.GetEncoding("gb2312").GetBytes(result)所得byte[]为:
228,184,173,228,184,173,32.228,184,173,228,184,173,228,184,173,228,184,173,32,228,184,173,228,184,63,228,184,173,228,184,173,10,10

其中32为空格,228,184,173三字节一个"中"字,但总会有大量的,像"228,184,63"这样的结果出乱码.请各路大神指点一二.谢谢.

以下例子一样:

string result = tp.Apply(bmp);
result =="浣犱綘浼?\n";
用Encoding.UTF8.GetString(Encoding.GetEncoding("GB2312").GetBytes(result)),结果为:
"你你

?\n";
Encoding.GetEncoding("gb2312").GetBytes(result)所得byte[]为:
228,189,160,228,189,160,32,228,188,63,10

...全文

551 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

nlb_ch 2013-10-22

打赏
举报

回复

高手大神们,你们都在哪里.

nlb_ch 2013-10-21

打赏
举报

回复

你好,我是用Tesseract 3.01来对图片做OCR,网上说Tesseract返回的是UTF-8的字符集,但我测试用GB2312编码解码结果才能认识. 我不太清楚"用字节来进行转换"怎么操作,请赐教一下.谢谢

风之影子 2013-10-21

打赏
举报

回复

图片里存在的是二进制数。即然是图片，那就用字节来进行转换。和gb2312没有任何的关系。

Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可以识别多种格式的图像文件并将其转换成文本，目前已支持60多种语言（包括中文）。 Tesseract最初由HP公司开发，后来由Google维护，目前发布在Googel Project上。地址为http://code.google.com/p/tesseract-ocr/。

一下内容转载自http://blog.csdn.net/u011607273/article/details/78329830https://www.cnblogs.com/zhongtang/p/5555950.htmlTesseract OCR 3.05.01 VS2015编译及字库训练tesseract-ocr 源码 https://github.com/tesseract-ocr/te...

Ubuntu下的安装步骤： (setup steps under ubuntu )1.安装对应的lib (install the libs)sudo apt-get install autoconf automake libtoolsudo apt-get install libpng12-devsudo apt-get install libjpeg62-devsudo apt-get inst...

最近在搞文字识别，使用了Google的Tessract-OCR文本识别引擎，在此做个总结。参考了以下资料： Google Tessetact项目地址开源OCR引擎Tesseract使用介绍 Tesseract-ocr体系结构使用Tesseract OCR 提取复杂图像中的文字 - physoft - 博客园 tesseract 识别中文字符 - haoran-10 - ITe

Tesseract OCR 3.05.01 VS2015编译及字库训练tesseract-ocr 源码

110,571

社区成员

642,565

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧

+ 用AI写文章