tesseract 3.02识别汉字的问题方面的问题

英明决策 2013-04-24 03:31:19

我是一个tesseract方面的菜鸟，最近想通过tesseract3.02来识别图片中的文字，但是我的代码当调用“eng.traindata”库时对图片上的英文有很好的识别效果，但是调用“chi_sim.traindata”文字库时识别图片上的汉字都是乱码。希望大家能够帮助我，谢谢大家了。

代码：
#include "stdafx.h"
#include "baseapi.h"
#include "strngs.h"
int _tmain(int argc, _TCHAR* argv[])
{
const char * image = "image1.jpg";
tesseract::TessBaseAPI api;
//api.Init(NULL, "eng", tesseract::OEM_TESSERACT_ONLY);//识别英文
api.Init(NULL, "chi_sim", tesseract::OEM_TESSERACT_ONLY);//识别汉字
STRING text_out;
if (!api.ProcessPages(image, NULL, 0, &text_out))
{
printf("Can not read this picture!!!");
return 0;
}
printf(text_out.string());
getchar();
return 0;
}

...全文

793 10 打赏收藏转发到动态举报

写回复

10 条回复

切换为时间正序

请发表友善的回复…

发表回复

ZhanCF 2015-10-30

打赏
举报

回复

引用 1 楼 zhao4zhong1 的回复:

#include <locale.h> setlocale(LC_ALL,"chs"); 对电脑而言没有乱码，只有二进制字节；对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode:0x4A 0x55,UTF-8:0xE5 0x95 0x8A

赵老师无处不在~

sunjunlishi 2014-02-24

打赏
举报

回复

me,too

ceijiajia 2014-01-16

打赏
举报

回复

我也遇到这个问题，如何解决啊？求大神指点

大O江湖 2013-12-12

打赏
举报

回复

tesseract，首先训练，累级训练三到四次，生成自己的文字样本，如果你会编程的话，先对图像进行白底黑字二值化处理。

yzsyb 2013-12-02

打赏
举报

回复

我也有too many unichars in ambiguity on line *** 这个问题，没找到原因和方法有知道的高手求指点

神-气 2013-10-28

打赏
举报

回复

引用 4 楼 GAOYANGAOYANGAOYAN 的回复:

你好，请问你问题解决了吗？我识别出来也遇到了跟你一样的问题不知道怎么回事呢，如果解决了，麻烦说下呢

这个输出的字符串是utf-8编码的，你可以在记事本里面用utf-8格式查看。

GAOYANGAOYANGAOYAN 2013-09-29

打赏
举报

回复

你好，请问你问题解决了吗？我识别出来也遇到了跟你一样的问题不知道怎么回事呢，如果解决了，麻烦说下呢

夏梦c 2013-07-31

打赏
举报

回复

识别的结果要进行转码

英明决策 2013-04-25

打赏
举报

回复

你好，谢谢你的帮助。不过我还是不太明白为什么会出现too many unichars in ambiguity on line 2748432，这是因为我用的查找英文的方式开搜索汉字字库吗？

赵4老师 2013-04-24

打赏
举报

回复

#include <locale.h> setlocale(LC_ALL,"chs"); 对电脑而言没有乱码，只有二进制字节；对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode:0x4A 0x55,UTF-8:0xE5 0x95 0x8A

采用tesseract3.02+mfc+opencv提取中文、英文、数字字符

解压后执行tesseract-ocr-setup-3.02.02.exe安装，tessdata 目录存放的是语言字库文件，本安装程序默认包含了英文字库。如果想识别中文将压缩包中的chi_sim.traineddata放入tessdata即可。

本节课介绍在Android系统平台基于OpenCV与Tesseract-OCR框架实现对身份证号码识别技术为例，探讨移动平台上实际项目中OCR识别的常规处理流程与相关算法介绍

Tesseract，一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎。

tesseract-ocr3.02.02（包含简体中文语言包）使用方法：解压缩文件，在dos环境下运行tesseract.exe；识别英文，请输入命令 tesseract test1.png test1 -l eng;(test1.png为要识别的图片，test1为输出图片，格式为txt)；识别英文，请输入命令 tesseract test1.png test1 -l chi_sim;(test1.png为要识别的图片，test1为输出图片，格式为txt)。

64,654

社区成员

250,484

社区内容

发帖

与我相关

我的任务

c++ 技术论坛（原bbs）

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

请不要发布与C++技术无关的贴子
请不要发布与技术无关的招聘、广告的帖子
请尽可能的描述清楚你的问题，如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧

+ 用AI写文章