tesseract-ocr中文识别问题

youngleec 2014-05-21 01:49:32
我在VS2010中调用tesseract-ocr的接口,设置简体中文字库,识别数字没什么问题,但是识别中文出来的都是乱码,我查了查是因为文字编码的问题,但是不知道怎么解决,有哪位高人能够指点一下啊。。。

以下是程序:

#include "strngs.h"
#include "baseapi.h"
#include<iostream>
using namespace std;

#pragma comment(lib,"libtesseract302d.lib")

void main()
{
tesseract::TessBaseAPI api;
api.Init(NULL, "chi_sim", tesseract::OEM_DEFAULT);//初始化,设置语言包
STRING text_out;
api.ProcessPages("D:\\3.jpg", NULL, 0, &text_out);
cout<<text_out.string()<<endl;
}
...全文
372 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
验证码识别 2014-06-28
  • 打赏
  • 举报
回复
引用 1 楼 youngleec 的回复:
这个我解决了,把utf-8转成gbk就行了。。。 但是怎么让这个程序速度更快,识别的更准呢。。。求指点。。。
自己做对应的字库
sosoben 2014-06-12
  • 打赏
  • 举报
回复
速度方面是这样的了, 识别更准可以通过训练啊,做出自己的字库啊. 训练的方法网上很多
youngleec 2014-05-21
  • 打赏
  • 举报
回复
这个我解决了,把utf-8转成gbk就行了。。。 但是怎么让这个程序速度更快,识别的更准呢。。。求指点。。。

4,445

社区成员

发帖
与我相关
我的任务
社区描述
图形图像/机器视觉
社区管理员
  • 机器视觉
  • 迪菲赫尔曼
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧