tesseract-ocr中文识别问题
我在VS2010中调用tesseract-ocr的接口,设置简体中文字库,识别数字没什么问题,但是识别中文出来的都是乱码,我查了查是因为文字编码的问题,但是不知道怎么解决,有哪位高人能够指点一下啊。。。
以下是程序:
#include "strngs.h"
#include "baseapi.h"
#include<iostream>
using namespace std;
#pragma comment(lib,"libtesseract302d.lib")
void main()
{
tesseract::TessBaseAPI api;
api.Init(NULL, "chi_sim", tesseract::OEM_DEFAULT);//初始化,设置语言包
STRING text_out;
api.ProcessPages("D:\\3.jpg", NULL, 0, &text_out);
cout<<text_out.string()<<endl;
}