如何提取PDF文档中的汉字文本?

willliam 2008-04-25 05:09:52
小弟先现找到了一些可以提取PDF文档中文本的源码。
那个程序是将提取的文本保存到了一个文本文件中。
但是我发现文本如果是英文的话,可以提取出来,即在文本文件中可以显示。
但是,如果文本是中文的就出问题了,在文本文件中不能显示,这是不是和汉字编码有关系?
还是因为其他的什么原因呢?

其具体原因不知那位大哥能详细指点!
...全文
190 8 打赏 收藏 转发到动态 举报
写回复
用AI写文章
8 条回复
切换为时间正序
请发表友善的回复…
发表回复
willliam 2008-05-04
  • 打赏
  • 举报
回复
我也正在看PDF的 开发文档。但是楼上兄弟说PDF是图像处理是不对的把。
PDF在显示的时候的确以图像方式显示,但是存储却不是。
PDF里面的文本内容提取与所选字体有关,然后要根据不同的字体编码,再解码到Unicode编码。
brightxu 2008-05-03
  • 打赏
  • 举报
回复
你要识别后,在进行匹配的!调用汉字库里的字模!就可以了!
brightxu 2008-05-03
  • 打赏
  • 举报
回复
那是图像图像处理的东西吧!怎么在这里找。你不知道pdf,也是图片吗?
bobob 2008-04-29
  • 打赏
  • 举报
回复
1.可能没有配置中文的编码文件
2.可能PDF文件是type 3 字体
skyful123 2008-04-29
  • 打赏
  • 举报
回复
http://www.codeproject.com/KB/applications/Text2PDF.aspx
这个是 TEXT 2 PDF哇 LZ的是 PDF 2TEXT
Chivalry 2008-04-29
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 qqwangbalu 的回复:]
http://www.codeproject.com/KB/applications/Text2PDF.aspx
[/Quote]
mark
飞天舞 2008-04-29
  • 打赏
  • 举报
回复
http://www.codeproject.com/KB/applications/Text2PDF.aspx
Eleven 2008-04-29
  • 打赏
  • 举报
回复
Up!

2,586

社区成员

发帖
与我相关
我的任务
社区描述
VC/MFC 资源
社区管理员
  • 资源
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧