如何提取PDF文档中的汉字文本？

willliam 2008-04-25 05:09:52

小弟先现找到了一些可以提取PDF文档中文本的源码。
那个程序是将提取的文本保存到了一个文本文件中。
但是我发现文本如果是英文的话，可以提取出来，即在文本文件中可以显示。
但是，如果文本是中文的就出问题了，在文本文件中不能显示，这是不是和汉字编码有关系？
还是因为其他的什么原因呢？

其具体原因不知那位大哥能详细指点！

...全文

190 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

willliam 2008-05-04

打赏
举报

回复

我也正在看PDF的开发文档。但是楼上兄弟说PDF是图像处理是不对的把。
PDF在显示的时候的确以图像方式显示，但是存储却不是。
PDF里面的文本内容提取与所选字体有关，然后要根据不同的字体编码，再解码到Unicode编码。

brightxu 2008-05-03

打赏
举报

回复

你要识别后，在进行匹配的！调用汉字库里的字模！就可以了！

brightxu 2008-05-03

打赏
举报

回复

那是图像图像处理的东西吧！怎么在这里找。你不知道pdf，也是图片吗？

bobob 2008-04-29

打赏
举报

回复

1.可能没有配置中文的编码文件
2.可能PDF文件是type 3 字体

skyful123 2008-04-29

打赏
举报

回复

http://www.codeproject.com/KB/applications/Text2PDF.aspx
这个是 TEXT 2 PDF哇 LZ的是 PDF 2TEXT

Chivalry 2008-04-29

打赏
举报

回复

[Quote=引用 2 楼 qqwangbalu 的回复:]
http://www.codeproject.com/KB/applications/Text2PDF.aspx
[/Quote]
mark

飞天舞 2008-04-29

打赏
举报

回复

http://www.codeproject.com/KB/applications/Text2PDF.aspx

Eleven 2008-04-29

打赏
举报

回复

Up!

Java生成PDF完整示例,并解决中文乱码问题, 内有生成PDF相关的三个包, iText-2.0.8.jar, iTextAsian.jar, iTextAsianCmaps.jar

官方最新itextpdf-5.5.8.jar+中文支持包itext-asian.jar

Thymeleaf文档的合集，包括ppt，pdf等等，只要你想学，你要你想用，只要你看，你肯定会

PDF阅读器信息：有关更多信息，请参见。作者和维护者： Maksym Polshcha < > 请参阅以获取最新资源。关于 pdfreader是一个Pythonic API，可用于：从PDF文档中提取文本，图像和其他数据（纯文本或受保护的文本）访问PDF文档中的不同对象 pdfreader不是一种工具（也许有一天会成为它！）：创建或更新PDF文件将PDF文件拆分为页面或其他部分将PDF转换为任何其他格式但是，它可以用作此类工具的一部分。请参阅。特征提取文本（纯文本和带格式的文本对象）提取PDF表单数据（纯字符串和格式化的文本对象）支持所有PDF编码，CMap，预定义的cmap。将图像和图像蒙版提取为支持加密和受密码保护的PDF文档允许浏览任何文档对象，资源并提取您需要的任何数据（字体，注释，元数据，多媒体等）遵循懒对象访问允

包括了xpdf-3.02pl4-win32.zip和xpdf-chinese-simplified.tar.gz用于Lucene对PDF的中文查询

2,586

社区成员

18,437

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章