pdf文本提取

geniusyumiao 2011-03-30 10:19:43

最近在做的项目牵涉到一些pdf的内容，想向高手们请教下。需求是将pdf中的文字内容提取出来，现在我已经做到将stream和endstream之间的部分用zlib解压还原，得到一堆pdf格式的内容，里面掺杂着我所需要的内容。
现在的问题有两个，一是解压出来的pdf的格式貌似有点乱，不知哪位有比较详细的讲这块的格式方面的资料可以提供，二是一个比较大的问题，就是中文的问题，解压出来的中文是乱码，我不知道这是什么编码，怎么处理，希望给予指教，谢谢。
QQ：498259675 希望大侠指教。

...全文

335 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

lywpcw 2012-02-27

打赏
举报

回复

楼主你好，问题得到解决了吗？

赵4老师 2011-04-08

打赏
举报

回复

购买“福昕阅览器”开发版？

geniusyumiao 2011-04-01

打赏
举报

回复

pdf文件吗？
文件->属性->字体，里面显示的编码很多不止一种如Identity-H,GBK-EUC-H,自定义什么的
我用UE打开看有WinCharSetFFFF,实在是不懂啊

luciferisnotsatan 2011-04-01

打赏
举报

回复

那文件本身是啥编码？

antiwindows 2011-04-01

打赏
举报

回复

恩是个难题。
如果你只是提取文本内容，对于解压出的pdf格式，不需要关注太多，只要找Tj和TJ就行。
对于汉字的处理，真是不能给什么好的建议了。

geniusyumiao 2011-03-31

打赏
举报

回复

我试了很多种编码，包括UTF8、GBK、UTF16，但好像都不是啊，跪求高手解答

赵4老师 2011-03-30

打赏
举报

回复

推荐使用convertz软件进行汉字编码转换。

赵4老师 2011-03-30

打赏
举报

回复

中文编码常用的有UTF8、GBK、Unicode即UTF16，试试是哪个吧。我想总不至于是JIS, Shift-JIS, EUC-JP

PDF文本提取,将pdf转换为txt，采用java编写，软件为免安装，轻快小巧

C++程序读取PDF中的文本。Adobe允许你提交PDF文件，提取成文本或HTML后再通过邮件发送给你。但是假如你需要自己提取文本或在程序中加入这个功能的话，需要花费很多时间。也许你还需要对文本应用某些特殊格式（如，添加tab分隔符）以便它们能够导入到Execl中（比如，你需要将PDF文档中包含的表格数据导入到Excel中，这就是编写这段代码的目的）。附件中的程序使用VC6.0编译通过，可以成功的读取PDF文件中的文本。并且保存到一个txt文件中

下载地址： http://pdfbox.apache.org/ 介绍： PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 3.加密/解密PDF文档。 4.向已有PDF文档中追加内容。 5.可以从PDF文档生成一张图片。 6.可以与Jakarta Lucene搜索引擎的整合。这个小程序，实现了，图片提取，文档解密的基本功能

tika 工程简便获取文本的java工具

免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat和其他外部控件的情况下，运用.NET 应用程序阅读，编写和操纵PDF 文档。Spire.PDF for .NET不仅可以运用在服端比如：ASP.NET 或者其他环境，还可以应用在Windows Forms 应用程序中。Spire.PDF for .NET 适合应用于所有常见的坏境中，比如：创建好的PDF文档可以存到磁盘中，还可以在Windows Forms应用程序，ASP.NET 应用程序客户端浏览器中保存为数据流。 Spire.PDF for .NET 功能丰富。除了基本的功能比如：绘制多种图形，图片，创建窗体字段，插入页眉页脚，输入数据表，自动对大型表格进行分页外，Spire.PDF for .NET还支持PDF数字签名，将HTML转换成PDF格式，提取PDF文档中的文本信息和图片，存为文本格式和各种图片格式，甚至可以将PDF中的附件提取出来。主要功能支持嵌入式字体，Truetype 字体和CJK字体。支持绘图。比如：矩形，环形，弧形，椭圆形，也可以自定笔刷将其填充。可以将图片从数据流，磁盘文件中载入到PDF 文档中。在PDF 文档中既可以绘制梯状图形和矢量图像，还支持掩模和水印图像。可以在PDF 文档中载入数据表。可以设置表中的行和列的格式，还可以在表内加入图形元素。自动对PDF 中的大型表格进行分页。创建窗体字段。比如在PDF 文档中创建按钮，文本框，列表框，复选框等等。在PDF 中插入页眉页脚。通过设置所有者密码和用户密码来加密PDF文档。通过作者的签名来保护PDF文档。读取当前PDF文档的表格并且填充表格。 HTML网页在转换到PDF文档时会拆分为多个大型页面，这些页面可以原原本本的展现在PDF文档中，而且在PDF文档的分页处没有任何文字的截断。用户还可以将这些网页在不需要临时文件的情况下，直接转换为数据流来创建PDF文档。

其它技术问题

3,881

社区成员

9,054

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章