关于PDFBox 和 xpdf 的问题，困扰好几天了，求助高手~~

FinalKing 2008-03-18 12:30:56

我想抽取PDF里面的内容，根据网上的例子，两个我都实现了，中文也不会有乱麻，但前提只是常规的PDF才能获取到内容（就是格式正常，清晰的那种），而我自己的是OCR识别后的双层PDF，用PDFBox 获取的时候只要碰到是识别后的PDF文件就报异常java.io.IOException: Unknown encoding for 'UniGB-UCS2-H'
，用xpdf能提取到，不过内容为空，而我识别的双层PDF 用工具打开然后选上文字就能复制出TXT，不知道有没有解决办法，请告人指点

...全文

386 9 打赏收藏转发到动态举报

写回复

9 条回复

切换为时间正序

请发表友善的回复…

发表回复

bjo2008cn 2010-01-26

打赏
举报

回复

我也遇到这个问题！
请回答一下吧

yanglei03 2008-11-05

打赏
举报

回复

告诉告诉吧！

yanglei03 2008-11-05

打赏
举报

回复

我的pdf在转化txt文件格式时程序也出现了“java.io.IOException: Unknown encoding for 'UniGB-UCS2-H'”怎么解决的？万分感激！

wanghao1983 2008-04-17

打赏
举报

回复

请问能详细的说下吗?到底你是怎么实现的呢,谢谢你的帮助呀

happyyangfeng 2008-04-03

打赏
举报

回复

你这个问题解决了么？怎么解决的？我也刚碰到这个问题，不知道怎么解决。

FinalKing 2008-04-03

打赏
举报

回复

嗯调用洋鬼子的软件识别双层PDF~~

FinalKing 2008-03-21

打赏
举报

回复

都试过了 -_-||这个问题我用别德方法解决了~~~

DiligencyMan 2008-03-21

打赏
举报

回复

那你就取的时候，将编码格式设置成“常规的PDF”的格式，试下？

FinalKing 2008-03-20

打赏
举报

回复

有没有其他好的解决办法~~，等待解决阿

用xpdf和pdfbox来处理中文PDF文档及其比较

pdfbox，pdfbox，pdfbox，pdfbox

pdfbox for .Net目前的最新版PDFBox-2.0.19 用法：将压缩包内所有dll拷贝到项目编译目录，在项目中引用 IKVM.OpenJDK.Core.dll IKVM.OpenJDK.SwingAWT.dll pdfbox-app-2.0.19.dll 在代码中引入命名空间using org.apache.pdfbox.text; 然后 PDDocument doc = PDDocument.load(new java.io.File("文件路径")); PDFTextStripper pdfStripper = new PDFTextStripper(); string text = pdfStripper.getText(doc); 即可

1.1 PDFBOX介绍 Apache PDFBox是一个开源Java库，支持PDF文档的开发和转换。我们可以使用PDFBox开发可以创建，转换和操作PDF文档的Java程序。PDFBox的主要功能： Extract Text – 使用PDFBox，您可以从PDF文件中提取Unicode文本。 Split & Merge – 使用PDFBox，您可以将单个PDF文件分成多个文件，并将它们合并为一个文件。 Fill Forms – 使用PDFBox，您可以在文档中填写表单数据。 Print – 使用PDFBox，您可以使用标准Java打印API打印PDF文件。 Save as Image –

62,614

社区成员

307,326

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章