关于PDFBox 和 xpdf 的问题,困扰好几天了,求助高手~~

FinalKing 2008-03-18 12:30:56
我想抽取PDF里面的内容,根据网上的例子,两个我都实现了,中文也不会有乱麻,但前提只是常规的PDF才能获取到内容(就是格式正常,清晰的那种),而我自己的是OCR识别后的双层PDF,用PDFBox 获取的时候只要碰到是识别后的PDF文件就报异常java.io.IOException: Unknown encoding for 'UniGB-UCS2-H'
,用xpdf能提取到,不过内容为空,而我识别的双层PDF 用工具打开然后选上文字就能复制出TXT,不知道有没有解决办法,请告人指点
...全文
386 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
bjo2008cn 2010-01-26
  • 打赏
  • 举报
回复
我也遇到这个问题!
请回答一下吧
yanglei03 2008-11-05
  • 打赏
  • 举报
回复
告诉告诉吧!
yanglei03 2008-11-05
  • 打赏
  • 举报
回复
我的pdf在转化txt文件格式时程序也出现了“java.io.IOException: Unknown encoding for 'UniGB-UCS2-H'”怎么解决的?万分感激!
wanghao1983 2008-04-17
  • 打赏
  • 举报
回复
请问能详细的说下吗?到底你是怎么实现的呢,谢谢你的帮助呀
happyyangfeng 2008-04-03
  • 打赏
  • 举报
回复
你这个问题解决了么?怎么解决的?我也刚碰到这个问题,不知道怎么解决。
FinalKing 2008-04-03
  • 打赏
  • 举报
回复
嗯 调用洋鬼子的软件 识别双层PDF~~
FinalKing 2008-03-21
  • 打赏
  • 举报
回复
都试过了 -_-||这个问题我用别德方法解决了~~~
DiligencyMan 2008-03-21
  • 打赏
  • 举报
回复
那你就取的时候,将编码格式设置成“常规的PDF”的格式,试下?
FinalKing 2008-03-20
  • 打赏
  • 举报
回复
有没有其他好的解决办法~~,等待解决阿

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧