C# 使用pdfbox求助,提取文本提取了一堆控制字符..

风--还在吹 2016-04-19 09:21:45
有木有大神用过这个pdfbox
因为需要对pdf进行提取文本操作,所以之前用了iTextSharp,但是因为协议是AGPL,所以改用pdfbox,结果给出去以后测试直接就打回来了...提取谋篇文字版PDF的时候,提取了一堆这种东西出来,没有正常的文字。
有没有大神用过pdfbox,看下这种问题出现的原因是什么,要怎么去解决呢
...全文
232 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
风--还在吹 2016-05-20
  • 打赏
  • 举报
回复
引用 8 楼 rocmemory 的回复:
比如word在生成pdf或xps的时候,就有两种方式,使用打印功能生成的文件,可以直接阅读,但是不支持编程读写,但是使用“导出”功能生成的版本却可以,希望可以给你帮助。
如果是打印版的出来就是图片了,确实是不能读写,而且图片上也无法选取文字。但是这个是可以选取到文字的,但是提不出来东西,不知道是用什么玩意生成的PDF... 最后还是没解决,散粉
为轮子而生 2016-05-18
  • 打赏
  • 举报
回复
我觉得很可能问题出在pdf文档上,pdf跟xps一样,都有打印版和发布版,可以暂且不管这个问题,换个其他的pdf文档试试
为轮子而生 2016-05-18
  • 打赏
  • 举报
回复
比如word在生成pdf或xps的时候,就有两种方式,使用打印功能生成的文件,可以直接阅读,但是不支持编程读写,但是使用“导出”功能生成的版本却可以,希望可以给你帮助。
wireboy 2016-05-18
  • 打赏
  • 举报
回复
快扔分,话说解决了没
风--还在吹 2016-05-18
  • 打赏
  • 举报
回复
再凑几个人结贴了。分都没人要了么...
Poopaye 2016-05-16
  • 打赏
  • 举报
回复
风--还在吹 2016-05-16
  • 打赏
  • 举报
回复
好吧好吧,,没人懂,那来几个人接分好了,别浪费
风--还在吹 2016-05-13
  • 打赏
  • 举报
回复
木有大神弄个这方面的东西么...
风--还在吹 2016-04-21
  • 打赏
  • 举报
回复
木有大牛来解决下问题么= = 还有个问题,不知道有没人遇到过,PDFBOX 0.7.3 版本有个IKVM.GNU.Classpath,加上其他也就4个DLL,但是下了个1.8.9版本的,引用就需要引用3个DLL,然后还要在bin目录下复制另外5个DLL,这样好麻烦,有木有人有好的办法解决这么多小尾巴的问题

110,534

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧