java获取pdf表格中的内容

keys137659276 2010-03-22 04:54:18
pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!!
...全文
466 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
wang12 2011-09-19
  • 打赏
  • 举报
回复
一般使用开源的iText库来创建PDF文档,不过这个库也提供了解析已有pdf文档的API,本人没有用过,你可以参阅下官网http://itextpdf.com/
盗圣 2011-09-19
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 shenwb8700 的回复:]

路过!!!!!!!!!!!!
[/Quote]打酱油!
softroad 2011-09-19
  • 打赏
  • 举报
回复
学习了。
yktd26 2011-09-19
  • 打赏
  • 举报
回复
pdf的表格格式大小位置都不变的话,可以考虑用位置来获取值
pdfbox有个demo是按位置提取text,
另外还有一个demo帮助你找到每个字符的位置
但如果pdf是扫描的,那得找ocr控件获取text

pdf中也有个acroForm的东西,但至今没有遇到过pdf含有此单元,所以没做过,楼主也可以试着在document中找找有没有这个元素,如果有可能更简单

如果楼主想先看一下pdf的结构,pdfbox有app版,之中有个debbuger可以查看pdf结构

对于一些画上去的checkbox之类,我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中
但由于pdfbox中toImage单元还处于beta阶段,不太稳定,有时候一些font的问题会导致程序崩溃,建议在转image之前清除所有文字
keys137659276 2010-03-23
  • 打赏
  • 举报
回复
哪位高人有用纯java解析的代码吗,谢谢
小_Y 2010-03-22
  • 打赏
  • 举报
回复
写过,还没读过!

62,614

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧