社区
Java SE
帖子详情
java获取pdf表格中的内容
keys137659276
2010-03-22 04:54:18
pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!!
...全文
494
7
打赏
收藏
java获取pdf表格中的内容
pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!!
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
wang12
2011-09-19
打赏
举报
回复
一般使用开源的iText库来创建PDF文档,不过这个库也提供了解析已有pdf文档的API,本人没有用过,你可以参阅下官网http://itextpdf.com/
盗圣
2011-09-19
打赏
举报
回复
[Quote=引用 3 楼 shenwb8700 的回复:]
路过!!!!!!!!!!!!
[/Quote]打酱油!
softroad
2011-09-19
打赏
举报
回复
学习了。
yktd26
2011-09-19
打赏
举报
回复
pdf的表格格式大小位置都不变的话,可以考虑用位置来获取值
pdfbox有个demo是按位置提取text,
另外还有一个demo帮助你找到每个字符的位置
但如果pdf是扫描的,那得找ocr控件获取text
pdf中也有个acroForm的东西,但至今没有遇到过pdf含有此单元,所以没做过,楼主也可以试着在document中找找有没有这个元素,如果有可能更简单
如果楼主想先看一下pdf的结构,pdfbox有app版,之中有个debbuger可以查看pdf结构
对于一些画上去的checkbox之类,我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中
但由于pdfbox中toImage单元还处于beta阶段,不太稳定,有时候一些font的问题会导致程序崩溃,建议在转image之前清除所有文字
keys137659276
2010-03-23
打赏
举报
回复
哪位高人有用纯java解析的代码吗,谢谢
小_Y
2010-03-22
打赏
举报
回复
写过,还没读过!
Java
解析
PDF
,
pdf
box读取
PDF
内容
NULL 博文链接:https://snowdymy.iteye.com/blog/1114344
java
读取
PDF
文件
中
的
内容
java
读取
PDF
文件
中
的
内容
java
读取
PDF
文件
中
的
内容
用
Java
读取
pdf
中
的数据
Pdf
Reader 博文链接:https://jackweijie.iteye.com/blog/215503
java
使用
pdf
模板套打二维码,文字,
表格
示例
java
使用
pdf
模板套打二维码,文字,
表格
示例
java
导出
pdf
、加
表格
、加水印
java
导出
pdf
、加
表格
、加水印 全开源放心下载
Java SE
62,635
社区成员
307,269
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章