社区
Java SE
帖子详情
java获取pdf表格中的内容
keys137659276
2010-03-22 04:54:18
pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!!
...全文
466
7
打赏
收藏
java获取pdf表格中的内容
pdf文件中带表格数据的抽取,表格中含有空数据,要求获取的数据对应到相应的属性上。采用pdfbox好像获取表格数据信息比较乱,不能完全匹配到相应的属性上。跪求哪位高人帮忙!!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
7 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
wang12
2011-09-19
打赏
举报
回复
一般使用开源的iText库来创建PDF文档,不过这个库也提供了解析已有pdf文档的API,本人没有用过,你可以参阅下官网http://itextpdf.com/
盗圣
2011-09-19
打赏
举报
回复
[Quote=引用 3 楼 shenwb8700 的回复:]
路过!!!!!!!!!!!!
[/Quote]打酱油!
softroad
2011-09-19
打赏
举报
回复
学习了。
yktd26
2011-09-19
打赏
举报
回复
pdf的表格格式大小位置都不变的话,可以考虑用位置来获取值
pdfbox有个demo是按位置提取text,
另外还有一个demo帮助你找到每个字符的位置
但如果pdf是扫描的,那得找ocr控件获取text
pdf中也有个acroForm的东西,但至今没有遇到过pdf含有此单元,所以没做过,楼主也可以试着在document中找找有没有这个元素,如果有可能更简单
如果楼主想先看一下pdf的结构,pdfbox有app版,之中有个debbuger可以查看pdf结构
对于一些画上去的checkbox之类,我找到的办法是将pdf转为image然后判断特定位置上pixel值判定checkbox有没有被选中
但由于pdfbox中toImage单元还处于beta阶段,不太稳定,有时候一些font的问题会导致程序崩溃,建议在转image之前清除所有文字
keys137659276
2010-03-23
打赏
举报
回复
哪位高人有用纯java解析的代码吗,谢谢
小_Y
2010-03-22
打赏
举报
回复
写过,还没读过!
Java
解析
PDF
,
pdf
box读取
PDF
内容
NULL 博文链接:https://snowdymy.iteye.com/blog/1114344
java
读取
pdf
的文字、图片、线条和对应坐标
pdf
文档的
内容
都是坐标定位的,文档
内容
主要包含文本、图片、线条;需要用到
pdf
box和
pdf
2dom两个依赖包
traprange:(
Java
)从
PDF
文件提取
表格
内容
的方法
TrapRange:一种提取
PDF
文件
中
的表
内容
的方法 资料来源: : 更新 从命令行运行。 键入
java
-jar traprange.latest.jar -h获得帮助,或查看文件test-command-line.sh示例 介绍 表数据结构是文档
中
最重要的数据结构...
【
Java
】基于
Pdf
box解析
PDF
文档
中
指定位置的文字和图片
Apache
PDF
Box是一个开源
Java
库,支持
PDF
文档的开发和转换。 我们可以使用
PDF
Box开发可以创建,转换和操作
PDF
文档的
Java
程序。
PDF
Box的主要功能: Extract Text – 使用
PDF
Box,您可以从
PDF
文件
中
提取Unicode文本。 ...
java
spire.
pdf
使用 对
pdf
文件的相关操作
获取
每页
pdf
的图片; 3.
获取
书签; 4.读取
pdf
将
pdf
转化为文字,最后由txt文件保存; 5.分割
pdf
,包括按总页数,每页分割为一个
pdf
文件,由于免费版原因,可以每9页生成一个
pdf
,或者根据 指定页数 (页) 根据...
Java SE
62,614
社区成员
307,327
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章