如何从pdf文献里抽取 标题、作者、摘要和关键字等索引信息呢?

heyingying 2006-07-10 07:43:18
要建一个文献数据库,
因为文献数目太大了,
希望能实现自动提取文献标题、作者等索引信息入库,
下载了pdfbox,但不知如何取提取这些信息,
请高手们帮帮我!
慷慨送分!
...全文
1325 12 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
hero222 2006-07-25
  • 打赏
  • 举报
回复
学习!
candy84 2006-07-19
  • 打赏
  • 举报
回复
这里能帮你解决你的问题!
来踩一下呀,
http://bbs.oneedu.cn/bbs
sos110 2006-07-16
  • 打赏
  • 举报
回复
我们用java来解决实际问题。java技术交流,讨论java的技术细节和最新技术。欢迎中高级程序员以及渴望学习java技术的初学者加入讨论。QQ群:3001581
Student02370236 2006-07-15
  • 打赏
  • 举报
回复
我又去查了一下PDFBOX的API,我想可以通过PDPage or PDPageNode这两个类的对象来获取内容,不过前提是你的这些PDF文献要有比较严格的格式,不然会出问题,取出来的文本不是你想要的。。。
heyingying 2006-07-14
  • 打赏
  • 举报
回复
我需要的不是右键点击pdf文件可以查看到的信息,
而是文件的相关内容,比如一篇论文,有标题、作者、摘要,从pdf文件内容进行这些信息的抽取
luoqt 2006-07-13
  • 打赏
  • 举报
回复
关注
Student02370236 2006-07-11
  • 打赏
  • 举报
回复
PDDocument doc=PDDocument.load("./res/hello.pdf");
PDDocumentInformation pdfInfo=doc.getDocumentInformation();
System.out.println(pdfInfo.getSubject()+" "+pdfInfo.getAuthor());

我上面这段程序就正常读出了PDF的信息,而不是null
Student02370236 2006-07-11
  • 打赏
  • 举报
回复
注意不是我们通常所说的文件的那些基本信息哟!PDF的那些信息是属于PDF文件自身的,而不是普通文件的,PDF的这些信息也可以通过Acrobat软件来查看
Student02370236 2006-07-11
  • 打赏
  • 举报
回复
当用鼠标右击PDF文件并且选择属性时,在弹出的对话框中有一个选项卡叫PDF,在那里就记录了PDF的这些信息,可以通过pdfbox的API来操作的
heyingying 2006-07-11
  • 打赏
  • 举报
回复
我也用到上面的这些方法了,但是得到的东西基本上是null。
得到的值跟右键点击pdf文档,得到的文档信息的内容是一样的,
但是这些文档的信息一般都是null。
我指的是要从pdf文档里面提取文献信息的内容,与文档信息有一点的区别
Student02370236 2006-07-11
  • 打赏
  • 举报
回复
也可以通过这样的方式来取得PDDocumentInformation...
PDDocument doc=PDDocument.load("/res/hello.pdf");
PDDocumentInformation pdfInfo=doc.getDocumentInformation();
Student02370236 2006-07-11
  • 打赏
  • 举报
回复
在org.pdfbox.pdmodel这个包中有一个叫PDDocumentInformation的类.通过它可以取得:
getAuthor() :取得作者名称
getCreationDate() :取得创建日期
getCreator() :取得创建者
getKeywords() :取得密码
getTitle() :取得标题
...

62,634

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧