社区
Java SE
帖子详情
如何从pdf文献里抽取 标题、作者、摘要和关键字等索引信息呢?
heyingying
2006-07-10 07:43:18
要建一个文献数据库,
因为文献数目太大了,
希望能实现自动提取文献标题、作者等索引信息入库,
下载了pdfbox,但不知如何取提取这些信息,
请高手们帮帮我!
慷慨送分!
...全文
1325
12
打赏
收藏
如何从pdf文献里抽取 标题、作者、摘要和关键字等索引信息呢?
要建一个文献数据库, 因为文献数目太大了, 希望能实现自动提取文献标题、作者等索引信息入库, 下载了pdfbox,但不知如何取提取这些信息, 请高手们帮帮我! 慷慨送分!
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
12 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
hero222
2006-07-25
打赏
举报
回复
学习!
candy84
2006-07-19
打赏
举报
回复
这里能帮你解决你的问题!
来踩一下呀,
http://bbs.oneedu.cn/bbs
sos110
2006-07-16
打赏
举报
回复
我们用java来解决实际问题。java技术交流,讨论java的技术细节和最新技术。欢迎中高级程序员以及渴望学习java技术的初学者加入讨论。QQ群:3001581
Student02370236
2006-07-15
打赏
举报
回复
我又去查了一下PDFBOX的API,我想可以通过PDPage or PDPageNode这两个类的对象来获取内容,不过前提是你的这些PDF文献要有比较严格的格式,不然会出问题,取出来的文本不是你想要的。。。
heyingying
2006-07-14
打赏
举报
回复
我需要的不是右键点击pdf文件可以查看到的信息,
而是文件的相关内容,比如一篇论文,有标题、作者、摘要,从pdf文件内容进行这些信息的抽取
luoqt
2006-07-13
打赏
举报
回复
关注
Student02370236
2006-07-11
打赏
举报
回复
PDDocument doc=PDDocument.load("./res/hello.pdf");
PDDocumentInformation pdfInfo=doc.getDocumentInformation();
System.out.println(pdfInfo.getSubject()+" "+pdfInfo.getAuthor());
我上面这段程序就正常读出了PDF的信息,而不是null
Student02370236
2006-07-11
打赏
举报
回复
注意不是我们通常所说的文件的那些基本信息哟!PDF的那些信息是属于PDF文件自身的,而不是普通文件的,PDF的这些信息也可以通过Acrobat软件来查看
Student02370236
2006-07-11
打赏
举报
回复
当用鼠标右击PDF文件并且选择属性时,在弹出的对话框中有一个选项卡叫PDF,在那里就记录了PDF的这些信息,可以通过pdfbox的API来操作的
heyingying
2006-07-11
打赏
举报
回复
我也用到上面的这些方法了,但是得到的东西基本上是null。
得到的值跟右键点击pdf文档,得到的文档信息的内容是一样的,
但是这些文档的信息一般都是null。
我指的是要从pdf文档里面提取文献信息的内容,与文档信息有一点的区别
Student02370236
2006-07-11
打赏
举报
回复
也可以通过这样的方式来取得PDDocumentInformation...
PDDocument doc=PDDocument.load("/res/hello.pdf");
PDDocumentInformation pdfInfo=doc.getDocumentInformation();
Student02370236
2006-07-11
打赏
举报
回复
在org.pdfbox.pdmodel这个包中有一个叫PDDocumentInformation的类.通过它可以取得:
getAuthor() :取得作者名称
getCreationDate() :取得创建日期
getCreator() :取得创建者
getKeywords() :取得密码
getTitle() :取得标题
...
Web数据挖掘在校园网搜
索引
擎系统中的应用研究.
pdf
Web数据挖掘在校园网搜
索引
擎系统中的应用研究.
pdf
浅谈数据仓库及其在SQL中的构建分析.
pdf
浅谈数据仓库及其在SQL中的构建分析.
pdf
LLM大模型在文本
摘要
与提取中的实现:
信息
处理与压缩
在当今的
信息
爆炸时代,人们面临着大量文本
信息
的洪流。这些
信息
来自各种来源,如新闻、博客、论文、报告等。为了有效地处理和利用这些
信息
,我们需要一种方法来将长篇文本压缩为更短的
摘要
,同时保留其主要内容。这就是文本
摘要
和提取的重要性所在。文本
摘要
是将长篇文本转换为更短的
摘要
,捕捉文本的主要
信息
。文本提取则是从长篇文本中选出关键
信息
,以便用户快速了解文本的内容。这两个任务在实际应用中具有很高的价值,例如新闻
摘要
、
文献
综述、企业报告等。语言理解能力:LLM模型可以理解文本的内容,从而选择与主题相关的
信息
。
Elasticsearch如何实现Word、
PDF
、TXT 全文内容检索?
前言能支持文件的上传,下载要能根据
关键字
,搜索出文件,要求要能搜索到文件
里
的文字,文件类型要支持word,
pdf
,txt文件上传,下载比较简单,要能检索到文件
里
的文字,并且要尽量精确,这种情况下很多东西就需要考虑进去了。这种情况下,我决定使用Elasticsearch来实现。因为准备找工作刷牛客的原因,发现很多面试官都问到了Elasticsearch,再加上那时候我连Elasticsearch是什...
如何实现Word、
PDF
,TXT文件的全文内容检索?
简单介绍一下需求 能支持文件的上传,下载 要能根据
关键字
,搜索出文件,要求要能搜索到文件
里
的文字,文件类型要支持word,
pdf
,txt 文件上传,下载比较简单,要能检索到文件
里
的文字,并且要尽量精确,这种情况下很多东西就需要考虑进去了。这种情况下,我决定使用Elasticsearch来实现。 因为准备找工作刷牛客的原因,发现很多面试官都问到了Elasticsearch,再加上那时候我连Elasticsearch是什么东西都不知道,所以就决定尝试一下新东西。 不得不说Elasticsearch版本更
Java SE
62,634
社区成员
307,269
社区内容
发帖
与我相关
我的任务
Java SE
Java 2 Standard Edition
复制链接
扫一扫
分享
社区描述
Java 2 Standard Edition
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章