用JAVA实现对PDF内容的搜索以及提取相关内容

aidebear 2010-07-06 06:21:55
我想要实现用java对一系列pdf文档进行搜索,同时把包含Keyword 的相应内容都显示出来。

开始用的是PDFBOX把内容提取出来进行搜索,再用ITEXT把搜索内容做成PDF显示。

但是因为要求能够对若干PDF文档同时进行检索,全部都提取出来delay很大。所以希望能够不提取内容,直接在pdf内部进行搜索,就像Adobe提供的搜索引擎一样。

希望知道的朋友给点建议。相关的代码或者思路都行。如果说要用PDF的格式规范的话,请给我一个很简单的例子。

另外,如果有朋友知道如何快速的提取内容以及检索,也欢迎给出相应的代码或者思路。

拜谢!!
...全文
824 12 打赏 收藏 转发到动态 举报
写回复
用AI写文章
12 条回复
切换为时间正序
请发表友善的回复…
发表回复
henry0919 2010-11-06
  • 打赏
  • 举报
回复
顶起 寻找楼主及高人~ 还是这个题目 求助一些问题~ +qq 290131755 +msn henry0919@hotmail.com
shine333 2010-07-08
  • 打赏
  • 举报
回复
你PDF什么时候得到的,你得到的时候后台就可以开始爬,建索引了
xmy8882040810 2010-07-08
  • 打赏
  • 举报
回复
mark一下 学习了 以后找资料有地方看了 O(∩_∩)O~
Acylas 2010-07-07
  • 打赏
  • 举报
回复
图片不需要处理,不会是图片也要检索吧?
aidebear 2010-07-07
  • 打赏
  • 举报
回复
最后是这样的,比如这页PDF是图片格式,标题带有关键字,我需要把整页都显示出来。
aidebear 2010-07-06
  • 打赏
  • 举报
回复
我处理的对象是Local的,没有涉及到服务器。

不过楼上说的让我想到了一点,因为所有pdf文件是固定,我可以尝试着自己先把内容提取出来,储存在database里面。

用户检索直接到database里进行就是了。

但是这样的话,有个新的问题。pdf里面的图片怎么处理呢?
Acylas 2010-07-06
  • 打赏
  • 举报
回复
既然做到了提取内容,那么应该提取内容的同时就把内容转化静态的html,比如用FreeMarker生成html。
然后再建立索引,搜寻到相关内容要显示关键字时也可以用上这个html,是如果需要下载才用到pdf。

至于提取内容,可以是用户第一次使用到这个pdf的时候进行提取,也可以是上传到服务器的时候就处理,
或者就像爬虫一样,另外开服务器不断的处理新pdf
aidebear 2010-07-06
  • 打赏
  • 举报
回复
我开始用的就是pdfbox+lucene, 前者提取内容,后者建立索引。

现在的问题是要搜索的范围不是单单一个PDF,是几个甚至十几个,搜索的范围是由用户选定。

举个例子,如果用户想在 a.pdf, b.pdf, c.pdf里查找关于satellite的内容,我就需要对3个PDF都进行一遍提取内容建立索引。会花很多时间。

我想得到一个能减少时间消耗的方式。
jixiuffff 2010-07-06
  • 打赏
  • 举报
回复
建议用pdfbox +lucene
aidebear 2010-07-06
  • 打赏
  • 举报
回复
能给我个例子么?谢谢~~

而且因为是即时出结果的,所以如果需要建立索引的内容太多,还是会很慢啊~
yuwenbao 2010-07-06
  • 打赏
  • 举报
回复
你自己不能对pdf建索引吗?预先用pdfbox将pdf内容提出来,然后解析内容,将其和某些关键字对应起来,然后将其缓存起来,就可以了吧。
aidebear 2010-07-06
  • 打赏
  • 举报
回复
自己顶~~有人知道答案么?

50,526

社区成员

发帖
与我相关
我的任务
社区描述
Java相关技术讨论
javaspring bootspring cloud 技术论坛(原bbs)
社区管理员
  • Java相关社区
  • 小虚竹
  • 谙忆
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧