用JAVA实现对PDF内容的搜索以及提取相关内容
我想要实现用java对一系列pdf文档进行搜索,同时把包含Keyword 的相应内容都显示出来。
开始用的是PDFBOX把内容提取出来进行搜索,再用ITEXT把搜索内容做成PDF显示。
但是因为要求能够对若干PDF文档同时进行检索,全部都提取出来delay很大。所以希望能够不提取内容,直接在pdf内部进行搜索,就像Adobe提供的搜索引擎一样。
希望知道的朋友给点建议。相关的代码或者思路都行。如果说要用PDF的格式规范的话,请给我一个很简单的例子。
另外,如果有朋友知道如何快速的提取内容以及检索,也欢迎给出相应的代码或者思路。
拜谢!!