如何从pdf文献里抽取 主要是标题、作者、摘要和关键字

tianyalangren 2006-07-10 04:31:11
各位大虾,请教一下你们了。
如何从pdf文献里抽取 主要是标题、作者、摘要和关键字
...全文
2092 11 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
11 条回复
切换为时间正序
请发表友善的回复…
发表回复
luoqt 2006-07-13
  • 打赏
  • 举报
回复
iText
whycloud 2006-07-11
  • 打赏
  • 举报
回复
不好意思,忘了把注释去掉了,注释的部分是关键
另外补充一点,不要常识用iText去显示一个PDF文件,官方已经公布了那样做是不可以的
whycloud 2006-07-11
  • 打赏
  • 举报
回复
你可以采用iText做这些信息的抽取,至于文档里的具体内容我也正在研究,关于你所说的那些信息我到是可以给你个例子,
eg1
用记事本打开的意思,就是用右键点击某个PDF文件(不能是加密的),打开方式选择记事本。
用“记事本”直接打开PDF文件,直接就可以找出你所需要的信息,所以可以自己以一个文件流的形式,去根据判断读取的内容再生成字符串

eg2
import java.util.HashMap;
import java.util.Iterator;
import java.util.ListIterator;
import java.util.Map;

import com.lowagie.text.pdf.*;
public class test {
public static void main(String[] args){
String file="c:\\00.pdf";
try{
PdfReader reader=new PdfReader(file);
HashMap map= new HashMap();
Iterator iterator;

/*
map=reader.getInfo();
System.out.println("getInfo");
Iterator iterator=map.entrySet().iterator();
for (int i=0;i<map.size();i++){
Map.Entry entry=(Map.Entry)iterator.next();
System.out.print("Key:"+entry.getKey()+"\t");
System.out.println("Value:"+entry.getValue());
}
*/

}catch(Exception e){
e.printStackTrace();
}
}
}
Student02370236 2006-07-11
  • 打赏
  • 举报
回复
http://community.csdn.net/Expert/topic/4871/4871668.xml?temp=.5329859
heyingying 2006-07-11
  • 打赏
  • 举报
回复
还是不明白唉
eg1 我用记事本打开的pdf文档显示的是乱码,根本无法提取想要的信息
eg2 云木是用iText包进行处理的吧?我不太了解这个包,对于抽取上述信息的过程,不知能否讲得更加详细一点
我自己用的是pdfbox包,里面有获取标题、作者、关键字等信息的函数,但是得到的值大部分是null
heyingying 2006-07-10
  • 打赏
  • 举报
回复
whycloud(云木) :
请问:“你用记事本打开PDF就会发现,这些信息都记录在标签下的~!”
是什么意思啊,记录在标签下?什么标签下?能不能说得详细一点呢?谢谢了

infowain 2006-07-10
  • 打赏
  • 举报
回复
iText
heyingying 2006-07-10
  • 打赏
  • 举报
回复
flyonet,请问:“你用记事本打开PDF就会发现,这些信息都记录在标签下的~!”
是什么意思啊,记录在标签下?什么标签下?能不能说得详细一点呢?谢谢了
flyonet 2006-07-10
  • 打赏
  • 举报
回复
iText
whycloud 2006-07-10
  • 打赏
  • 举报
回复
LZ所要的这些信息,很容易取得的,你用记事本打开PDF就会发现,这些信息都记录在标签下的~!
只有PDF中的具体文本内容、图片、格式等等是以流的形式保存的。所以类似与标题、作者、版本等等这样的信息是直接可以从PDF中读取的~!
diggywang 2006-07-10
  • 打赏
  • 举报
回复
http://blog.csdn.net/bainian/archive/2006/06/14/796242.aspx
http://blog.csdn.net/lyj_china/archive/2006/06/19/812682.aspx

81,121

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧