社区
Web 开发
帖子详情
如何从pdf文献里抽取 主要是标题、作者、摘要和关键字
tianyalangren
2006-07-10 04:31:11
各位大虾,请教一下你们了。
如何从pdf文献里抽取 主要是标题、作者、摘要和关键字
...全文
2092
11
打赏
收藏
如何从pdf文献里抽取 主要是标题、作者、摘要和关键字
各位大虾,请教一下你们了。 如何从pdf文献里抽取 主要是标题、作者、摘要和关键字
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
11 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
luoqt
2006-07-13
打赏
举报
回复
iText
whycloud
2006-07-11
打赏
举报
回复
不好意思,忘了把注释去掉了,注释的部分是关键
另外补充一点,不要常识用iText去显示一个PDF文件,官方已经公布了那样做是不可以的
whycloud
2006-07-11
打赏
举报
回复
你可以采用iText做这些信息的抽取,至于文档里的具体内容我也正在研究,关于你所说的那些信息我到是可以给你个例子,
eg1
用记事本打开的意思,就是用右键点击某个PDF文件(不能是加密的),打开方式选择记事本。
用“记事本”直接打开PDF文件,直接就可以找出你所需要的信息,所以可以自己以一个文件流的形式,去根据判断读取的内容再生成字符串
eg2
import java.util.HashMap;
import java.util.Iterator;
import java.util.ListIterator;
import java.util.Map;
import com.lowagie.text.pdf.*;
public class test {
public static void main(String[] args){
String file="c:\\00.pdf";
try{
PdfReader reader=new PdfReader(file);
HashMap map= new HashMap();
Iterator iterator;
/*
map=reader.getInfo();
System.out.println("getInfo");
Iterator iterator=map.entrySet().iterator();
for (int i=0;i<map.size();i++){
Map.Entry entry=(Map.Entry)iterator.next();
System.out.print("Key:"+entry.getKey()+"\t");
System.out.println("Value:"+entry.getValue());
}
*/
}catch(Exception e){
e.printStackTrace();
}
}
}
Student02370236
2006-07-11
打赏
举报
回复
http://community.csdn.net/Expert/topic/4871/4871668.xml?temp=.5329859
heyingying
2006-07-11
打赏
举报
回复
还是不明白唉
eg1 我用记事本打开的pdf文档显示的是乱码,根本无法提取想要的信息
eg2 云木是用iText包进行处理的吧?我不太了解这个包,对于抽取上述信息的过程,不知能否讲得更加详细一点
我自己用的是pdfbox包,里面有获取标题、作者、关键字等信息的函数,但是得到的值大部分是null
heyingying
2006-07-10
打赏
举报
回复
whycloud(云木) :
请问:“你用记事本打开PDF就会发现,这些信息都记录在标签下的~!”
是什么意思啊,记录在标签下?什么标签下?能不能说得详细一点呢?谢谢了
infowain
2006-07-10
打赏
举报
回复
iText
heyingying
2006-07-10
打赏
举报
回复
flyonet,请问:“你用记事本打开PDF就会发现,这些信息都记录在标签下的~!”
是什么意思啊,记录在标签下?什么标签下?能不能说得详细一点呢?谢谢了
flyonet
2006-07-10
打赏
举报
回复
iText
whycloud
2006-07-10
打赏
举报
回复
LZ所要的这些信息,很容易取得的,你用记事本打开PDF就会发现,这些信息都记录在标签下的~!
只有PDF中的具体文本内容、图片、格式等等是以流的形式保存的。所以类似与标题、作者、版本等等这样的信息是直接可以从PDF中读取的~!
diggywang
2006-07-10
打赏
举报
回复
http://blog.csdn.net/bainian/archive/2006/06/14/796242.aspx
http://blog.csdn.net/lyj_china/archive/2006/06/19/812682.aspx
高招录取院校端数据处理及分析系统的构建.
pdf
#资源达人分享计划#
智能家居防盗报警系统的设计.
pdf
智能家居防盗报警系统的设计.
pdf
Python库 | PyMu
PDF
-1.18.12.tar.gz
python库。 资源全名:PyMu
PDF
-1.18.12.tar.gz
论文研究-数字图书馆中的热点研究主题提取 .
pdf
数字图书馆中的热点研究主题提取,韩晓晖,马军,随着数字图书馆中科技论文数量的飞速增长,对于研究者来说收集、组织和利用那些他们感兴趣的论文成为一项困难的工作。此外,蕴含
基于改进多目标粒子群算法的南水北调东线江苏段工程联合优化调度研究.
pdf
基于改进多目标粒子群算法的南水北调东线江苏段工程联合优化调度研究.
pdf
Web 开发
81,121
社区成员
341,743
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章