批量把pdf文件中的文本信息读出

zhangjidong 2007-06-20 11:10:17
现在有大约500个pdf文件,希望把其中的文本文件读出。
我的思路:
1 直接用程序解析pdf文件,读取文本信息。
2 找到支持命令行的pdf工具,利用批处理等方法批量转换为txt文件或者其他,间接读取。

第一种方法当然最好,但是没有找到相应的类,好像有个java的叫pdfbox,弄出来是乱码。
第二种方法还没有找到支持命令行的转txt文件的工具。
...全文
1383 24 打赏 收藏 转发到动态 举报
写回复
用AI写文章
24 条回复
切换为时间正序
请发表友善的回复…
发表回复
startstartsvip 2012-05-04
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 的回复:]

http://www.cs-open.com/sort/16.html
[/Quote]

秦风意动(qsoft开源工作室
。。。


问一下,开源工作室怎么盈利啊?
Hi幸福来敲门 2012-05-03
  • 打赏
  • 举报
回复
[Quote=引用 19 楼 net_flyfox 的回复:]

你可用autoit写脚本,代替你手工操作。
我要的比你还难,要找到对应的表格,将表格读到数据库中。
[/Quote]
大哥 你是怎么写的啊 我现在也在做这个 读取pdf里面的表格数据

如果不是机密的话 麻烦发一个列子给我 memaxiaofeng@163.com
半瓶神仙水 2011-09-26
  • 打赏
  • 举报
回复
mark~
无常名 2011-09-26
  • 打赏
  • 举报
回复
mark !顶一下
lddwww 2011-09-26
  • 打赏
  • 举报
回复
不错。
net_flyfox 2008-09-19
  • 打赏
  • 举报
回复
你可用autoit写脚本,代替你手工操作。
我要的比你还难,要找到对应的表格,将表格读到数据库中。
hansuzhi 2008-07-15
  • 打赏
  • 举报
回复
学习
shinaterry 2007-09-13
  • 打赏
  • 举报
回复
Mark
yuanzhihua520 2007-09-13
  • 打赏
  • 举报
回复
up
98star 2007-07-26
  • 打赏
  • 举报
回复
PDF2TXT
zhangjidong 2007-07-26
  • 打赏
  • 举报
回复
找了个工具PDF2TXT
littlegang 2007-07-25
  • 打赏
  • 举报
回复
最近使用了xpdf,感觉很不错
Steedsoft 2007-07-20
  • 打赏
  • 举报
回复
dotnet环境下从PDF文档中抽取Text文本的一些方法汇总,
http://www.cnblogs.com/hardrock/archive/2006/04/05/367543.html


http://blog.rubypdf.com/2006/11/14/extract-text-from-pdf-under-dotnet/

http://rubypdf.com/2006/11/14/pdftohtml-convert-pdf-to-html-and-xmleven-excel

这个就是利用pdftohtml来实现的http://www.cnblogs.com/hardrock/archive/2006/04/30/389291.html
littlegang 2007-07-18
  • 打赏
  • 举报
回复
不过iTextSharp好像不能处理不是自己生成的pdf文件,似乎能识别的格式太少?
littlegang 2007-07-17
  • 打赏
  • 举报
回复
zhangjidong(简单生活) ( ) 信誉:100 2007-6-22 1:06:22 得分: 0

没有找到用iTextSharp读取文本的方法
----------------------------------

不大会吧,应该有pdfReader之类的类


zhangjidong 2007-06-22
  • 打赏
  • 举报
回复
没有找到用iTextSharp读取文本的方法
zhangjidong 2007-06-21
  • 打赏
  • 举报
回复
pdfbox支持中文有问题
kimmking 2007-06-21
  • 打赏
  • 举报
回复
关于pdf的java开源项目:
http://www.open-open.com/34.htm

iText 点击次数:15287
iText是一个能够快速产生PDF文件的java类库。iText的java类对于那些要产生包含文本,表格,图形的只读文档是很有用的。它的类库尤其与java Servlet有很好的给合。使用iText与PDF能够使你正确的控制Servlet的输出。

JFreeReport 点击次数:9089
JFreeReport的数据继承自Swing组件的TableModel接口。JFreeReport生成的报表可以分页预览、打印或者保存为多种格式的文件包括pdf、Excel、html等。

PJX 点击次数:7982
PJX支持读取,组合,处理,和生成PDF文档(注意:PJX需要 J2SE 1.4.0 或更高版本)。

FOP 点击次数:7582
FOP是由James Tauber发起的一个开源项目,原先的版本是利用xsl-fo将xml文件转换成pdf文件。但最新的版本它可以将xml文件转换成pdf,mif,pcl,txt等多种格式以及直接输出到打印机,并且支持使用SVG描述图形。

gnujpdf 点击次数:7384
gnujpdf是一个java类包(gnu.jpdf.*),它提供了一个简单的API来创建与打印PDF文件。遵循LGPL开源协议。

PDF Box 点击次数:9020
PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。
它具有以下特性:
1.将一个PDF文档转换输出为一个文本文件。
2.可以从文本文件创建一个PDF文档。
3.加密/解密PDF文档。
4.向已有PDF文档中追加内容。
5.可以从PDF文档生成一张图片。
6.可以与Jakarta Lucene搜索引擎的整合。

Connla 点击次数:7703
Connla是一个Java包用于创建可导成TXT,CSV,HTML,XHTML,XML,PDF和XLS等格式的数据集。


PDF Split & Merge 点击次数:6767
PDF Split&Merge是一款实用基于GPL许可协议发布的PDF文件分割与合并工具。您可以指定页码范围将一个PDF文件分割为若干PDF 文件(支持单页和多页混合),或将多个PDF文件按指定顺序合并成一个PDF文件。其转换速度非常快。它采用Java Swing开发,运用到的第三方组件包括:iText,jcmdline和JGoodies界面包。


PDF Clown for Java 点击次数:6613
PDF Clown for Java是一个基于Java1.5用于读,写和操作PDF文档的Java类包。它提供多个抽象层来满足不同的编程风格:从底层(PDF对象模型)到高级(PDF文档结构和内容流)。

iText toolbox 点击次数:46
iText toolbox是一个Java Swing应用程序,其起初是iText类库的一部分。iText toolbox既可以作为一个可执行的Jar,也可作为Java Webstart应用程序运行。对于完成各种类型的PDF相关文件操作,iText toolbox是一个非常有用的工具比如:把一个目录下的所有图片转换成一个PDF文档,合并现有PDF文档等。此外开发人员可以把它当成一个学习iText类库各项功能的工具。

CathySun118 2007-06-21
  • 打赏
  • 举报
回复
2.好像pdf7以上就自带转换到txt的工具吧
kimmking 2007-06-21
  • 打赏
  • 举报
回复
http://www.cs-open.com/sort/16.html
加载更多回复(4)

110,533

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧