2000人民币求提取PDF文件文本内容。

Seoul 2002-09-07 08:48:46
要求提取出来的文本内容和标点符号均正确,分页有规律(方便程序处理)。
方法不限,但要求能够方便地处理大批量处理PDF文件。
PDF样本文件下载:
ftp://211.161.13.249
用户名:abc
密码:123
下载时间:星期1至星期5晚上6:30-11:30
     周末上午11:00-晚11:30

成功后,请将文本及联系方式发至:seoul.cai@x263.net。
我会立即与您联系并支付现金。
...全文
54 19 打赏 收藏 转发到动态 举报
写回复
用AI写文章
19 条回复
切换为时间正序
请发表友善的回复…
发表回复
海之林 2010-06-26
  • 打赏
  • 举报
回复
或许我会,可是下载不了PDF样本啊。可以联系我:QQ 80285586
Seoul 2002-09-09
  • 打赏
  • 举报
回复
当然要感谢大家的参与,但我更希望有人能够拿到这2000元人民币。
wangxd 2002-09-08
  • 打赏
  • 举报
回复
没做过,不过安装了adobe pdfreader后,它带了一个activex控件,你试试看.
有些pdf是保护了的,不知道能不能提取
大大怪老张 2002-09-08
  • 打赏
  • 举报
回复
你可以看我其它相同的贴子,所以,这个功能不属于你



楼主至少也该说句谢谢吧
钛哥 2002-09-07
  • 打赏
  • 举报
回复
好像市面上没看到PDF->Text 的软件,换句话说,应该是开创性工作。
如果这样,20000都太少


aawolf 2002-09-07
  • 打赏
  • 举报
回复
是呀是呀,我刚才还以为是读出PDF来就完了呢,结果还要转成文本文件……
我记得有一部分PDF是直接扫描生成的,那样的话,岂不是……
我不懂电脑 2002-09-07
  • 打赏
  • 举报
回复
20000才值得动动手。
aawolf 2002-09-07
  • 打赏
  • 举报
回复
http://202.96.70.229/cakk/delphi/
2000的人民币我是不要了,记得给点分呀。20分太少了!
aawolf 2002-09-07
  • 打赏
  • 举报
回复
想自己做一个类PDF的文件浏览器了,扩展名和文件头可能都不一样。记得方正有一个类似的东西,我看了一下文件头,几乎和PDF一模一样就是关键字变了,阿道伯的浏览器就不认了。我猜楼主大概在做一个公文管理的系统,2000太少了点了,我们以前公司为了解决一个图象的问题花了近10000,我看的眼都红了。开玩笑。
这个不难,曾经在大富翁连接的某个站点上看到过PDF的说明文档,自己去看吧,我现在没时间给你做这个东西,不过我觉得自己写的算法在处理大量文件的时候效率可能还不如人家的算法呢。
待会如果找到的话,我给你个下载地址。
Seoul 2002-09-07
  • 打赏
  • 举报
回复
To:aawolf(羌狼)
这个文件我N月前就有了,早上发贴子时忘记放了。
 你可以看我其它相同的贴子,所以,这个功能不属于你。
gfh21cn 2002-09-07
  • 打赏
  • 举报
回复
这是什么意思

aawolf 2002-09-07
  • 打赏
  • 举报
回复
这有什么眼红的?5000专家分!=高手。不要小看挂三角的人,高手也很多呢。
不过楼主可够差劲的,把我给的网址下载了后立马就放在FTP上了,连句谢都不说。我又不要你的钱,连句谢都这么吝啬呀。
yangguo_god 2002-09-07
  • 打赏
  • 举报
回复
aawolf(羌狼)
升星了了!看着你升的星,好红哦
shally5 2002-09-07
  • 打赏
  • 举报
回复
关注!
aawolf 2002-09-07
  • 打赏
  • 举报
回复
那扫描生成的PDF文件和直接由文本转成的PDF内在结构有什么不同的呢?
我明白了,楼主原来是在做这个呀,猜错了。
blazeyan 2002-09-07
  • 打赏
  • 举报
回复
对,我用过Acrobat的一个版本,本身就可以直接转成Txt。
  • 打赏
  • 举报
回复
扫描的当然还是要OCR,嗬嗬!
我上面的所言是针对他的FTP上的那个文件。
aawolf 2002-09-07
  • 打赏
  • 举报
回复
cker说来听听,如何能将扫描生成的PDF转换成文本呢?我一直都在为这件事情而纳闷。
  • 打赏
  • 举报
回复
嘿嘿,其实Acrobat自己就可以很方便的另存为RTF和TXT。
只是这里有点特殊,原作者使用了自定义的标点符号字体,嵌入在PDF中。
你想要正确的标点就和他去商量吧....:)

嗬嗬,一帮盗版的哥们阿....:)

<rdf:Description about=''
xmlns='http://ns.adobe.com/pdf/1.3/'
xmlns:pdf='http://ns.adobe.com/pdf/1.3/'>
<pdf:Author></pdf:Author>
<pdf:CreationDate>2000-09-29T20:37:02-08:00</pdf:CreationDate>
<pdf:Creator>北大方正V6.0</pdf:Creator>
<pdf:Producer>S22PDF V1.0 郭力(C)</pdf:Producer>
<pdf:Title></pdf:Title>
<pdf:Subject></pdf:Subject>
<pdf:Keywords></pdf:Keywords>
<pdf:ModDate>2002-09-07T08:21:56+08:00</pdf:ModDate>
</rdf:Description>

13,825

社区成员

发帖
与我相关
我的任务
社区描述
C++ Builder相关内容讨论区
社区管理员
  • 基础类社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧