社区
C++ Builder
帖子详情
2000人民币求提取PDF文件文本内容。
Seoul
2002-09-07 08:48:46
要求提取出来的文本内容和标点符号均正确,分页有规律(方便程序处理)。
方法不限,但要求能够方便地处理大批量处理PDF文件。
PDF样本文件下载:
ftp://211.161.13.249
用户名:abc
密码:123
下载时间:星期1至星期5晚上6:30-11:30
周末上午11:00-晚11:30
成功后,请将文本及联系方式发至:seoul.cai@x263.net。
我会立即与您联系并支付现金。
...全文
54
19
打赏
收藏
2000人民币求提取PDF文件文本内容。
要求提取出来的文本内容和标点符号均正确,分页有规律(方便程序处理)。 方法不限,但要求能够方便地处理大批量处理PDF文件。 PDF样本文件下载: ftp://211.161.13.249 用户名:abc 密码:123 下载时间:星期1至星期5晚上6:30-11:30 周末上午11:00-晚11:30 成功后,请将文本及联系方式发至:seoul.cai@x263.net。 我会立即与您联系并支付现金。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
19 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
海之林
2010-06-26
打赏
举报
回复
或许我会,可是下载不了PDF样本啊。可以联系我:QQ 80285586
Seoul
2002-09-09
打赏
举报
回复
当然要感谢大家的参与,但我更希望有人能够拿到这2000元人民币。
wangxd
2002-09-08
打赏
举报
回复
没做过,不过安装了adobe pdfreader后,它带了一个activex控件,你试试看.
有些pdf是保护了的,不知道能不能提取
大大怪老张
2002-09-08
打赏
举报
回复
你可以看我其它相同的贴子,所以,这个功能不属于你
楼主至少也该说句谢谢吧
钛哥
2002-09-07
打赏
举报
回复
好像市面上没看到PDF->Text 的软件,换句话说,应该是开创性工作。
如果这样,20000都太少
aawolf
2002-09-07
打赏
举报
回复
是呀是呀,我刚才还以为是读出PDF来就完了呢,结果还要转成文本文件……
我记得有一部分PDF是直接扫描生成的,那样的话,岂不是……
我不懂电脑
2002-09-07
打赏
举报
回复
20000才值得动动手。
aawolf
2002-09-07
打赏
举报
回复
http://202.96.70.229/cakk/delphi/
2000的人民币我是不要了,记得给点分呀。20分太少了!
aawolf
2002-09-07
打赏
举报
回复
想自己做一个类PDF的文件浏览器了,扩展名和文件头可能都不一样。记得方正有一个类似的东西,我看了一下文件头,几乎和PDF一模一样就是关键字变了,阿道伯的浏览器就不认了。我猜楼主大概在做一个公文管理的系统,2000太少了点了,我们以前公司为了解决一个图象的问题花了近10000,我看的眼都红了。开玩笑。
这个不难,曾经在大富翁连接的某个站点上看到过PDF的说明文档,自己去看吧,我现在没时间给你做这个东西,不过我觉得自己写的算法在处理大量文件的时候效率可能还不如人家的算法呢。
待会如果找到的话,我给你个下载地址。
Seoul
2002-09-07
打赏
举报
回复
To:aawolf(羌狼)
这个文件我N月前就有了,早上发贴子时忘记放了。
你可以看我其它相同的贴子,所以,这个功能不属于你。
gfh21cn
2002-09-07
打赏
举报
回复
这是什么意思
?
aawolf
2002-09-07
打赏
举报
回复
这有什么眼红的?5000专家分!=高手。不要小看挂三角的人,高手也很多呢。
不过楼主可够差劲的,把我给的网址下载了后立马就放在FTP上了,连句谢都不说。我又不要你的钱,连句谢都这么吝啬呀。
yangguo_god
2002-09-07
打赏
举报
回复
aawolf(羌狼)
升星了了!看着你升的星,好红哦
shally5
2002-09-07
打赏
举报
回复
关注!
aawolf
2002-09-07
打赏
举报
回复
那扫描生成的PDF文件和直接由文本转成的PDF内在结构有什么不同的呢?
我明白了,楼主原来是在做这个呀,猜错了。
blazeyan
2002-09-07
打赏
举报
回复
对,我用过Acrobat的一个版本,本身就可以直接转成Txt。
烟波三千里人鬼五百年
2002-09-07
打赏
举报
回复
扫描的当然还是要OCR,嗬嗬!
我上面的所言是针对他的FTP上的那个文件。
aawolf
2002-09-07
打赏
举报
回复
cker说来听听,如何能将扫描生成的PDF转换成文本呢?我一直都在为这件事情而纳闷。
烟波三千里人鬼五百年
2002-09-07
打赏
举报
回复
嘿嘿,其实Acrobat自己就可以很方便的另存为RTF和TXT。
只是这里有点特殊,原作者使用了自定义的标点符号字体,嵌入在PDF中。
你想要正确的标点就和他去商量吧....:)
嗬嗬,一帮盗版的哥们阿....:)
<rdf:Description about=''
xmlns='http://ns.adobe.com/pdf/1.3/'
xmlns:pdf='http://ns.adobe.com/pdf/1.3/'>
<pdf:Author></pdf:Author>
<pdf:CreationDate>2000-09-29T20:37:02-08:00</pdf:CreationDate>
<pdf:Creator>北大方正V6.0</pdf:Creator>
<pdf:Producer>S22PDF V1.0 郭力(C)</pdf:Producer>
<pdf:Title></pdf:Title>
<pdf:Subject></pdf:Subject>
<pdf:Keywords></pdf:Keywords>
<pdf:ModDate>2002-09-07T08:21:56+08:00</pdf:ModDate>
</rdf:Description>
Formula One e.Report Engine Developer License--灵活的10
摘要 Formula One e.Report Engine是一个灵活的100%纯Java工具,用来
提取
,格式化,从各种数据源传送数据,包括应用程序内的Java对象,数据库,Enterprise,JavaBeans和
文本
文件
。 组件列表 技术特性...
JGsoft.PowerGREP.v4.1.0.Retail-ZWT 压缩包二.共两个压缩包
支持从RAR,ZIP,ISO,7z,gzip,bzip等压缩包中
提取
文件
,支持从txt,doc,
pdf
,exl等
文件
中搜索。 功能非常强大,Enjoy It! 这里是最新的v4.1版本,0day完美注册版! ============================================= ...
JGsoft.PowerGREP.v4.1.0.Retail-ZWT 压缩包一.共两个压缩包
支持从RAR,ZIP,ISO,7z,gzip,bzip等压缩包中
提取
文件
,支持从txt,doc,
pdf
,exl等
文件
中搜索。 功能非常强大,Enjoy It! 这里是最新的v4.1版本,0day完美注册版! ============================================= ...
Python3,5行代码,Chatxxx能对
PDF
文件
进行旋转、
提取
、合并等一系列操作,看了这篇,80岁老奶奶走路都不扶墙了。
PDF
文件
加密;
PDF
文件
解密;在当前ChatGPT爆火的当下,作为技术er,我们多多少少都需要了解一些AI的知识。即使白~ 嫖~ ChatGPT的使用次数, 也是可以的。当然, 作为小鱼,肯定不会做(bai piao )的事情,但是,学习...
提取
招股说明书|确认书
pdf
文件
中的企业简称与企业全称(附python代码)。
考虑到
pdf
文件
可能会比较大且
pdf
文件
多时,读取的时间会很长,本文选择先
提取
说明书中的第一节表格中的全部数据,再进行后续的数据处理。数据处理是一个漫长的检查过程,建议读者从每一列开始进行一一排查。
C++ Builder
13,825
社区成员
102,679
社区内容
发帖
与我相关
我的任务
C++ Builder
C++ Builder相关内容讨论区
复制链接
扫一扫
分享
社区描述
C++ Builder相关内容讨论区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章