社区
API
帖子详情
急求用VB实现提取PDF内容的函数及相应实现代码!!!
gh_xiong555
2008-04-18 08:26:15
急求用VB实现提取PDF内容的函数及相应实现代码!!!
我想做的是用VB编程实现对我硬盘的所有的PDF文档进行搜索,找到符合我自己要求的文档,比如查找包含有“计算机”三个字的PDF文档,而且只需在每个PDF文档的开头一段查找到就可以,后面的都不用查找,不知如何实现,我只会VB,但是我不想用JAVA的开源包及搜索软件,想自己实现,不知有没有做过这方面的?请大家帮帮忙!
...全文
278
9
打赏
收藏
急求用VB实现提取PDF内容的函数及相应实现代码!!!
急求用VB实现提取PDF内容的函数及相应实现代码!!! 我想做的是用VB编程实现对我硬盘的所有的PDF文档进行搜索,找到符合我自己要求的文档,比如查找包含有“计算机”三个字的PDF文档,而且只需在每个PDF文档的开头一段查找到就可以,后面的都不用查找,不知如何实现,我只会VB,但是我不想用JAVA的开源包及搜索软件,想自己实现,不知有没有做过这方面的?请大家帮帮忙!
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
9 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
gh_xiong555
2008-04-28
打赏
举报
回复
虽没得到解决方法,还是感谢各位对我问题的支持!
我觉得解决方案还是有的!不过先要研究PDF的格式,呵呵
bobob
2008-04-22
打赏
举报
回复
PDF里面文本的显示,根本就不是用windows api,字是按照图像的方式显示的,用金山词霸验证一下就知道了,取PDF里面的词必须要装取词插件
获取文字编码-》在对应的字体资源里面查找字体轮廓-》按图像方式显示出来,字体资源可能是硬盘上的字体文件,也肯能是内嵌到PDF中的一段资源(完整或部分的字体文件)。字体编码可能是标准的,也可能是自定义的(就是楼上某位朋友说的复制出来是乱码的情况)。
PDF文件结构很严格,哪怕你要读取一个字,也要解析整个文件结构,将会涉及大量编解码,不是你想的那么简单。
smalle
2008-04-18
打赏
举报
回复
如果PDF可以随便让你读出内容的话,相信没多少人用它了。
gh_xiong555
2008-04-18
打赏
举报
回复
高手在吗?帮帮小弟了,救救我了,这个问搞了我一个星期了
smalle
2008-04-18
打赏
举报
回复
word之所以可以让你通过编程读其内容,主要是因为微软为你提供了编程接口(函数库和XML等),如果你没有微软提供的WORD编程接口,除非你破解它,否则你是不可能通过编程读WORD的内容的。
PDF之所以发展起来,很大一个原因就是它可以一定程度上保护版权,防止非法复制其内容。
如果你可以轻易读其内容的话,相信很多人令愿使用WORD,毕竟更多人使用WORD
所以楼主还是令想它法吧。
of123
2008-04-18
打赏
举报
回复
[Quote=引用 5 楼 YFY 的回复:]
WORD是通过控件实现内容读取的,PDF没有听说过有这方面的控件。
PDF以图像方式存储的,一些质量差的PDF,连ADOBE自己也认不出字符来。
目前实现的可能性很小。
[/Quote]
不会吧?你从 .pdf 文件是如何复制粘贴文本到 .doc 和 .txt 的?只是 .pdf 没有像微软那样开放的接口函数可用而已。
试试 FindWindow 和 FindWindowEx 等 API,看看能否发消息给 abode reader 取得文本数据。它反正是要和 Windows 接口的。
另外,不妨查查国外的网站。
YFY
2008-04-18
打赏
举报
回复
WORD是通过控件实现内容读取的,PDF没有听说过有这方面的控件。
PDF以图像方式存储的,一些质量差的PDF,连ADOBE自己也认不出字符来。
目前实现的可能性很小。
zzyong00
2008-04-18
打赏
举报
回复
[Quote=引用 3 楼 gh_xiong555 的回复:]
当然不是随便读了,是想通过编程来解决呀,所以不请教这方面的问题!
估计还是编程水平的问题及对PDF研究的问题!
WORD也能用编程实现其内容抽取呀!但我们还不是天天在用?
[/Quote]
你天天在用WORD,哪是因为你装了WORD,以前,如果你没有安装MS OFFICE,你有什么方法读取你想到的内容?
不过现在,微软件已开放了OFFICE文件的格式了,哪就另当别论了
gh_xiong555
2008-04-18
打赏
举报
回复
当然不是随便读了,是想通过编程来解决呀,所以不请教这方面的问题!
估计还是编程水平的问题及对PDF研究的问题!
WORD也能用编程实现其内容抽取呀!但我们还不是天天在用?
vb
/
vb
.net开发精粹(19)
如何消除多余十字光标?
vb
6.0 Mschar 获取X轴(注脚)的值、改变图例位置(默认右边)
VB
实现
IP通讯控制 关于Mscomm通讯假死 关于WshShell.AppActivate的疑惑 求助 WINSOCK发送邮件为什么
内容
稍微长点就收不到呢? 请教关于图片保存的问题。谢谢! 寻一个Activex,就是IE得到MAC的控件,希望是
VB
代码
. 给Combo1控件赋值
vb
/
vb
.net开发技巧荟萃(十二)
word插入页码出错 关于mscomm串口通信 文字显示问题 如何让RichTextBox接收图片以外的数据 请问如何检测版本是否需要升级。 如何使用
VB
6 更改系统服务类型? ResolveIpNetEntry2如何使用
vb
中的数字采用ado方式写入到excel后 变成字符串类型了
VB
调用matlab编译的DLL出现自动化错误 回车焦点下移并选中
急求
...
我在CSDN参与的3000个帖子
今日偶然翻到,感慨万千 1:申述:版主,是否扣了我的专家分? 2:100分
急求
,随机输出十个小写字母,但是,要求这十个字母不相同 3:求Sn=a+aa+aaa+…+aaa…a(n个a)之值 4:数组题 望高手帮忙! 5:呵呵,来推荐一下我的网站,本站提供大量当今流行的免费的音乐和免费电影,常用软件、游戏、精美图库下载,希望对网友有帮助!顺便散分! 6:
VB
A请教怎
WEB开发文档2 总结
转自:http://blog.donews.com/lvjiyong/archive/2006/06/29/931071.aspx怎样将后台生成的在内存中的图象显示到客户端Microsoft IE WebControls下载地址如何在DATAGRID中使用JAVASCRIPT脚本控制DataGrid中连接到下一页显示数据下载中文名文件时保存文件名乱码问题关于用ASP.net绘图的问题,请大虾指教那
实训商业源码-百川多公众号集字福袋 2.0.5开源-论文模板.zip
实训商业源码-百川多公众号集字福袋 2.0.5开源-论文模板.zip
API
1,488
社区成员
23,276
社区内容
发帖
与我相关
我的任务
API
VB API
复制链接
扫一扫
分享
社区描述
VB API
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章