急求用VB实现提取PDF内容的函数及相应实现代码!!!

gh_xiong555 2008-04-18 08:26:15
急求用VB实现提取PDF内容的函数及相应实现代码!!!


我想做的是用VB编程实现对我硬盘的所有的PDF文档进行搜索,找到符合我自己要求的文档,比如查找包含有“计算机”三个字的PDF文档,而且只需在每个PDF文档的开头一段查找到就可以,后面的都不用查找,不知如何实现,我只会VB,但是我不想用JAVA的开源包及搜索软件,想自己实现,不知有没有做过这方面的?请大家帮帮忙!
...全文
265 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
gh_xiong555 2008-04-28
  • 打赏
  • 举报
回复
虽没得到解决方法,还是感谢各位对我问题的支持!

我觉得解决方案还是有的!不过先要研究PDF的格式,呵呵
bobob 2008-04-22
  • 打赏
  • 举报
回复
PDF里面文本的显示,根本就不是用windows api,字是按照图像的方式显示的,用金山词霸验证一下就知道了,取PDF里面的词必须要装取词插件
获取文字编码-》在对应的字体资源里面查找字体轮廓-》按图像方式显示出来,字体资源可能是硬盘上的字体文件,也肯能是内嵌到PDF中的一段资源(完整或部分的字体文件)。字体编码可能是标准的,也可能是自定义的(就是楼上某位朋友说的复制出来是乱码的情况)。

PDF文件结构很严格,哪怕你要读取一个字,也要解析整个文件结构,将会涉及大量编解码,不是你想的那么简单。
smalle 2008-04-18
  • 打赏
  • 举报
回复
如果PDF可以随便让你读出内容的话,相信没多少人用它了。
gh_xiong555 2008-04-18
  • 打赏
  • 举报
回复
高手在吗?帮帮小弟了,救救我了,这个问搞了我一个星期了
smalle 2008-04-18
  • 打赏
  • 举报
回复
word之所以可以让你通过编程读其内容,主要是因为微软为你提供了编程接口(函数库和XML等),如果你没有微软提供的WORD编程接口,除非你破解它,否则你是不可能通过编程读WORD的内容的。

PDF之所以发展起来,很大一个原因就是它可以一定程度上保护版权,防止非法复制其内容。
如果你可以轻易读其内容的话,相信很多人令愿使用WORD,毕竟更多人使用WORD

所以楼主还是令想它法吧。
of123 2008-04-18
  • 打赏
  • 举报
回复
[Quote=引用 5 楼 YFY 的回复:]
WORD是通过控件实现内容读取的,PDF没有听说过有这方面的控件。

PDF以图像方式存储的,一些质量差的PDF,连ADOBE自己也认不出字符来。

目前实现的可能性很小。
[/Quote]

不会吧?你从 .pdf 文件是如何复制粘贴文本到 .doc 和 .txt 的?只是 .pdf 没有像微软那样开放的接口函数可用而已。
试试 FindWindow 和 FindWindowEx 等 API,看看能否发消息给 abode reader 取得文本数据。它反正是要和 Windows 接口的。

另外,不妨查查国外的网站。
YFY 2008-04-18
  • 打赏
  • 举报
回复
WORD是通过控件实现内容读取的,PDF没有听说过有这方面的控件。

PDF以图像方式存储的,一些质量差的PDF,连ADOBE自己也认不出字符来。

目前实现的可能性很小。
zzyong00 2008-04-18
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 gh_xiong555 的回复:]
当然不是随便读了,是想通过编程来解决呀,所以不请教这方面的问题!
估计还是编程水平的问题及对PDF研究的问题!
WORD也能用编程实现其内容抽取呀!但我们还不是天天在用?
[/Quote]
你天天在用WORD,哪是因为你装了WORD,以前,如果你没有安装MS OFFICE,你有什么方法读取你想到的内容?

不过现在,微软件已开放了OFFICE文件的格式了,哪就另当别论了
gh_xiong555 2008-04-18
  • 打赏
  • 举报
回复
当然不是随便读了,是想通过编程来解决呀,所以不请教这方面的问题!
估计还是编程水平的问题及对PDF研究的问题!
WORD也能用编程实现其内容抽取呀!但我们还不是天天在用?

1,488

社区成员

发帖
与我相关
我的任务
社区描述
VB API
社区管理员
  • API
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧