是否能用C++写一个将PDF转换成文字?

LAST_MAN 2012-05-28 07:25:13
看到网络上的pdftoWord,都是将PFD剪成图片,然后放到word里面

我现在想写一个软件,能够讲pdf里的文字抽取出来,像我们打字一样复制到word里面

用户可以转换之后,对需要的文字进行复制,修改等操作

请问这个想法是否能实现?如果能,应该怎么实现?
...全文
150 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
pathuang68 2012-05-28
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 的回复:]

引用 2 楼 的回复:
这个分两种情况了。一种PDF就是以文字形式保存的,这样的容易做出来。第二种就是PDF以图片形式保存的,这样从图片中提取文字是比较困难的

基本是第二种了,就是把一本书扫描出来的那种
[/Quote]

这样的话是非常有困难的,只能用OCR了,不能保证100%的正确。
jammymarse 2012-05-28
  • 打赏
  • 举报
回复
[Quote=引用 4 楼 的回复:]
引用 2 楼 的回复:
这个分两种情况了。一种PDF就是以文字形式保存的,这样的容易做出来。第二种就是PDF以图片形式保存的,这样从图片中提取文字是比较困难的

基本是第二种了,就是把一本书扫描出来的那种
[/Quote]

这样就很困了 坐等大牛
LAST_MAN 2012-05-28
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]
这个分两种情况了。一种PDF就是以文字形式保存的,这样的容易做出来。第二种就是PDF以图片形式保存的,这样从图片中提取文字是比较困难的
[/Quote]
基本是第二种了,就是把一本书扫描出来的那种
星星x 2012-05-28
  • 打赏
  • 举报
回复
楼上加1
W170532934 2012-05-28
  • 打赏
  • 举报
回复
这个分两种情况了。一种PDF就是以文字形式保存的,这样的容易做出来。第二种就是PDF以图片形式保存的,这样从图片中提取文字是比较困难的
iamdarkshine 2012-05-28
  • 打赏
  • 举报
回复
就是OCR啊

64,642

社区成员

发帖
与我相关
我的任务
社区描述
C++ 语言相关问题讨论,技术干货分享,前沿动态等
c++ 技术论坛(原bbs)
社区管理员
  • C++ 语言社区
  • encoderlee
  • paschen
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
  1. 请不要发布与C++技术无关的贴子
  2. 请不要发布与技术无关的招聘、广告的帖子
  3. 请尽可能的描述清楚你的问题,如果涉及到代码请尽可能的格式化一下

试试用AI创作助手写篇文章吧