有一种扫描版的PDF可以复制里面的中文作为纯文本?

ooolinux 2016-10-25 09:24:22
有一种扫描版的PDF可以复制里面的中文作为纯文本,测试复制粘贴了好几处,绝大多数中文都是正确的,而复制里面的英文(代码行,无法完全选中)出来却是乱码。这种PDF是怎么做的?
...全文
1075 16 打赏 收藏 转发到动态 举报
写回复
用AI写文章
16 条回复
切换为时间正序
请发表友善的回复…
发表回复
张小飞Official 2016-12-05
  • 打赏
  • 举报
回复
pdf支持内嵌字体,你看到的不一定是你看到的,这么说好绕
ooolinux 2016-12-04
  • 打赏
  • 举报
回复
引用 11 楼 u010165006 的回复:
[quote=引用 8 楼 hongwenjun 的回复:] 你的PDF 看过属性是, CAJ2PDF 是CAJ转过来的PDF. CAJ格式扫描的时候会自动OCR吧
文本存到图片上面和图片文字对应 ———————————————— 这个什么意思,两个图层?下层图片可见吗? PDF的属性怎么看?[/quote]
ooolinux 2016-11-15
  • 打赏
  • 举报
回复
赵4老师 2016-10-26
  • 打赏
  • 举报
回复
仅供参考:
VB实现OCR文字识别
原理: 利用微软OCR控件, 只需要不到10行代码就能够实现自已的OCR文字识别软件.
1. 添加控件,需要安装office2003, 没有安装office2003的可以从别人机子上拷贝相关文件,注册regsvr32.exe mdivwctl.dll,
控件一般在这个目录下:C:\Program Files\Common Files\Microsoft Shared\MODI\11.0, 只需要相关的几个文件就可以了, 此文件夹全部文件大概在21M左右.
工程->部件->添加这个控件:Microsoft Office Document Imaging 11.0 Type Library

2.在按钮的Click事件里:
    Dim strLayoutInfo As String, strLPN As String

     '初始化并加载文档
    Set miDoc = CreateObject("MODI.Document")            '创建对象
    miDoc.Create "D:\未命名.tif"                         '加载图片文件(必须是黑白二值图)

    Screen.MousePointer = vbHourglass                    '设置光标忙
    '识别
    miDoc.Images(0).OCR miLANG_CHINESE_SIMPLIFIED, True, True '有用的就此一句,识别为中文简体

    Set modiLayout = miDoc.Images(0).Layout              '读出数据
    strLayoutInfo = _
        "Language: " & modiLayout.Language & vbCrLf & _
        "Number of characters: " & modiLayout.NumChars & vbCrLf & _
        "Number of fonts: " & modiLayout.NumFonts & vbCrLf & _
        "Number of words: " & modiLayout.NumWords & vbCrLf & _
        "Beginning of text: " & Left(modiLayout.Text, 50) & vbCrLf & _
        "First word of text: " & modiLayout.Words(0).Text
    MsgBox strLayoutInfo, vbInformation + vbOKOnly, "Layout Information"
    Set modiLayout = Nothing
    Set miDoc = Nothing
    Screen.MousePointer = vbDefault

3. OK了, 是不是很简单

ooolinux 2016-10-25
  • 打赏
  • 举报
回复
引用 6 楼 paschen 的回复:
[quote=引用 5 楼 u010165006 的回复:] [quote=引用 3 楼 paschen 的回复:] 图像识别,但不一定百分百正确
是识别好的文本做在PDF文件里,还是PDF阅读器即时识别?[/quote] 扫描版PDF里存的是图像,不是文字,如果有工具可以复制,应该是通过去识别图像中的文字[/quote] 是Adobe Reader 9阅读时选择复制的,文件在4楼。
paschen 2016-10-25
  • 打赏
  • 举报
回复
引用 5 楼 u010165006 的回复:
[quote=引用 3 楼 paschen 的回复:] 图像识别,但不一定百分百正确
是识别好的文本做在PDF文件里,还是PDF阅读器即时识别?[/quote] 扫描版PDF里存的是图像,不是文字,如果有工具可以复制,应该是通过去识别图像中的文字
ooolinux 2016-10-25
  • 打赏
  • 举报
回复
引用 3 楼 paschen 的回复:
图像识别,但不一定百分百正确
是识别好的文本做在PDF文件里,还是PDF阅读器即时识别?
ooolinux 2016-10-25
  • 打赏
  • 举报
回复
引用 1 楼 hongwenjun 的回复:
上样本,应该不是扫描的吧
http://pan.baidu.com/s/1bVY5t0
paschen 2016-10-25
  • 打赏
  • 举报
回复
图像识别,但不一定百分百正确
apple_v1 2016-10-25
  • 打赏
  • 举报
回复
大概是编码的问题吧
hongwenjun 2016-10-25
  • 打赏
  • 举报
回复
上样本,应该不是扫描的吧
ooolinux 2016-10-25
  • 打赏
  • 举报
回复
引用 10 楼 hongwenjun 的回复:
CAJViewer6.0特色功能:可以从扫描的内容中提取文字。而Adobe Acrobat 7.0 Professional都不能做到这点。 "CAJViewer 版本 6.0" 是光盘国家工程研究中心、清华同方知网(北京)技术有限公司 CAJViewer 系列产品截至 2005 年 3 月为止的最新版本,它充分吸取了当前市场上各种同类主流产品和自身上一版本 CAJViewer 5.5 的优点,经过长时间市场调查和系统设计而成,兼容 CAJ 和 PDF 等文件,功能齐全,操作友好,界面美观,必将成为您浏览书籍的首选。 与上一版本相比,CAJViewer 6.0新增加如下特点: 使用了 Microsoft Office 2003 风格的界面,更流畅,更丰富,布局更合理,能同时打开多个文档,在框架的上部有不同的标签指示,切换方便 。
CAJViewer 有试用过,也试过 汉王 PDF OCR,不过平时都没使用。
ooolinux 2016-10-25
  • 打赏
  • 举报
回复
引用 8 楼 hongwenjun 的回复:
你的PDF 看过属性是, CAJ2PDF 是CAJ转过来的PDF. CAJ格式扫描的时候会自动OCR吧
文本存到图片上面和图片文字对应 ———————————————— 这个什么意思,两个图层?下层图片可见吗? PDF的属性怎么看?
hongwenjun 2016-10-25
  • 打赏
  • 举报
回复
CAJViewer6.0特色功能:可以从扫描的内容中提取文字。而Adobe Acrobat 7.0 Professional都不能做到这点。 "CAJViewer 版本 6.0" 是光盘国家工程研究中心、清华同方知网(北京)技术有限公司 CAJViewer 系列产品截至 2005 年 3 月为止的最新版本,它充分吸取了当前市场上各种同类主流产品和自身上一版本 CAJViewer 5.5 的优点,经过长时间市场调查和系统设计而成,兼容 CAJ 和 PDF 等文件,功能齐全,操作友好,界面美观,必将成为您浏览书籍的首选。 与上一版本相比,CAJViewer 6.0新增加如下特点: 使用了 Microsoft Office 2003 风格的界面,更流畅,更丰富,布局更合理,能同时打开多个文档,在框架的上部有不同的标签指示,切换方便 。
hongwenjun 2016-10-25
  • 打赏
  • 举报
回复

CAJ 制作的时候,会OCR,然后文本存到图片上面和图片文字对应吧,但是英文可能间距太近无法OCR 就丢弃了
hongwenjun 2016-10-25
  • 打赏
  • 举报
回复
你的PDF 看过属性是, CAJ2PDF 是CAJ转过来的PDF. CAJ格式扫描的时候会自动OCR吧
计算机视觉(Computer Vision)又称为机器视觉(Machine Vision),顾名思义是一门“教”会计算机如何去“看”世界的学科。在机器学习大热的前景之下,计算机视觉与自然语言处理(Natural Language Process, NLP)及语音识别(Speech Recognition)并列为机器学习方向的三大热点方向。在如今互联网时代,人工智能发展迅速,计算机视觉领域应用非常广泛,对人才的需求也是非常大,计算机视觉在IT领域的工资水平非常高,初级就能达到一个很好的薪资水平,学好计算机视觉,势在必得,增加自己的竞争力以及给自己一个好的薪水。 以下是计算机视觉部分应用场景,可以看到它的需求非常大:1.Google, MS, Facebook, Apple,华为,阿里,腾讯,百度等世界科技公司,无一没有建立自己的AI实验室,AI里面,计算机视觉或图像处理是非常重要的一块,当然它们研究方向就多了,几乎会涵盖所有方向。2.世界各大汽车公司,如特斯拉,宝马。汽车公司开始发力自动驾驶,而自动驾驶里面最核心的技术就是“教”汽车里的电脑如何通过摄像头实时产生的图片和视频自动驾驶。因此视觉和图像处理便是核心技术所在,如行人探测,道路识别,模式识别。3.Adobe,美图秀秀等照片、winrar、real player等视频处理、压缩软件。这个不多说,直观的应用,比如降噪,图像分割、图像压缩、视频压缩。4.AR(增强现实)最近由于Pockman GO的风靡全球又被推到第一线,而Google Class或者三星Gear眼镜等等,也无不和图像处理、计算机视觉的科研有关。预测这将是未来几年主推的东西。5.迪士尼等各大电影制片公司。3-D电影,以及各种炫酷的电影特效,当然里面不光有图像处理,还有计算机图形学的东西在里面。6.地平线,大疆无人机等机器人公司。和自动驾驶一个道理,机器人要通过摄像头“判断”并躲开前方障碍物,核心技术都在视觉和图像处理。7.医疗器械设备公司。医学图像处理,核磁共振,断层扫描等等,众所周知医疗行业都是暴利阿。8.工业级摄像头;包括高速路上的摄像头,机场火车站安检摄像头,工业流水线上的摄像头,嵌入了人脸或次品识别的芯片,智能地识别罪犯、次品,等等。 基于SpringBoot+Python多语言文档扫描处理和OCR识别系统,将以基础知识为根基,带大家完成一个强大的文档扫描处理和OCR识别系统,该系统将包含算法部分,算法服务,算法商业化api部分等。应用场景可以为:爬虫图片文字识别、文档图片自动整理和输出文字、实时扫描输出系统、PDF文档转换系统等等,算法可以商业化,系统同时实现了商业化api功能,商业价值非常高,大家可以基于课程项目的基础上进一步完善,做到商用,学到知识的同时,给自己额外增加收入。 本课程包含的技术: 开发工具为:IDEA、WebStorm、PyCharmPythonAnconaOpencvDjangoSpringBootSpringCouldVue+ElementUI+NODEJS等等 课程亮点: 1.与企业接轨、真实工业界产品2.强大的计算机视觉库OPENCV3.从基础到案例,逐层深入,学完即用4.市场主流的前后端分离架构和人工智能应用结合开发5.多语言结合开发,满足多元化的需求6.商业化算法api实现7.多Python环境切换8.微服务SpringBoot9.集成SpringCloud实现统一整合方案 10.全程代码实操,提供全部代码和资料 11.提供答疑和提供企业技术方案咨询
PDF 是现在办公一族必备的文档,它的方便和实用性深受大众喜爱,但是在日常办公当中有时我们并不需要 PDF 格式的文件,可是我们手中却有PDF文档,我 们怎么把 PDF 格式的文档转换成我们想要的格式呢,今天小编就给大家介绍一款非常棒的 PDF 转换器,它就是 PDFMate PDF Converter Professional。 PDFMate PDF Converter Pro 特别 PDFMate PDF Converter Professional 是一个全面的 PDF 转换程序,它能够整个 PDF 文件或指定的 PDF 页面快速准确地转换为 7 种格式。输出格式包括电 子书 EPUB 格式,微软 Office 2007 .docx 格式,可编辑的文本,图片格式,HTML 网页和 SWF Flash 视频格式。以简洁的界面和良好的组织功能区,PDFMate PDF Converter Professional 程序是为您的企业最轻巧方便的 PDF 转换软件或学习使用。 PDFMate PDF Converter Professional 是一个综合的 PDF 转换应用程序来帮助将 PDF 转换为其他格式。它也可以用作分离 PDFPDF 合并。 转换 PDF 到 Word,文本,EPUB,图片,HTML,SWF 以先进的 OCR 技术编辑扫描PDF 文件 给 PDF 文件 设置密码和权限 指定页面范围的 PDF 文件分割为单个 以惊人的速度和精度 合并批处理 PDF 文件 更改 PDF 布局和页面大小 PDFMate PDF Converter Pro 系统要求 以下是 PDFMate PDF Converter Professional 的系统要求: – Windows XP,Vista,Windows 7 和最新的 Windows 8 – 个人或多媒体电脑与1.5千兆赫(GHz)或更快的处理器 – 256兆字节(MB)或更高的RAM – 可用硬盘空间或更高100M – XGA(1024×768)或更高分辨率的显示器

15,440

社区成员

发帖
与我相关
我的任务
社区描述
C/C++ 非技术区
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧