有一种扫描版的PDF可以复制里面的中文作为纯文本？

ooolinux 2016-10-25 09:24:22

有一种扫描版的PDF可以复制里面的中文作为纯文本，测试复制粘贴了好几处，绝大多数中文都是正确的，而复制里面的英文（代码行，无法完全选中）出来却是乱码。这种PDF是怎么做的？

...全文

1075 16 打赏收藏转发到动态举报

写回复

用AI写文章

16 条回复

切换为时间正序

请发表友善的回复…

发表回复

张小飞Official 2016-12-05

打赏
举报

pdf支持内嵌字体，你看到的不一定是你看到的，这么说好绕

ooolinux 2016-12-04

打赏
举报

引用 11 楼 u010165006 的回复:

[quote=引用 8 楼 hongwenjun 的回复:] 你的PDF 看过属性是， CAJ2PDF 是CAJ转过来的PDF. CAJ格式扫描的时候会自动OCR吧

文本存到图片上面和图片文字对应 ———————————————— 这个什么意思，两个图层？下层图片可见吗？ PDF的属性怎么看？[/quote]

ooolinux 2016-11-15

打赏
举报

赵4老师 2016-10-26

打赏
举报

仅供参考：

VB实现OCR文字识别
原理: 利用微软OCR控件, 只需要不到10行代码就能够实现自已的OCR文字识别软件.
1. 添加控件,需要安装office2003, 没有安装office2003的可以从别人机子上拷贝相关文件,注册regsvr32.exe mdivwctl.dll,
控件一般在这个目录下:C:\Program Files\Common Files\Microsoft Shared\MODI\11.0, 只需要相关的几个文件就可以了, 此文件夹全部文件大概在21M左右.
工程->部件->添加这个控件:Microsoft Office Document Imaging 11.0 Type Library

2.在按钮的Click事件里:
    Dim strLayoutInfo As String, strLPN As String

     '初始化并加载文档
    Set miDoc = CreateObject("MODI.Document")            '创建对象
    miDoc.Create "D:\未命名.tif"                         '加载图片文件(必须是黑白二值图)

    Screen.MousePointer = vbHourglass                    '设置光标忙
    '识别
    miDoc.Images(0).OCR miLANG_CHINESE_SIMPLIFIED, True, True '有用的就此一句，识别为中文简体

    Set modiLayout = miDoc.Images(0).Layout              '读出数据
    strLayoutInfo = _
        "Language: " & modiLayout.Language & vbCrLf & _
        "Number of characters: " & modiLayout.NumChars & vbCrLf & _
        "Number of fonts: " & modiLayout.NumFonts & vbCrLf & _
        "Number of words: " & modiLayout.NumWords & vbCrLf & _
        "Beginning of text: " & Left(modiLayout.Text, 50) & vbCrLf & _
        "First word of text: " & modiLayout.Words(0).Text
    MsgBox strLayoutInfo, vbInformation + vbOKOnly, "Layout Information"
    Set modiLayout = Nothing
    Set miDoc = Nothing
    Screen.MousePointer = vbDefault

3. OK了, 是不是很简单

ooolinux 2016-10-25

打赏
举报

引用 6 楼 paschen 的回复:

[quote=引用 5 楼 u010165006 的回复:] [quote=引用 3 楼 paschen 的回复:] 图像识别，但不一定百分百正确

是识别好的文本做在PDF文件里，还是PDF阅读器即时识别？[/quote] 扫描版PDF里存的是图像，不是文字，如果有工具可以复制，应该是通过去识别图像中的文字[/quote] 是Adobe Reader 9阅读时选择复制的，文件在4楼。

paschen 2016-10-25

打赏
举报

引用 5 楼 u010165006 的回复:

[quote=引用 3 楼 paschen 的回复:] 图像识别，但不一定百分百正确

是识别好的文本做在PDF文件里，还是PDF阅读器即时识别？[/quote] 扫描版PDF里存的是图像，不是文字，如果有工具可以复制，应该是通过去识别图像中的文字

ooolinux 2016-10-25

打赏
举报

引用 3 楼 paschen 的回复:

图像识别，但不一定百分百正确

是识别好的文本做在PDF文件里，还是PDF阅读器即时识别？

ooolinux 2016-10-25

打赏
举报

引用 1 楼 hongwenjun 的回复:

上样本，应该不是扫描的吧

http://pan.baidu.com/s/1bVY5t0

paschen 2016-10-25

打赏
举报

图像识别，但不一定百分百正确

apple_v1 2016-10-25

打赏
举报

大概是编码的问题吧

hongwenjun 2016-10-25

打赏
举报

上样本，应该不是扫描的吧

ooolinux 2016-10-25

打赏
举报

引用 10 楼 hongwenjun 的回复:

CAJViewer6.0特色功能：可以从扫描的内容中提取文字。而Adobe Acrobat 7.0 Professional都不能做到这点。 "CAJViewer 版本 6.0" 是光盘国家工程研究中心、清华同方知网(北京)技术有限公司 CAJViewer 系列产品截至 2005 年 3 月为止的最新版本，它充分吸取了当前市场上各种同类主流产品和自身上一版本 CAJViewer 5.5 的优点，经过长时间市场调查和系统设计而成，兼容 CAJ 和 PDF 等文件，功能齐全，操作友好，界面美观，必将成为您浏览书籍的首选。与上一版本相比，CAJViewer 6.0新增加如下特点: 使用了 Microsoft Office 2003 风格的界面，更流畅，更丰富，布局更合理,能同时打开多个文档，在框架的上部有不同的标签指示，切换方便。

CAJViewer 有试用过，也试过汉王 PDF OCR，不过平时都没使用。

ooolinux 2016-10-25

打赏
举报

引用 8 楼 hongwenjun 的回复:

你的PDF 看过属性是， CAJ2PDF 是CAJ转过来的PDF. CAJ格式扫描的时候会自动OCR吧

文本存到图片上面和图片文字对应 ———————————————— 这个什么意思，两个图层？下层图片可见吗？ PDF的属性怎么看？

hongwenjun 2016-10-25

打赏
举报

CAJViewer6.0特色功能：可以从扫描的内容中提取文字。而Adobe Acrobat 7.0 Professional都不能做到这点。 "CAJViewer 版本 6.0" 是光盘国家工程研究中心、清华同方知网(北京)技术有限公司 CAJViewer 系列产品截至 2005 年 3 月为止的最新版本，它充分吸取了当前市场上各种同类主流产品和自身上一版本 CAJViewer 5.5 的优点，经过长时间市场调查和系统设计而成，兼容 CAJ 和 PDF 等文件，功能齐全，操作友好，界面美观，必将成为您浏览书籍的首选。与上一版本相比，CAJViewer 6.0新增加如下特点: 使用了 Microsoft Office 2003 风格的界面，更流畅，更丰富，布局更合理,能同时打开多个文档，在框架的上部有不同的标签指示，切换方便。

hongwenjun 2016-10-25