pdfminer无法读取PDF问题？

asuspro 2017-07-15 11:37:08

刚刚学习Python，计划做一个从PDF中读取表格数据存储到数据库的小程序。采用的是Python2.7+pdfminer。
PDFMiner中的实例转换成TXT没有问题，但读取所需PDF时无法输出内容。
查了一下出现问题的PDF信息：iText 5.0.4 (c) 1T3XT BVBA生成、PDF版本：1.4。
不知道如何解决，哪位老大帮忙指点一下。

...全文

1142 6 打赏收藏转发到动态举报

写回复

6 条回复

切换为时间正序

请发表友善的回复…

发表回复

qhm95 2018-09-23

打赏
举报

回复

您好，我出现问题WARNING:root:GBK-EUC-H，按照您说的方法，还是不能解决，windows 3.x

Seiktop 2017-10-12

打赏
举报

回复 1

解决了…看文档…没看明白文档是硬伤

Seiktop 2017-10-12

打赏
举报

回复

这个解决方法是Linux的吗？windows系统内怎么进行这项额外安装啊？

asuspro 2017-07-16

打赏
举报

回复 1

终于整明白了，PDFminer安装的时候为了支持中日韩文字，还有额外的安装。具体如下： mkdir pdfminer\cmap python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt python setup.py install 至此折腾一天的无输出问题解决了。一定要好好阅读文档、一定要好好阅读文档、一定要好好阅读文档，重要的事情说三遍，

asuspro 2017-07-15

打赏
举报

回复

查看出现问题的PDF中的字体为:Helvertica、STSONG-Light，但字体安装完毕后问题依旧是无法输出内容。试用pdf2htmlEX-win32-0.14.6-with-poppler-data，问题也是一样的。

asuspro 2017-07-15

打赏
举报

回复

在另外一台机器上安装python-3.6.1-amd64+pdfminer3k-1.3.1，继续测试。运行pdf2xt.py出现报错：WARNING:root:UniGB-UCS2-H，从网上下载adobesongstd-light字体安装，问题依旧无法输出PDF的内容。

1、安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装：在网页 https://pypi.org/project/pdfminer3k/1.3.1/#files 进行下载，解压。然后cmd命令进入到当前文件夹：可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成 2.读取pdf中的TXT代码示例： from pdfminer.converter import PDFPageAggregator from pdfminer.layout import LAPar

Python内置的urllib模块的方法示例，爬取台湾高铁的信息，Python第三方模块pdfminer3k读取PDF文档，pymysql操作MySQL数据库。

本 Python 脚本使用 pdfminer3k 库从 PDF 文件中提取文本内容。它使用默认布局参数处理 PDF，提取所有文本，包括文本、标题、页眉和页脚。使用方法：安装 pdfminer3k 库：pip install pdfminer3k 将 PDF 文件命名为静夜思.pdf 并将其放在与脚本相同的目录中。运行脚本：python pdf_rd.py 输出：脚本将提取的文本打印到控制台。注意：如果你需要更精细的文本提取控制，可以自定义 LAParams 布局参数或使用其他 pdfminer3k 库提供的功能。确保正确安装了 pdfminer3k 库，并且你的 PDF 文件是有效的。

本文实例讲述了Python2.7读取PDF文件的方法。分享给大家供大家参考，具体如下：这篇文章示例代码采用的Python版本是2.7，需要下载的插件是PDFMiner，下载地址是http://www.unixuser.org/~euske/python/pdfminer/，地址里有安装方法，我就不再细说了，需要说明的是Python2只能使用PDFMiner，Python3不能使用，Python3可以使用PDFMiner3K，下载地址为https://pypi.python.org/pypi/pdfminer3k/。两种插件使用上大体相似，这里我以Python2为例，使用PDFMiner插件。

Python 爬虫 PDF 大数据采集与挖掘是一个有趣且具有挑战性的任务。下面是一些基本的步骤和攻略，可以帮助你开始：了解 PDF 结构：熟悉 PDF 文件的结构和格式，包括了解 PDF 的文档对象模型（DOM）、页面布局、文本和图像等元素的组织方式。选择合适的爬虫库：有许多 Python 爬虫库可用于处理网页数据，但对于 PDF 采集，可能需要使用专门的 PDF 处理库，如 pdfplumber 或 pdfminer。读取 PDF 内容：使用选定的 PDF 处理库，读取 PDF 文件的内容。你可以提取文本、图像、表格等信息。数据清洗和预处理：对提取的 PDF 数据进行清洗和预处理，例如去除噪声、转换格式、提取关键信息等。数据挖掘和分析：根据你的具体需求，使用数据挖掘和分析技术来挖掘 PDF 数据中的有用信息。这可能包括文本分类、情感分析、关键词提取等。存储和可视化：将处理后的数据存储到合适的数据库或文件中，并使用可视化工具展示分析结果。注意法律和道德问题：在进行 PDF 大数据采集和挖掘时，确保你遵守相关的法律和道德准则，特别是关于数据使用和隐私的规定。

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章