社区
脚本语言
帖子详情
pdfminer无法读取PDF问题?
asuspro
2017-07-15 11:37:08
刚刚学习Python,计划做一个从PDF中读取表格数据存储到数据库的小程序。采用的是Python2.7+pdfminer。
PDFMiner中的实例转换成TXT没有问题,但读取所需PDF时无法输出内容。
查了一下出现问题的PDF信息:iText 5.0.4 (c) 1T3XT BVBA生成、PDF版本:1.4。
不知道如何解决,哪位老大帮忙指点一下。
...全文
1142
6
打赏
收藏
pdfminer无法读取PDF问题?
刚刚学习Python,计划做一个从PDF中读取表格数据存储到数据库的小程序。采用的是Python2.7+pdfminer。 PDFMiner中的实例转换成TXT没有问题,但读取所需PDF时无法输出内容。 查了一下出现问题的PDF信息:iText 5.0.4 (c) 1T3XT BVBA生成、PDF版本:1.4。 不知道如何解决,哪位老大帮忙指点一下。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
qhm95
2018-09-23
打赏
举报
回复
您好,我出现问题WARNING:root:GBK-EUC-H,按照您说的方法,还是不能解决,windows 3.x
Seiktop
2017-10-12
打赏
举报
回复
1
解决了…看文档…没看明白文档是硬伤
Seiktop
2017-10-12
打赏
举报
回复
这个解决方法是Linux的吗?windows系统内怎么进行这项额外安装啊?
asuspro
2017-07-16
打赏
举报
回复
1
终于整明白了,PDFminer安装的时候为了支持中日韩文字,还有额外的安装。具体如下: mkdir pdfminer\cmap python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt python setup.py install 至此折腾一天的无输出问题解决了。 一定要好好阅读文档、一定要好好阅读文档、一定要好好阅读文档,重要的事情说三遍,
asuspro
2017-07-15
打赏
举报
回复
查看出现问题的PDF中的字体为:Helvertica、STSONG-Light,但字体安装完毕后问题依旧是无法输出内容。 试用pdf2htmlEX-win32-0.14.6-with-poppler-data,问题也是一样的。
asuspro
2017-07-15
打赏
举报
回复
在另外一台机器上安装python-3.6.1-amd64+pdfminer3k-1.3.1,继续测试。 运行pdf2xt.py出现报错:WARNING:root:UniGB-UCS2-H,从网上下载adobesongstd-light字体安装,问题依旧无法输出PDF的内容。
python 使用
pdf
min
er
3k
读取
PDF
文档的例子
1、安装
pdf
min
er
3k 通过pip安装: pip install
pdf
min
er
3k 下载安装:在网页 https://pypi.org/project/
pdf
min
er
3k/1.3.1/#files 进行下载,解压。然后cmd命令进入到当前文件夹: 可以直接在资源管理器的路径栏直接输入cmd进入到当前目录。然后执行 python setup.py install 等待安装完成 2.
读取
pdf
中的TXT代码示例: from
pdf
min
er
.conv
er
t
er
import
PDF
PageAggregator from
pdf
min
er
.layout import LAPar
urllib模块和pymysql模块的使用、
pdf
min
er
3k
读取
PDF
文档
Python内置的urllib模块的方法示例,爬取台湾高铁的信息,Python第三方模块
pdf
min
er
3k
读取
PDF
文档,pymysql操作MySQL数据库。
py源码-识别并
读取
PDF
中的文字.zip
本 Python 脚本使用
pdf
min
er
3k 库从
PDF
文件中提取文本内容。它使用默认布局参数处理
PDF
,提取所有文本,包括文本、标题、页眉和页脚。 使用方法: 安装
pdf
min
er
3k 库:pip install
pdf
min
er
3k 将
PDF
文件命名为 静夜思.
pdf
并将其放在与脚本相同的目录中。 运行脚本:python
pdf
_rd.py 输出: 脚本将提取的文本打印到控制台。 注意: 如果你需要更精细的文本提取控制,可以自定义 LAParams 布局参数或使用其他
pdf
min
er
3k 库提供的功能。 确保正确安装了
pdf
min
er
3k 库,并且你的
PDF
文件是有效的。
Python2.7
读取
PDF
文件的方法示例
本文实例讲述了Python2.7
读取
PDF
文件的方法。分享给大家供大家参考,具体如下: 这篇文章示例代码采用的Python版本是2.7,需要下载的插件是
PDF
Min
er
,下载地址是http://www.unixus
er
.org/~euske/python/
pdf
min
er
/,地址里有安装方法,我就不再细说了,需要说明的是Python2只能使用
PDF
Min
er
,Python3不能使用,Python3可以使用
PDF
Min
er
3K,下载地址为https://pypi.python.org/pypi/
pdf
min
er
3k/。两种插件使用上大体相似,这里我以Python2为例,使用
PDF
Min
er
插件。
Python爬虫
PDF
大数据采集与挖掘攻略.docx
Python 爬虫
PDF
大数据采集与挖掘是一个有趣且具有挑战性的任务。下面是一些基本的步骤和攻略,可以帮助你开始: 了解
PDF
结构:熟悉
PDF
文件的结构和格式,包括了解
PDF
的文档对象模型(DOM)、页面布局、文本和图像等元素的组织方式。 选择合适的爬虫库:有许多 Python 爬虫库可用于处理网页数据,但对于
PDF
采集,可能需要使用专门的
PDF
处理库,如
pdf
plumb
er
或
pdf
min
er
。
读取
PDF
内容:使用选定的
PDF
处理库,
读取
PDF
文件的内容。你可以提取文本、图像、表格等信息。 数据清洗和预处理:对提取的
PDF
数据进行清洗和预处理,例如去除噪声、转换格式、提取关键信息等。 数据挖掘和分析:根据你的具体需求,使用数据挖掘和分析技术来挖掘
PDF
数据中的有用信息。这可能包括文本分类、情感分析、关键词提取等。 存储和可视化:将处理后的数据存储到合适的数据库或文件中,并使用可视化工具展示分析结果。 注意法律和道德
问题
:在进行
PDF
大数据采集和挖掘时,确保你遵守相关的法律和道德准则,特别是关于数据使用和隐私的规定。
脚本语言
37,719
社区成员
34,238
社区内容
发帖
与我相关
我的任务
脚本语言
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
复制链接
扫一扫
分享
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章