pdfminer无法读取PDF问题?

asuspro 2017-07-15 11:37:08
刚刚学习Python,计划做一个从PDF中读取表格数据存储到数据库的小程序。采用的是Python2.7+pdfminer。
PDFMiner中的实例转换成TXT没有问题,但读取所需PDF时无法输出内容。
查了一下出现问题的PDF信息:iText 5.0.4 (c) 1T3XT BVBA生成、PDF版本:1.4。
不知道如何解决,哪位老大帮忙指点一下。
...全文
1142 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
qhm95 2018-09-23
  • 打赏
  • 举报
回复
您好,我出现问题WARNING:root:GBK-EUC-H,按照您说的方法,还是不能解决,windows 3.x
Seiktop 2017-10-12
  • 打赏
  • 举报
回复 1
解决了…看文档…没看明白文档是硬伤
Seiktop 2017-10-12
  • 打赏
  • 举报
回复
这个解决方法是Linux的吗?windows系统内怎么进行这项额外安装啊?
asuspro 2017-07-16
  • 打赏
  • 举报
回复 1
终于整明白了,PDFminer安装的时候为了支持中日韩文字,还有额外的安装。具体如下: mkdir pdfminer\cmap python tools\conv_cmap.py -c B5=cp950 -c UniCNS-UTF8=utf-8 pdfminer\cmap Adobe-CNS1 cmaprsrc\cid2code_Adobe_CNS1.txt python tools\conv_cmap.py -c GBK-EUC=cp936 -c UniGB-UTF8=utf-8 pdfminer\cmap Adobe-GB1 cmaprsrc\cid2code_Adobe_GB1.txt python tools\conv_cmap.py -c RKSJ=cp932 -c EUC=euc-jp -c UniJIS-UTF8=utf-8 pdfminer\cmap Adobe-Japan1 cmaprsrc\cid2code_Adobe_Japan1.txt python tools\conv_cmap.py -c KSC-EUC=euc-kr -c KSC-Johab=johab -c KSCms-UHC=cp949 -c UniKS-UTF8=utf-8 pdfminer\cmap Adobe-Korea1 cmaprsrc\cid2code_Adobe_Korea1.txt python setup.py install 至此折腾一天的无输出问题解决了。 一定要好好阅读文档、一定要好好阅读文档、一定要好好阅读文档,重要的事情说三遍,
asuspro 2017-07-15
  • 打赏
  • 举报
回复
查看出现问题的PDF中的字体为:Helvertica、STSONG-Light,但字体安装完毕后问题依旧是无法输出内容。 试用pdf2htmlEX-win32-0.14.6-with-poppler-data,问题也是一样的。
asuspro 2017-07-15
  • 打赏
  • 举报
回复
在另外一台机器上安装python-3.6.1-amd64+pdfminer3k-1.3.1,继续测试。 运行pdf2xt.py出现报错:WARNING:root:UniGB-UCS2-H,从网上下载adobesongstd-light字体安装,问题依旧无法输出PDF的内容。

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧