python提取pdf与word中的相关信息

Marvel90 2012-11-16 03:58:56
对于正式发表的电子版pdf和word论文,需要用python脚本从文件的文本中提取其中的标题、作者、摘要、keyword信息,不考虑图片形式的pdf,数据量不大,效率重要度不大,已了解pypdf和pdfminer,不知如何实现,大家能否给个思路,谢谢!
...全文
735 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
willgowell 2015-07-18
  • 打赏
  • 举报
回复
楼主的问题解决了么?我现在也是遇到了像楼主一样的问题
zhaoqfeng 2012-12-07
  • 打赏
  • 举报
回复
work可使用win32com吧
Gloveing 2012-11-17
  • 打赏
  • 举报
回复
pdf:看pypdf和pdfminer的开发文档 word:使用其COM接口

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧