如何提取出pdf文档的标题？

ardu 2000-09-10 11:49:00

由于有大批pdf文档要看，但是文件名与文档标题不一样，为了方便了解文件内容，
想编一个程序自动提取pdf文档的标题。
希望各位大侠帮忙，在下不胜感激。
用ultraedit发现pdf文档有两种格式，有的里面"/title"后面的就是标题
但有的好象就不是ascii码的形式，整个文档里就查找不到标题
请问各位大侠有何办法？在下这厢先谢过了。

...全文

303 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

PDF图片提取，专门提PDF文档中的图片，效果很好的。所以推荐大家用一下。

pdf标题 pdftitle是提取PDF文章标题的小实用程序。当您有一些PDF文章无法从它们的文件名中理解它们的内容时，可以使用此实用程序提取标题并根据需要重命名文件。该实用程序不会查看PDF文件的元数据。元数据中的标题可以为空。它适用于约80％的PDF，特别适合科学文章的PDF文件。 pdftitle使用pdfminer.six项目使用其自己的PDF设备和PDF解释器实现来解析PDF文档。源代码中的变量和计算的名称与PDF规范中的变量名称非常相似（）。安装 pip install pdftitle 用法 pdftitle -p <pdf>返回找到的文档标题。 $ pdftitle -p knuth65.pdf On the Translation of Languages from Left to Right pdftitle -p <pdf-fi

GROBID GROBID文档请访问以获取更多详细信息。概要 GROBID（或Grobid，但不是GroBid或GroBiD）表示书目数据的生成。 GROBID是一个机器学习库，用于将原始文档（例如PDF）提取，解析和重组为结构化XML / TEI编码的文档，尤其侧重于技术和科学出版物。最早的发展始于2008年，是一种业余爱好。在2011年，该工具已以开源形式提供。自开始以来，作为副项目的GROBID工作就一直稳定，并有望继续进行。可以使用以下功能：从PDF格式的文章中提取标题并进行解析。这里的摘录涵盖了通常的书目信息（例如标题，摘要，作者，隶属关系，关键字等）。从.

java操作PDF提取PDF标题作者文档时间以及各种详细信息

我没有加任何的答案提示，看看 GPT 如何反应。它应该是知道 PDF 没有任何语义信息，一切标题或者正文全是文本框。它里面有个错误，应该是，我改了过来。这个逻辑完全不对，我试了以下我手头的一个文字 PDF（三眼文集.pdf），第二页doc[1]的第一行就是标题。看看能不能提取这个文本块的确是标题，但是type不是 1，根本提取不出来。

2,586

社区成员

18,441

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章