PDF区域文本提取工具

小小明-代码实体 2021-11-26 17:35:38

PDF区域文本提取工具
https://blog.csdn.net/as604049322/article/details/121559235
当前文章的标题和链接已复制到剪切版,取消点击复制的复选框选项可取消此操作
发布时间:2021-11-26 14:25:22,阅读数:202,点赞数:37,评论数:15
{'原创': 151, '周排名': 13, '总排名': 261, '访问': 5843797, '等级': 8, '积分': 27459, '粉丝': 16579, '获赞': 13121, '评论': 5703, '收藏': 15576}
专栏和标签:['gui图形化工具', 'python', 'PDF', 'gui'],阅读数:202,点赞数:37,评论数:15,收藏数:33
文章内容:
我们在用代码不断测试区域范围时还挺需要感觉的 试想如果我们可以开发一个图像化工具 直接鼠标框选提取区域就精准的太多了 不需要不断的测试 经过几天的研究 完全不会wxpython总算是实现了一个非常精简的图像化的PDF区域选择提取工具 整体效果如下 功能简介打开软件后界面如下 点击打开文件按钮打开之前的PDF文件后效果如下 框选区域后 标题栏会自动显示当前框选的区域提取到的文字 还可以左右按钮切换 实际我们需要提取文字的区域可能不止这一个 所以程序支持多区域框选 完成区域框选后就可以点击保存文件 将PDF每页提取到的文本保存到一个csv文件中 当前选区的保存结果如下 可以看到已经按框选顺序依次保存了每一个区域的字符串 如果选择区域时发现提取结果不准确 可以撤销后重新选择 保存图片则会将PDF的每页的整体保存为一张图片 未选择区域时 以页码为文件名保存图片 选择区域时 会自动提取最后一个区域提取的文本作为当前页的文件名 开发代码当然这个项目由于本人是一次使用wxpython 功能非常简约 现在将完整代码开源出来期待各位大佬的改进

...全文
32 回复 2 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
相关推荐
发帖
Java 爱好者社区
加入

28.8w+

社区成员

一个有温度的 Java 爱好者社区,区长是 CSDN 头牌沉默王二,29 万+读者,博客访问量 1000万+,全网屈指可数的博主~
帖子事件
创建了帖子
2021-11-26 17:35
社区公告
暂无公告