91,749
社区成员
PDF区域文本提取工具
https://blog.csdn.net/as604049322/article/details/121559235
当前文章的标题和链接已复制到剪切版,取消点击复制的复选框选项可取消此操作
发布时间:2021-11-26 14:25:22,阅读数:192,点赞数:27,评论数:5
{'原创': 151, '周排名': 13, '总排名': 261, '访问': 5843318, '等级': 8, '积分': 27456, '粉丝': 16575, '获赞': 13111, '评论': 5693, '收藏': 15562}
专栏和标签:['gui图形化工具', 'python', 'PDF', 'gui'],阅读数:195,点赞数:27,评论数:5,收藏数:22
文章内容:
我们在用代码不断测试区域范围时还挺需要感觉的 试想如果我们可以开发一个图像化工具 直接鼠标框选提取区域就精准的太多了 不需要不断的测试 经过几天的研究 完全不会wxpython总算是实现了一个非常精简的图像化的PDF区域选择提取工具 整体效果如下 功能简介打开软件后界面如下 点击打开文件按钮打开之前的PDF文件后效果如下 框选区域后 标题栏会自动显示当前框选的区域提取到的文字 还可以左右按钮切换 实际我们需要提取文字的区域可能不止这一个 所以程序支持多区域框选 完成区域框选后就可以点击保存文件 将PDF每页提取到的文本保存到一个csv文件中 当前选区的保存结果如下 可以看到已经按框选顺序依次保存了每一个区域的字符串 如果选择区域时发现提取结果不准确 可以撤销后重新选择 保存图片则会将PDF的每页的整体保存为一张图片 未选择区域时 以页码为文件名保存图片 选择区域时 会自动提取最后一个区域提取的文本作为当前页的文件名 开发代码当然这个项目由于本人是一次使用wxpython 功能非常简约 现在将完整代码开源出来期待各位大佬的改进