请问Python+tesseract是否可以识别图片中的表格内容

xxii12 2019-04-05 12:12:56

我有一张图，内容是一个填满数据的表格，用tesseract识别出来是乱码，但是我试过我的系统识别其他各种文字形式的东西是ok的。请赐教，谢谢

...全文

563 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后由Google进行改进、修改bug、优化，重新发布。

基于java+python+opencv实现的图片文字信息提取（快速识别多张图片，识别率达95%以上）+源码+开发文档+项目解析，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用~ 项目简介：网店工商信息图片文字提取图片内容如下所示，但每张图片中信息出现的位置不尽相同，题目要求所写的程序能够完成如下几个功能点。程序能够识别不同格式的图片，并能够提取所要求的信息。从图片之中提取企业注册号和企业名称信息，并保存到Excel表格之中。程序能够自动读取企业工商信息图片所在的文件夹路径。识别速度保持在60秒识别50张图片，识别正确率保证在95%以上。 Tess4j 了解题目要求之后，我们便开始来解决问题。首先明确一点的是，肯定不能从头去写文字识别算法或者文字识别程序，OCR(Optical Character Recognition , 光学字符识别)发展这么多年来，开源的库肯定不少，只需找到适合中文识别的类库或者项目即可。个人采用的是Tess4j开源库，其中Tess4j是由Tesseract扩展而来，Tesseract....

本文详细介绍了如何使用Python实现批量识别图片上的文字功能，包括1.0和2.0两个版本的功能对比。1.0版本支持批量识别图片并输出CSV文件，而2.0版本在此基础上增加了选定识别区域、单个识别和批量识别功能，并支持实时显示识别结果。文章还详细讲解了技术实现细节，包括使用PyQt5实现图形界面，通过QLabel显示图片，以及利用鼠标事件和绘图API实现图片选取框的功能。此外，还介绍了断点续识功能的实现方法，以及如何通过文件选择器选取文件并显示图片。最后，文章展示了识别结果的保存和展示方式，包括CSV文件和表格展示，并提供了删除和重新识别的功能。

Tesseract OCR图像识别类库 v5.3.4.zip

应用场景：文档数字化：将纸质文档扫描后识别为数字文本。自动化表单处理：从填写的表单中提取信息。车牌识别：用于交通监控或自动收费系统。辅助技术：帮助视觉障碍人士阅读印刷材料。多语言支持：Tesseract 支持100多种语言的识别。高度可定制：用户可以训练Tesseract来识别新的字体或优化特定语言的识别。多种输出格式：Tesseract 可以输出普通文本、hOCR（带有布局信息的HTML）、PDF等格式。集成易用：可以通过命令行使用，也可通过其API集成到其他应用程序中，比如通过pytesseract在Python中使用。

其他数据库

2,209

社区成员

9,519

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章