tesseract如何对大量的样本进行训练？

comeonbabe_ 2019-03-28 12:22:37

我按照网上的教程来识别一张图片中的文字、出错、jtessBoxEditor来修改、再训练出自己的数据集，但是这个训练出来的traineddata只能识别出这张图片中的那种字体和对应的字，这是不是意味着如果每一次用官方的简体中文训练数据来识别时产生错误，都要用这种方法去修改、训练然后再组合起来呢？那这样是不是太麻烦了一点。
有没有一种方法让机器自己去纠正呢？求教各位。

...全文

279 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

遗失的陈雪锋 2021-10-29

打赏
举报

回复

用keras/pytorch实现训练
https://github.com/xiaofengShi/CHINESE-OCR

在进行多样本训练时，目的是提高Tesseract对特定字体或文本风格的识别准确性。训练Tesseract通常涉及以下几个核心知识点： 1. **样本文件**： - `zh2.normal.exp0.box`和`zh1.normal.exp0.box`是Tesseract的训练...

chi_sim.traineddata 文件包含了大量的简体中文字符和词语样本，使得Tesseract在处理含有简体中文的图像时能进行有效的文字识别。这个训练数据集涵盖了各种字体、字号和排版方式，确保了在不同的场景下都能有较好的...

然而，为了提高识别率，尤其是在处理特定字体或语言时，可能需要对Tesseract进行训练，使其熟悉特定的字符集和布局。这就是Tesseract训练工具的用武之地。在给定的资源中，我们提到的"训练工具"主要是指`...

4. **自定义训练**：除了预训练的数据，用户还可以根据需求对Tesseract进行定制化训练，以适应特定字体或领域。为了使用Tesseract进行中文识别，你需要首先安装Tesseract OCR引擎，然后加载相应的训练数据文件chi_...

本文将详细介绍Tesseract的运作原理，并重点解析其样本训练工具——jTessBoxEditor2.2的使用方法。一、Tesseract OCR基础 1. 工作流程：Tesseract OCR首先对图像进行预处理，包括灰度化、二值化、平滑等步骤，以...

其他开发语言

3,425

社区成员

15,625

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章