谁有中文识别率高的训练包？？

javabugsmaker 2020-12-18 09:47:12

目前用的是tess4j，网上下的chi_sim.traineddata有50MB左右，识别率非常低，想自己训练又没时间，公司也安排不出人手。有没有识别率高的，90%左右就行，可以申请让公司出钱买。
不考虑百度、阿里、腾讯的在线识别服务，因为客户的服务器不允许连接外网，跟企业审计相关的涉密服务器没办法。

...全文

3809 4 打赏收藏转发到动态举报

写回复

用AI写文章

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

KeepSayingNo 2020-12-19

打赏
举报

不用翻墙啊，就是github的，我都登录进去了

qybao 2020-12-18

打赏
举报

这个还真不好弄，LZ有时间还是自己训练试试吧，挺折腾的
首先字体图片不好到手，其次要训练哪种字体也不好范围确定（比如需要宋体，楷体等），第三，训练文件好像对字体的最大类型有限值（我记得当时做的时候，超过60种字体就不支持（猜测是训练字体太多最后生成的字体文件size太大，所以做了限制，或许可以考虑按60种字体做成多个字体文件后再合并，当时没时间去深究了），所以说你需要什么字体你要定好），但是你要求的90%识别率，由于前面的限制条件，那就不好说了，比如识别的字体没有出现在你训练的字体里，有可能识别率为0。

javabugsmaker 2020-12-18