谁有中文识别率高的训练包??

不关橙猫猫事的哦 2020-12-18 09:47:12
目前用的是tess4j,网上下的chi_sim.traineddata有50MB左右,识别率非常低,想自己训练又没时间,公司也安排不出人手。有没有识别率高的,90%左右就行,可以申请让公司出钱买。
不考虑百度、阿里、腾讯的在线识别服务,因为客户的服务器不允许连接外网,跟企业审计相关的涉密服务器没办法。
...全文
3544 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
KeepSayingNo 2020-12-19
  • 打赏
  • 举报
回复
不用翻墙啊,就是github的,我都登录进去了
qybao 2020-12-18
  • 打赏
  • 举报
回复
这个还真不好弄,LZ有时间还是自己训练试试吧,挺折腾的
首先字体图片不好到手,其次要训练哪种字体也不好范围确定(比如需要宋体,楷体等),第三,训练文件好像对字体的最大类型有限值(我记得当时做的时候,超过60种字体就不支持(猜测是训练字体太多最后生成的字体文件size太大,所以做了限制,或许可以考虑按60种字体做成多个字体文件后再合并,当时没时间去深究了),所以说你需要什么字体你要定好),但是你要求的90%识别率,由于前面的限制条件,那就不好说了,比如识别的字体没有出现在你训练的字体里,有可能识别率为0。
  • 打赏
  • 举报
回复
引用 2 楼 KeepSayingNo 的回复:
用这个试试呢 https://github.com/tesseract-ocr/tesseract/wiki
这个要翻墙吗,访问不得呢
KeepSayingNo 2020-12-18
  • 打赏
  • 举报
回复

81,091

社区成员

发帖
与我相关
我的任务
社区描述
Java Web 开发
社区管理员
  • Web 开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧