社区
Web 开发
帖子详情
谁有中文识别率高的训练包??
不关橙猫猫事的哦
2020-12-18 09:47:12
目前用的是tess4j,网上下的chi_sim.traineddata有50MB左右,识别率非常低,想自己训练又没时间,公司也安排不出人手。有没有识别率高的,90%左右就行,可以申请让公司出钱买。
不考虑百度、阿里、腾讯的在线识别服务,因为客户的服务器不允许连接外网,跟企业审计相关的涉密服务器没办法。
...全文
3759
4
打赏
收藏
谁有中文识别率高的训练包??
目前用的是tess4j,网上下的chi_sim.traineddata有50MB左右,识别率非常低,想自己训练又没时间,公司也安排不出人手。有没有识别率高的,90%左右就行,可以申请让公司出钱买。 不考虑百度、阿里、腾讯的在线识别服务,因为客户的服务器不允许连接外网,跟企业审计相关的涉密服务器没办法。
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
KeepSayingNo
2020-12-19
打赏
举报
回复
不用翻墙啊,就是github的,我都登录进去了
qybao
2020-12-18
打赏
举报
回复
这个还真不好弄,LZ有时间还是自己训练试试吧,挺折腾的
首先字体图片不好到手,其次要训练哪种字体也不好范围确定(比如需要宋体,楷体等),第三,训练文件好像对字体的最大类型有限值(我记得当时做的时候,超过60种字体就不支持(猜测是训练字体太多最后生成的字体文件size太大,所以做了限制,或许可以考虑按60种字体做成多个字体文件后再合并,当时没时间去深究了),所以说你需要什么字体你要定好),但是你要求的90%识别率,由于前面的限制条件,那就不好说了,比如识别的字体没有出现在你训练的字体里,有可能识别率为0。
不关橙猫猫事的哦
2020-12-18
打赏
举报
回复
引用 2 楼 KeepSayingNo 的回复:
用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki
这个要翻墙吗,访问不得呢
KeepSayingNo
2020-12-18
打赏
举报
回复
用这个试试呢
https://github.com/tesseract-ocr/tesseract/wiki
【Ai-人工智能计算机视觉/人脸识别】HyperLRP基于深度学习
高
性能
中文
车牌识别开源库
Q:Android
识别率
没有所传demo apk的
识别率
高
? A:请使用Prj-Linux下的模型,android默认
包
里的配置是相对较早的模型 Q:车牌的
训练
数据来源? A:由于用于
训练
车牌数据涉及到法律隐私等问题,本项目无法提供。...
HyperLPR:基于深度学习的
高
级
中文
车牌识别
高
性能
中文
车牌识别框架
问:Android
识别率
没有所传demo apk的
识别率
高
? A:请使用下的模型,android默认
包
里的配置是相对较早的模型 问:车牌的
训练
数据来源? A:由于相关
训练
车牌数据涉及到法律隐私等问题,本项目无法提供。开放大的...
Java OCR 图像智能字符识别技术,可识别
中文
2. 模型微调:如果对特定字体或样式有较
高
识别需求,可以基于通用模型进行微调,使其更适合特定场景。 3. 后处理:通过上下文信息、词典约束等手段,对初步识别的结果进行校正和优化。 在Java环境中,我们可以利用...
Tesseract最新
中文
语言
包
chi-sim.traineddata
在处理
包
含
中文
内容的图像时,加载此语言
包
能显著提
高
文字识别的准确率。 Tesseract的
训练
过程是通过大量的文本样本,利用机器学习算法
训练
出一个能够识别特定语言字符的模型。"traineddata"文件就是
训练
过程的成果...
Tesseract
中文
语言
包
3.0.4 (chi_sim.traineddata)
虽然“chi_sim.traineddata”已经提供了相当
高
的
识别率
,但实际应用中可能还需要进一步优化。例如,预处理图像(如调整对比度、去除噪声、直方图均衡化等)可以改善识别效果。此外,用户还可以根据自己的需求对...
Web 开发
81,122
社区成员
341,744
社区内容
发帖
与我相关
我的任务
Web 开发
Java Web 开发
复制链接
扫一扫
分享
社区描述
Java Web 开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章