社区
脚本语言
帖子详情
自然语言处理-错字识别(基于Python)kenlm、pycorrector 报错bug求助
76人魔术师
2020-09-02 11:49:06
安装完kenlm、pycorrector包后,开始自动下载语料包,下载完后报这个错误:
求大神帮看看!!!谢谢!!
好像是内存问题
...全文
688
4
打赏
收藏
自然语言处理-错字识别(基于Python)kenlm、pycorrector 报错bug求助
安装完kenlm、pycorrector包后,开始自动下载语料包,下载完后报这个错误: 求大神帮看看!!!谢谢!! 好像是内存问题
复制链接
扫一扫
分享
转发到动态
举报
AI
作业
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
qq_42786862
2021-02-04
打赏
举报
回复
哦不对 你这个是内存不够 kenlm语言模型zh_giga.no_cna_cmn.prune01244.klm文件是2.8G,你这没那么多内存分配给它
qq_42786862
2021-02-04
打赏
举报
回复
kenml依赖是不是没装啊
76人魔术师
2020-09-02
打赏
举报
回复
顶顶顶顶顶!
tianfang
2020-09-02
打赏
举报
回复
分配2.9G内存 失败
Python
-
pycor
rec
tor
中文错别字纠正工具音似形似
错字
或变体字纠正
中文错别字纠正工具。音似、形似
错字
(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。
python
3开发。
pycor
rec
tor
依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。
pycor
rec
tor
:
pycor
rec
tor
is a toolkit for text error correction. 文本纠错,
Kenlm
,Seq2Seq_Attention,BERT,MacBERT,ELECTRA,ERNIE,Transformer等模型实现,开箱即用
| 简体中文
pycor
rec
tor
中文文本纠错工具。音似、形似
错字
(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。
python
3.6开发。
pycor
rec
tor
依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 Guide Question 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音
识别
后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手
人工智能-深度学习-OCR-利用语言模型,纠正OCR
识别
错误
OCR-Correc
tor
专为OCR设计的纠错器。 未来考虑增加OCR需要的各种NLP工具,包括: 粘连文本分词 命名实体
识别
键值对匹配 功能 输入OCR
识别
结果(文本+单字符置信度),输出修正后的文本。 (单字符置信度:
识别
网络最后 softmax 输出的概率值,用来进行方便地发现
错字
。)
深圳面试java常见笔试题-
pycor
rec
tor
:错别字纠正算法。调用
pycor
rec
tor
接口,使用规则
深圳面试java常见笔试题
pycor
rec
tor
中文文本纠错工具。音似、形似
错字
(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。
python
3开发。
pycor
rec
tor
依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。 问题 中文文本纠错任务,常见错误类型包括: 谐音字词,如 配副眼睛-配副眼镜 混淆音字词,如 流浪织女-牛郎织女 字词顺序颠倒,如 伍迪艾伦-艾伦伍迪 字词补全,如 爱有天意-假如爱有天意 形似字错误,如 高梁-高粱 中文拼音全拼,如 xingfu-幸福 中文拼音缩写,如 sz-深圳 语法错误,如 想象难以-难以想象 当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处理前四种,搜索引擎需要处理所有类型,语音
识别
后文本纠错只需要处理前两种, 其中'形似字错误'主要针对五笔或者笔画手写输入等。 解决方案 规则的解决思路 中文纠错分为两步走,第一步是错误检测,第二步是错误纠正; 错误检测部分先通过结巴中文分词器切词,由于句子中含有错别字,所以切词结果往往会有切分错误的情况,这样从字粒度和词粒度两
过滤器:使用
Python
过滤不适当的词
筛选 使用
Python
过滤不适当的单词,并添加
错字
算法。
脚本语言
37,743
社区成员
34,212
社区内容
发帖
与我相关
我的任务
脚本语言
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
复制链接
扫一扫
分享
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
试试用AI创作助手写篇文章吧
+ 用AI写文章