社区
数据结构与算法
帖子详情
中文分词中的词库创建问题
DrDream12
2013-10-12 09:54:59
我们知道中文分词中两个大难题是未登录词和歧义问题。
为了从某种程度上解决未登录词的问题,可以从扩充词库和分词算法中识别未登录词,这两方面入手。
在扩充词库中,因为人名,新词太多,所以,我的想法是先针对某一领域,比如金融,把金融这方面的词库补充完整,这与扩充全部领域的词库相比,要轻松一点。所以,我现在的问题是如何获取某一方面的词库。
又或是,我的想法本身就不对,求这有方面经验的人能指点下。
...全文
990
6
打赏
收藏
中文分词中的词库创建问题
我们知道中文分词中两个大难题是未登录词和歧义问题。 为了从某种程度上解决未登录词的问题,可以从扩充词库和分词算法中识别未登录词,这两方面入手。 在扩充词库中,因为人名,新词太多,所以,我的想法是先针对某一领域,比如金融,把金融这方面的词库补充完整,这与扩充全部领域的词库相比,要轻松一点。所以,我现在的问题是如何获取某一方面的词库。 又或是,我的想法本身就不对,求这有方面经验的人能指点下。
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
6 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
八哥
2013-12-26
打赏
举报
回复
现在流行的是机器学习, 你的字典也应该有学习的技术和自我完善的功能
偃竹
2013-11-27
打赏
举报
回复
少主无翼
2013-11-22
打赏
举报
回复
分词现在有很多啊 如庖丁等等 至于构建词库就只能自己弄了吧
zlp321002
2013-11-21
打赏
举报
回复
中科院发布了一个分词程序,我觉得分词算法最好自己写,这样可以方便扩展。因为分词程序,主要是要更新词库,每年新的词库都在不停变化。算法最好自我掌控,除非你能读懂别人写的分词程序。
左在右的科幻博客
2013-10-22
打赏
举报
回复
以现在的存储能力,能把人类能写出来的所有文字,都储存起来。
海兰
2013-10-13
打赏
举报
回复
中文分词也有很多人在研究,谷歌一下吧。
中
文分词
工具word-1.0,Java实现的
中
文分词
组件多种基于词典的分词算法
word分词是一个Java实现的
中
文分词
组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene...
Python
中
文分词
库Yaha.zip
"哑哈"
中
文分词
,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 "Yaha" You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成...
隐马尔科夫算法:
中
文分词
神器
本课程首先以一个简单的应用案例介绍了隐马尔科夫算法和隐马尔科夫能解决的三类
问题
,并构造隐马尔科夫五元组。 由此引出了隐马尔科夫分词算法,并以分词实际应用为例,介绍了隐马尔科夫分词算法的整个逻辑包括参数...
几乎最全的
中
文NLP资源库.zip
中
英文敏感词、语言检测、
中
外手机/电话归属地/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、
中
日文人名库、
中
文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简体转换、英文模拟...
pinyin-plus:简繁体汉字转拼音的项目,解决多音字的
问题
。ElasticSearch,solr的拼音分词工具
汉字转拼音,常用于索引引擎场景
创建
拼音的索引,这个场景的
问题
一般由两种实现路径,一种是直接使用带拼音的分词插件,会自动帮你
创建
出拼音的索引,还有一种就是自己将汉字转换为拼音字符串,采用间隔分隔分词来...
数据结构与算法
33,010
社区成员
35,327
社区内容
发帖
与我相关
我的任务
数据结构与算法
数据结构与算法相关内容讨论专区
复制链接
扫一扫
分享
社区描述
数据结构与算法相关内容讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章