中文分词中的词库创建问题

DrDream12 2013-10-12 09:54:59
我们知道中文分词中两个大难题是未登录词和歧义问题。
为了从某种程度上解决未登录词的问题,可以从扩充词库和分词算法中识别未登录词,这两方面入手。
在扩充词库中,因为人名,新词太多,所以,我的想法是先针对某一领域,比如金融,把金融这方面的词库补充完整,这与扩充全部领域的词库相比,要轻松一点。所以,我现在的问题是如何获取某一方面的词库。
又或是,我的想法本身就不对,求这有方面经验的人能指点下。
...全文
990 6 打赏 收藏 转发到动态 举报
写回复
用AI写文章
6 条回复
切换为时间正序
请发表友善的回复…
发表回复
八哥 2013-12-26
  • 打赏
  • 举报
回复
现在流行的是机器学习, 你的字典也应该有学习的技术和自我完善的功能
偃竹 2013-11-27
  • 打赏
  • 举报
回复
少主无翼 2013-11-22
  • 打赏
  • 举报
回复
分词现在有很多啊 如庖丁等等 至于构建词库就只能自己弄了吧
zlp321002 2013-11-21
  • 打赏
  • 举报
回复
中科院发布了一个分词程序,我觉得分词算法最好自己写,这样可以方便扩展。因为分词程序,主要是要更新词库,每年新的词库都在不停变化。算法最好自我掌控,除非你能读懂别人写的分词程序。
  • 打赏
  • 举报
回复
以现在的存储能力,能把人类能写出来的所有文字,都储存起来。
海兰 2013-10-13
  • 打赏
  • 举报
回复
中文分词也有很多人在研究,谷歌一下吧。

33,010

社区成员

发帖
与我相关
我的任务
社区描述
数据结构与算法相关内容讨论专区
社区管理员
  • 数据结构与算法社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧