[分享]基于HMM算法的中文人名识别和外国人名识别[源码]

menuvb 2011-12-09 03:01:16
还记得4月份学习HMM和应用的过程是痛苦,每天上下班后就拿着那几张纸在想HMM。那时单纯是为了增强分词组件的功能而新增的人名识别。
姓名匹配的规则参考于中科院的一篇关于中文人名识别的论文(Chinese Word Segmentation and Named Entity
Recognition),训练的词库来自于网上人民日报1月份资料库(人名识别的成功率是基于训练的语料库的大小的,语料库越大,成功率也越高).

中文人名的规则:
BBCD:姓+姓+名1+名2
BBE:姓+姓+单名
BCD:姓+名1+名2
BE:姓+单名
BG:姓+后缀
BEE:姓+单名+单名
BT:姓+双名成词
CD:名1+名2
FB:前缀+姓,前缀+单名

外国人名的规则
BCD:姓+名1+名2
BCCD:姓+名1+名2+名2
BCCCD:
BCCCCD
BD,CD





注意,这个不是中文分词组件,只是对中文分词的功能一个补充,类似于可以利用HMM达到地名,街道等的识别。
所以测试的时候注意各个词之间用空格分开。
人名识别的代码是从自己的分词组件是提取出来的,因些你在测试中可能会碰到一些问题或性能问题,提供的代码仅仅是做为参考而已,你也可以基于代码自己重写。

下载地址http://files.cnblogs.com/cnzc/ChineseNameRecogzor.rar 感谢博客园,至少我还是找到了一个可以存放源码的地方。
...全文
530 2 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
楼主,怎么用你下的代码啊,对C#不太懂
q107770540 2011-12-09
  • 打赏
  • 举报
回复
路过。。。学习。。。帮顶。。蹭分。。。

7,774

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 非技术区
社区管理员
  • 非技术区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧