还记得4月份学习HMM和应用的过程是痛苦,每天上下班后就拿着那几张纸在想HMM。那时单纯是为了增强分词组件的功能而新增的人名识别。
姓名匹配的规则参考于中科院的一篇关于中文人名识别的论文(Chinese Word Segmentation and Named Entity
Recognition),训练的词库来自于网上人民日报1月份资料库(人名识别的成功率是基于训练的语料库的大小的,语料库越大,成功率也越高).
中文人名的规则:
BBCD:姓+姓+名1+名2
BBE:姓+姓+单名
BCD:姓+名1+名2
BE:姓+单名
BG:姓+后缀
BEE:姓+单名+单名
BT:姓+双名成词
CD:名1+名2
FB:前缀+姓,前缀+单名
外国人名的规则
BCD:姓+名1+名2
BCCD:姓+名1+名2+名2
BCCCD:
BCCCCD
BD,CD
注意,这个不是中文分词组件,只是对中文分词的功能一个补充,类似于可以利用HMM达到地名,街道等的识别。
所以测试的时候注意各个词之间用空格分开。
人名识别的代码是从自己的分词组件是提取出来的,因些你在测试中可能会碰到一些问题或性能问题,提供的代码仅仅是做为参考而已,你也可以基于代码自己重写。
下载地址:
http://files.cnblogs.com/cnzc/ChineseNameRecogzor.rar 感谢博客园,至少我还是找到了一个可以存放源码的地方。