[分享]基于HMM算法的中文人名识别和外国人名识别[源码]

menuvb 2011-12-09 03:01:16

还记得4月份学习HMM和应用的过程是痛苦,每天上下班后就拿着那几张纸在想HMM。那时单纯是为了增强分词组件的功能而新增的人名识别。
姓名匹配的规则参考于中科院的一篇关于中文人名识别的论文(Chinese Word Segmentation and Named Entity
Recognition)，训练的词库来自于网上人民日报1月份资料库（人名识别的成功率是基于训练的语料库的大小的，语料库越大，成功率也越高）.

中文人名的规则：
BBCD：姓+姓+名1+名2
BBE：姓+姓+单名
BCD：姓+名1+名2
BE：姓+单名
BG:姓+后缀
BEE：姓+单名+单名
BT:姓+双名成词
CD：名1+名2
FB：前缀+姓，前缀+单名

外国人名的规则
BCD：姓+名1+名2
BCCD：姓+名1+名2+名2
BCCCD：
BCCCCD
BD，CD

注意，这个不是中文分词组件，只是对中文分词的功能一个补充，类似于可以利用HMM达到地名，街道等的识别。
所以测试的时候注意各个词之间用空格分开。
人名识别的代码是从自己的分词组件是提取出来的，因些你在测试中可能会碰到一些问题或性能问题，提供的代码仅仅是做为参考而已，你也可以基于代码自己重写。

下载地址：http://files.cnblogs.com/cnzc/ChineseNameRecogzor.rar 感谢博客园，至少我还是找到了一个可以存放源码的地方。

...全文

530 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

默默前行的蜗牛 2013-06-25

打赏
举报

回复

楼主，怎么用你下的代码啊，对C#不太懂

q107770540 2011-12-09

打赏
举报

回复

路过。。。学习。。。帮顶。。蹭分。。。

中国人名识别，音译人名识别，日本人名识别，地名识别，实体机构名识别基于线性模型的命名实体识别（精度高）感知机命名实体识别，CRF命名实体识别关键词提取 TextRank关键词提取自动摘要 TextRank自动摘要短语...

它涉及从文本中识别出具有特定意义的实体，如人名、地名、组织名等。本项目采用先进的BERT模型与条件随机场（CRF）相结合的方法，实现对中文文本的高效NER。 **BERT（Bidirectional Encoder Representations from ...

4. **中文命名实体识别（NER）**：识别文本中具有特定意义的实体，如人名、地名、组织名等。NER是信息抽取的重要组成部分。CRF、BiLSTM-CRF模型以及预训练模型如BERT、ERNIE等在NER任务上表现优秀。 5. **词性标注*...

源码中可能包含了基于规则的方法和基于机器学习的方法，其中机器学习方法可能会使用朴素贝叶斯、支持向量机、深度学习网络等多种算法。问答系统是NLP的另一个关键应用，它能够理解和回答自然语言提出的问题。问答...

命名实体识别是NLP的一个核心问题，旨在从文本中识别出具有特定意义的实体，如人名、地名、组织名等。 CRF与传统的统计建模方法（如隐马尔科夫模型HMM）相比，其优势在于考虑了上下文信息对预测的影响。在CRF中，每...

7,774

社区成员

63,115

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章