介绍一款基于字典的中文分词器ShuzhenAnalyzer

yuanjian0211 2008-06-30 09:01:53

ShuzhenTokenizer 是一个基于字典的中文分词器（没有测试过日文和朝鲜文）
ShuzhenTokenizer的分词按字典里的词进行切分和按单字切分两种，比如：中华人民共和国，如果字典里有中华共和国，则将被切分为：中华|人|民|共和国，如果字典里的词是中华人民共和国，则将只被切分为中华人民共和国
对西方单字节语言的分词也进行了处理(目前只测试了英文)，一个是单词的切分，比如people's republic of china,切分为people|republic|china,另外也支持字典的处理，但字典对英文（单字节）意义不大，只是在极少数的情况下比如需要屏蔽掉intellective的搜索结果，可以在字典里设分词为intell，这样在搜intell的时候能搜到单词intell的结果却搜不到intellective的结果
下载地址：http://www.blogjava.net/Files/bbmonkey62/Shuzhen.rar

...全文

62 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

* 关于shuzhen分词器的最新版本和相关资讯 * ShuzhenAnalyzer是一款基于字典的中文分词器，此版本是1.1.7 * 中文名称是：淑珍分词器(又称Shuzhen分词器) * 英文名称是：ShuzhenAnalyzer

ShuzhenAnalyzer-1.1.3是一款用java写的基于字典的中文分词器，可以与Lucene(目前只测试了与Lucene2.2.0版本一起使用的情况，其他版本Lucene版本未测试过)一起使用来构建搜索引擎系统其特性如下： 1、基于字典系统分词，采用了JDBM文件数据库系统来作为字典系统，字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象 2、在1中的前提下，索引创建及搜索速度受字典条目数量影响小到可以忽略不计 3、可以很方便对字典系统进行管理，管理功能如下： 3.1、往字典系统中增加单个条目 3.2、往字典系统中增加多个条目 3.3、利用txt文件往字典系统中批量增加多个条目 3.4、删除字典系统中指定的某一个条目 4、对搜索词提供了两种处理方式，可以更好地应用在不同需求的系统中，提高搜索结果的质量如：字典条目中如果存在功夫熊猫、有趣两个条目，搜索词为：功夫熊猫是很有趣的一部电影，那么用两种方式分别对此搜索词进行处理过的结果如下：第一种处理后的结果：功夫熊猫是很有趣的一部电影第二种处理后的结果：功夫熊猫有趣值得特别注意的是：在对搜索词进行处理时忽略了以下几个特殊符合：!、|、-、"，主要是为了满足关键词中特殊字符的要求，比如在google搜索中，用"关键词"表示结果中必须包含双引号包含的关键词，在lucene中，用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等最新版本请参见：http://www.shuzhen.net

介绍在MATLAB中实现字典数据类型的方法，包括字典的创建、索引和字典元素的增删改等内容。所在套餐：MATLAB核心知识点系列课程-CSDN程序员研修院，不断更新和增加课程。

主要介绍了常用的中文分词方法，并详细介绍了基于字典的中文分词方法，并使用 Python 构建出来一个基于正向最大匹配方法的分词器，并与 jieba 进行了对比。

ShuzhenAnalyzer是一款用java写的基于字典的中文分词器，可与Lucene一起使用构建搜索引擎。见网址： [url]http://www.shuzhen.net[/url]

67,513

社区成员

225,879

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章