介绍一款基于字典的中文分词器ShuzhenAnalyzer

yuanjian0211 2008-06-30 09:01:53
ShuzhenTokenizer 是一个基于字典的中文分词器(没有测试过日文和朝鲜文)
ShuzhenTokenizer的分词按字典里的词进行切分和按单字切分两种,比如:中华人民共和国,如果字典里有中华 共和国,则将被切分为:中华|人|民|共和国,如果字典里的词是中华人民共和国,则将只被切分为 中华人民共和国
对西方单字节语言的分词也进行了处理(目前只测试了英文),一个是单词的切分,比如people's republic of china,切分为people|republic|china,另外也支持字典的处理,但字典对英文(单字节)意义不大,只是在极少数的情况下比如需要屏蔽掉intellective的搜索结果,可以在字典里设分词为intell,这样在搜intell的时候能搜到单词intell的结果却搜不到intellective的结果
下载地址:http://www.blogjava.net/Files/bbmonkey62/Shuzhen.rar
...全文
62 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
ShuzhenAnalyzer-1.1.3是一款用java写的基于字典中文分词,可以与Lucene(目前只测试了与Lucene2.2.0版本一起使用的情况,其他版本Lucene版本未测试过)一起使用来构建搜索引擎系统 其特性如下: 1、基于字典系统分词,采用了JDBM文件数据库系统来作为字典系统,字典系统数量理论上可以趋于无穷多而绝不会出现内存溢出现象 2、在1中的前提下,索引创建及搜索速度受字典条目数量影响小到可以忽略不计 3、可以很方便对字典系统进行管理,管理功能如下: 3.1、往字典系统中增加单个条目 3.2、往字典系统中增加多个条目 3.3、利用txt文件往字典系统中批量增加多个条目 3.4、删除字典系统中指定的某一个条目 4、对搜索词提供了两种处理方式,可以更好地应用在不同需求的系统中,提高搜索结果的质量 如:字典条目中如果存在 功夫熊猫、有趣 两个条目,搜索词为:功夫熊猫是很有趣的一部电影, 那么用两种方式分别对此搜索词进行处理过的结果如下: 第一种处理后的结果:功夫熊猫 是 很 有趣 的 一 部 电 影 第二种处理后的结果:功夫熊猫 有趣 值得特别注意的是:在对搜索词进行处理时忽略了以下几个特殊符合:!、|、-、",主要是为了满足关键词中特殊字符的要求,比如在google搜索中,用"关键词"表示结果中必须包含双引号包含的关键词,在lucene中, 用"关键词1 -关键词2"表示搜索结果中包含关键词1但不包含关键词2等 最新版本请参见:http://www.shuzhen.net

67,513

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧