介绍一款基于字典的中文分词器ShuzhenAnalyzer
ShuzhenTokenizer 是一个基于字典的中文分词器(没有测试过日文和朝鲜文)
ShuzhenTokenizer的分词按字典里的词进行切分和按单字切分两种,比如:中华人民共和国,如果字典里有中华 共和国,则将被切分为:中华|人|民|共和国,如果字典里的词是中华人民共和国,则将只被切分为 中华人民共和国
对西方单字节语言的分词也进行了处理(目前只测试了英文),一个是单词的切分,比如people's republic of china,切分为people|republic|china,另外也支持字典的处理,但字典对英文(单字节)意义不大,只是在极少数的情况下比如需要屏蔽掉intellective的搜索结果,可以在字典里设分词为intell,这样在搜intell的时候能搜到单词intell的结果却搜不到intellective的结果
下载地址:http://www.blogjava.net/Files/bbmonkey62/Shuzhen.rar