如何理解lucene默认的中文分词结果?

shiwaxingge 2005-11-18 10:35:49
看到一篇文章,说:
Lucene默认分词结果:
org.apache.lucene.analysis.standard.StandardAnalyzer:
[搜] [索] [引] [擎] [的] [发] [展] [历] [史] [证] [明] [没] [有] [做] [不] [到] [只] [有] [想] [不] [到] [让] [人] [们] [更] [方] [便] [准] [确] [的] [获] [取] [信] [息] [是] [搜] [索] [引] [擎] [的] [使] [命]

我不知道结果怎么体现出来,是不是输入“中人国”可以找到“中华人民共和国”呢?
我做了试验,但是没有成功,望指点,
是不是在建立索引文件的时候要做什么特殊处理?
...全文
160 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
laoer 2005-11-23
  • 打赏
  • 举报
回复
Lucene1.4后的,对双字节文字默认是以单字切分的,查询不够准确。
你可以找找别的切分词的包。
nohard 2005-11-23
  • 打赏
  • 举报
回复
应该可以找到的,
不过lucene好像还有一个匹配度的问题,
如果匹配度不购的话,他就不显示.
这个也是他不同于数据库的全文检索的一方面.
具体的你就找找资料吧,我也正在学习中...
bevin1010 2005-11-18
  • 打赏
  • 举报
回复
没用过,帮顶一下
shiwaxingge 2005-11-18
  • 打赏
  • 举报
回复
寻求帮助ing。。。

62,616

社区成员

发帖
与我相关
我的任务
社区描述
Java 2 Standard Edition
社区管理员
  • Java SE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧