如何理解lucene默认的中文分词结果？

shiwaxingge 2005-11-18 10:35:49

看到一篇文章，说：
Lucene默认分词结果：
org.apache.lucene.analysis.standard.StandardAnalyzer:
[搜] [索] [引] [擎] [的] [发] [展] [历] [史] [证] [明] [没] [有] [做] [不] [到] [只] [有] [想] [不] [到] [让] [人] [们] [更] [方] [便] [准] [确] [的] [获] [取] [信] [息] [是] [搜] [索] [引] [擎] [的] [使] [命]

我不知道结果怎么体现出来，是不是输入“中人国”可以找到“中华人民共和国”呢？
我做了试验，但是没有成功，望指点，
是不是在建立索引文件的时候要做什么特殊处理？

...全文

186 4 打赏收藏转发到动态举报

写回复

4 条回复

切换为时间正序

请发表友善的回复…

发表回复

laoer 2005-11-23

打赏
举报

回复

Lucene1.4后的，对双字节文字默认是以单字切分的，查询不够准确。
你可以找找别的切分词的包。

nohard 2005-11-23

打赏
举报

回复

应该可以找到的,
不过lucene好像还有一个匹配度的问题,
如果匹配度不购的话,他就不显示.
这个也是他不同于数据库的全文检索的一方面.
具体的你就找找资料吧,我也正在学习中...

bevin1010 2005-11-18

打赏
举报

回复

没用过,帮顶一下

shiwaxingge 2005-11-18

打赏
举报

回复

寻求帮助ing。。。

然而，对于中文文本，Lucene默认的分词器并不理想，因此我们需要引入专门针对中文的分词工具。 IK Analyzer（IK中文分词器）是为了解决这个问题而诞生的。它是开源的Java实现的中文分词组件，特别适合用于Java开发...

为了增强Lucene在中文环境下的表现，需要对Lucene的默认分析器进行扩展，引入中文分词器。常见的中文分词器有： - **Jieba分词**：一款流行的开源中文分词工具，支持精确模式和搜索引擎模式。 - **IK分词**：针对...

2. 中文分词算法：Lucene 3.5默认使用了IK Analyzer（智能中文分析器），这是一种基于词典的分词方法，通过构建词典并结合正向最大匹配和逆向最大匹配算法，能够有效地对中文文本进行分词。此外，还有如HanLP、jieba...

默认情况下，Lucene并不支持中文分词，因此我们需要引入专门的中文分词器。"je-analysis"是一个常见的中文分词插件，它为Lucene提供了对中文文本的分析能力。 "je-analysis" 是一套基于Java开发的中文分析工具，其...

62,625

社区成员

307,257

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章