ES分词器求助

董哥007 上海闪尖科技有限公司 php开发工程师  2021-04-29 03:48:30
比如 我要对 海尔冰箱进行分词

我现在用ik分词器的类型 ik_max_word 他的分词效果如下所示

{
"tokens": [
{
"token": "海尔",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "冰箱",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 1
}
]
}


这不是我要的效果 我要的是 冰 箱 海 尔 冰箱 海尔 请问用什么分词器
...全文
82 点赞 收藏 4
写回复
4 条回复
董哥007 04月30日
我先结帖把 谢谢两位。我还是用老办法 新增字典库把
回复 点赞
DayDayUp丶 04月30日
IK分词器,不确定能不能自己维护新词语。
import java.io.StringReader;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class TestIk {

public static void main(String[] args) {
String text = "海尔冰箱";

//独立Lucene实现
StringReader re = new StringReader(text);
IKSegmenter ik = new IKSegmenter(re,true);
Lexeme lex = null;
try {
while((lex=ik.next())!=null){
System.out.print(lex.getLexemeText()+"|");
}
}catch (Exception e) {
}
}

}
回复 点赞
董哥007 04月29日
是可以 ,但是 这样的话 我需要时不时的去维护自己的字典。一旦发现原来字典里面没有 我就要去维护
回复 点赞
宾灬 04月29日
应该可以自定义词典吧。
回复 点赞
发动态
发帖子
Java EE
创建于2007-09-28

3.7w+

社区成员

22.5w+

社区内容

J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区公告
暂无公告