ES分词器求助

董哥007 2021-04-29 03:48:30
比如 我要对 海尔冰箱进行分词

我现在用ik分词器的类型 ik_max_word 他的分词效果如下所示

{
"tokens": [
{
"token": "海尔",
"start_offset": 0,
"end_offset": 2,
"type": "CN_WORD",
"position": 0
},
{
"token": "冰箱",
"start_offset": 2,
"end_offset": 4,
"type": "CN_WORD",
"position": 1
}
]
}


这不是我要的效果 我要的是 冰 箱 海 尔 冰箱 海尔 请问用什么分词器
...全文
137 4 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
董哥007 2021-04-30
  • 打赏
  • 举报
回复
我先结帖把 谢谢两位。我还是用老办法 新增字典库把
DayDayUp丶 2021-04-30
  • 打赏
  • 举报
回复
IK分词器,不确定能不能自己维护新词语。
import java.io.StringReader;

import org.wltea.analyzer.core.IKSegmenter;
import org.wltea.analyzer.core.Lexeme;

public class TestIk {

public static void main(String[] args) {
String text = "海尔冰箱";

//独立Lucene实现
StringReader re = new StringReader(text);
IKSegmenter ik = new IKSegmenter(re,true);
Lexeme lex = null;
try {
while((lex=ik.next())!=null){
System.out.print(lex.getLexemeText()+"|");
}
}catch (Exception e) {
}
}

}
董哥007 2021-04-29
  • 打赏
  • 举报
回复
是可以 ,但是 这样的话 我需要时不时的去维护自己的字典。一旦发现原来字典里面没有 我就要去维护
宾灬 2021-04-29
  • 打赏
  • 举报
回复
应该可以自定义词典吧。

67,549

社区成员

发帖
与我相关
我的任务
社区描述
J2EE只是Java企业应用。我们需要一个跨J2SE/WEB/EJB的微容器,保护我们的业务核心组件(中间件),以延续它的生命力,而不是依赖J2SE/J2EE版本。
社区管理员
  • Java EE
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧