elasticSearch分词器选择问题 [问题点数:20分]

Bbs1
本版专家分:30
结帖率 42.86%
Bbs3
本版专家分:714
Blank
GitHub 绑定GitHub第三方账户获取
Bbs1
本版专家分:30
Bbs3
本版专家分:714
Blank
GitHub 绑定GitHub第三方账户获取
elasticsearch教程--中文分词器作用和使用
目录 概述 环境准备 认识中文<em>分词器</em> 常用的中文<em>分词器</em> IK Analyzer hanlp中文<em>分词器</em> 彩蛋 概述         上一篇博文记录了<em>elasticsearch</em>插件安装和管理, 在地大物博的祖国使用es,不得不考虑中文<em>分词器</em>,es内置的<em>分词器</em>对中文分词的支持用惨不忍睹来形容不为过,看这篇博文之前,建议先看一下博文<em>elasticsearch</em>...
Elasticsearch(七)安装中文分词器
分词组件 <em>elasticsearch</em>提供了几个内置的<em>分词器</em>:standard analyzer(标准<em>分词器</em>)、simple analyzer(简单<em>分词器</em>)、whitespace analyzer(空格<em>分词器</em>)、language analyzer(语言<em>分词器</em>),而如果我们不指定<em>分词器</em>类型的话,<em>elasticsearch</em>默认是使用标准<em>分词器</em>的。那接下来我们先来看看这几种<em>分词器</em>的特点。 ps:我们可以...
ElasticSearch教程——安装IK分词器插件
ElasticSearch汇总请查看:ElasticSearch教程——汇总篇 简介 IK Analyzer是一个开源的,基于Java语言开发的轻量级的中文分词工具包,最初的时候,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件,从3.0版本之后,IK逐渐成为面向java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现,IK实现了简...
Elasticsearch整合IK分词器
Elasticsearch整合IK<em>分词器</em> 一.ik<em>分词器</em>的打包安装 官网代码地址:https://github.com/medcl/<em>elasticsearch</em>-analysis-ik 1)下载-解压 <em>elasticsearch</em>-analysis-ik-master.zip 解压后: 2)进入解压后的目录执行mvn打包命令 mvn package -Pdist,native -DskipTests...
elasticsearch中设定分词器的格式
PUT /test { &quot;mappings&quot;: { &quot;test_type&quot;: { &quot;properties&quot;: { &quot;birthday&quot;:{ &quot;type&quot;: &quot;text&quot; , &quot;analyzer&quot;: &quot;english&quot; }, &quot;c
Elasticsearch之几个重要的分词器
      前提 什么是倒排索引? Elasticsearch之<em>分词器</em>的作用 Elasticsearch之<em>分词器</em>的工作流程 Elasticsearch之停用词 Elasticsearch之中文<em>分词器</em>               Elasticsearch的几个重要的<em>分词器</em>:                                      ...
elasticsearch分词器使用
写在前面 由于上个<em>问题</em>无法使用模糊查询,导致我仔细研究了下es的分词机制 使用工具 es: 6.4.0 on docker es-head:5.. on docker es-kibana:6.4.0 on docker ik analyze:6.4.0 on docker from <em>elasticsearch</em>-plugin <em>分词器</em>测试 使用系统默认<em>分词器</em> Standard Analyze 是系...
elasticsearch教程--Analysis篇-分词器
目录 概述 环境准备 什么是分词 分词目的 <em>分词器</em> 彩蛋 概述     关于<em>elasticsearch</em>教程写了关于安装和安装踩坑记两篇博文, 现在就来写点项目中使用中文<em>分词器</em>的历程。 本文旨在分局项目es中使用中文<em>分词器</em>的心得,对es<em>分词器</em>做初步讲解,如有错误和不当之处,欢迎批评指正。 环境准备 全新最小化安装的centos 7.5 elast...
Elasticsearch分词器介绍、内置分词器及配置中文分词器
1、<em>分词器</em>、 <em>分词器</em>是从一串文本中切分一个个的词条,并对每个词条进行标准化,包含三个部分: character filter:分词之前的预处理,过滤掉HTML标签、特殊符号转换(例如,将&amp;amp;amp;amp;符号转换成and、将|符号转换成or)等。 tokenizer:分词 token filter:标准化 2、内置<em>分词器</em> standard<em>分词器</em>:(默认的)它将词汇单元转换成小写形式,并去...
ElasticSearch最全分词器比较及使用方法
介绍:ElasticSearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful web 接口。Elasticsearch 是用 Java 开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 Elasticsearch中,内置了很多<em>分词器</em>(a...
Elasticsearch 系列指南(三)——集成ik分词器
Elasticsearch中,内置了很多<em>分词器</em>(analyzers),例如standard (标准<em>分词器</em>)、english (英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低;english 对英文更加智能,可以识别单数负数,大小写,过滤stopwords(例如“the”这个词)等;chinese 效果很差。这次主要玩这
elasticsearch系列三:索引详解(分词器、文档管理、路由详解(集群))
一、<em>分词器</em>1. 认识<em>分词器</em> 1.1 Analyzer   分析器 在ES中一个Analyzer 由下面三种组件组合而成:character filter :字符过滤器,对文本进行字符过滤处理,如处理文本中的html标签字符。处理完后再交给tokenizer进行分词。一个analyzer中可包含0个或多个字符过滤器,多个按配置顺序依次进行处理。tokenizer:<em>分词器</em>,对文本进行分词。一个anal...
ElasticSearch 6.x 学习笔记:4.IK分词器插件
4.1 <em>elasticsearch</em>-analysis-ik 6.1.1 (1)源码 https://github.com/medcl/<em>elasticsearch</em>-analysis-ik (2)releases https://github.com/medcl/<em>elasticsearch</em>-analysis-ik/releases (3)复制zip地址 https://github...
elasticSearch 分词器踩的坑
elasticSearch 接入ik<em>分词器</em>踩的坑,记录下
ElasticSearch分词器
什么是<em>分词器</em>? <em>分词器</em>,是将用户输入的一段文本,分析成符合逻辑的一种工具。到目前为止呢,<em>分词器</em>没有办法做到完全的符合人们的要求。和我们有关的<em>分词器</em>有英文的和中文的。英文的<em>分词器</em>过程:输入文本-关键词切分-去停用词-形态还原-转为小写。中文的<em>分词器</em>分为:单字分词 例:中国人 分成中、国、人;二分法分词:例中国人:中国、国人;词典分词:有基本的语意来进行分词的,例:中国人分成中国,国人,中国人,现在
Elasticsearch 中文分词器 IK 配置和使用
Elasticsearch 内置的<em>分词器</em>对中文不友好,会把中文分成单个字来进行全文检索,不能达到想要的结果 看一个例子curl -XGET 'http://localhost:9200/_analyze?pretty&analyzer=standard' -d ' 第二更新 ' #返回 { "tokens" : [ { "token" : "第", "start_offset"
Elasticsearch之中文分词器
前提什么是倒排索引?Elasticsearch之<em>分词器</em>的作用Elasticsearch之<em>分词器</em>的工作流程Elasticsearch之停用词  Elasticsearch的中文<em>分词器</em>  1、单字分词:    如:“我们是中国人”    效果:“我”“们”“是”“中”“国”“人”  2、二分法分词:按两个字进行切分。    如:“我们是中国人”,效果:“我们”、“们是”、“是中”、“中国”、“国人”。...
elasticsearch 5.5.3 安装ik分词器,并且使用分词器
首先先说两点,两个不要。            1:貌似es上5版本,至少5.5.3是这样,就不能在<em>elasticsearch</em>.yml配置以index开头的配置信息了。如index.number_of_shards: 5。所以就不要写  index.analysis.analyzer.default.type: ik 这样的配置了。              2   :分词换成了 ik_sma
Elasticsearch笔记六之中文分词器及自定义分词器
<em>elasticsearch</em>中配置中文<em>分词器</em>以及自定义<em>分词器</em>
elasticsearch设置默认分词器和字段指定分词器
PUT news { &quot;settings&quot;: { &quot;index.analysis.analyzer.default.type&quot;: &quot;ik_max_word&quot; } }, &quot;mappings&quot;: { &quot;_doc&quot;: { &quot;properties&quot;: { &quot;tags&quot;: { &quot;type
elasticsearch 分词器
一、<em>分词器</em> <em>分词器</em> 就是把一段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换)。主要作用就是:切分词语,normalization(提升recall召回率)。 normalization: 建立倒排索引的时候,会执行一个操作,对拆分出的各个单词进行相应处理,以提升后面搜索的时候能够搜索到的相关联的文档的概率。像时态转换、单复数转换、大小写转换...
Elasticsearch之分词器的作用
      前提 什么是倒排索引?        Analyzer(<em>分词器</em>)的作用是把一段文本中的词按一定规则进行切分。对应的是Analyzer类,这是一个抽象类,切分词的具体规则是由子类实现的,所以对于不同的语言,要用不同的<em>分词器</em>。(也就是说不同的<em>分词器</em>分词的规则是不同的!)     在创建索引时会用到<em>分词器</em>,在搜索时也会用到<em>分词器</em>,这两个地方要使用同一个<em>分词器</em>,否则可能会搜索不出...
Elasticsearch中文分词研究
一、ES分析器简介ES是一个实时搜索与数据分析引擎,为了完成搜索功能,必须对原始数据进行分析、拆解,以建立索引,从而实现搜索功能;ES对数据分析、拆解过程如下:首先,将一块文本分成适合于倒排索引的独立的 词条;之后,将这些词条统一化为标准格式以提高它们的“可搜索性”,或者 recall实际执行上面分析工作的,既是ES的分析器;ES 分析器实际包含三部分功能:1.字符过滤器:字符过滤器是用来整理一个...
ElasticSearch速学 - 全文检索、分词器、过滤器
今天我们要来学习ElasticSearch的搜索方面的api,在开始之前,为了便于演示,我们先要创建一些索引数据。 Search APIs官方文档: https://www.elastic.co/guide/en/<em>elasticsearch</em>/reference/5.3/search.html1、按name搜索,搜索jackGET blog/users/_search?q=name:jack结果如
elasticsearch全局检索多分词器匹配
在es全局检索的需求中,需要进行多个<em>分词器</em>同时匹配关键词,例如: 在商品名称、品牌名称和类目名称中匹配含有“西”关键字的查询结果,当一个字段匹配时即加入查询结果 用sql语句表达为:select  *  from  item where item_name like '%西%' or brand_name like '%西%' or c_name like '%西%' 其中item_name
Elasticsearch 使用中文分词
本文演示了如何使用IK Analysis 插件来实现在 Elasticsearch 中的中文分词功能。
ElasticSearch5.3安装IK分词器并验证
ElasticSearch5.3安装IK<em>分词器</em> 之前使用Elasticsearch安装head插件成功了,但是安装IK<em>分词器</em>却失败了,貌似是ElasticSearch5.0以后就不支持直接在<em>elasticsearch</em>.yml中配置IK了。原因下面会说明。 首先下载: https://www.elastic.co/downloads/<em>elasticsearch</em> https://github.com
ElasticSearch的中文分词
一ElasticSearch安装中文<em>分词器</em> 1.1 gitclone https://github.com/medcl/<em>elasticsearch</em>-analysis-ik 1.2 gitcheckout tags/v5.2.0 1.3 mvnpackage 1.4将target/releases/<em>elasticsearch</em>-analysis-ik-5.2.0.zip拷贝到 ES/plug
关于ElasticSearch 5.X分词器问题
在近几天的工作中,发现在ES的查询请求分词出现了点<em>问题</em>,ES的索引构建的mapping指定了<em>分词器</em>为ik_smart,但查询请求中没指定<em>分词器</em>,按理应该采用mapping中指定的<em>分词器</em>才对,但实际发现请求在服务器端处理采用的是standard。 网上查了各种资料,尝试过各种方式都不正确,后来感觉可能是mapping中字段<em>分词器</em>的设置方式是不是存在问
elasticSearch 5.4.0 对应的中文IK分词器
elasticSearch 5.4.0 对应的中文IK<em>分词器</em> 最新编译 非常好用
ElasticSearch的和IK分词器的安装(附实例)
        ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。(以上内容搬运自度娘)    那么今天我们来复习下(其实是怕...
elasticsearch的ik分词器
已编译,编译jdk为1.8.0,适用于es2.4.0,解压至es目录的plugin的ik下,开启,即可试用
Elasticsearch - 自定义分析器
全文搜索引擎会用某种算法对要建索引的文档进行分析, 从文档中提取出若干Token(词元), 这些算法称为Tokenizer(<em>分词器</em>), 这些Token会被进一步处理, 比如转成小写等, 这些处理算法被称为Token Filter(词元处理器), 被处理后的结果被称为Term(词), 文档中包含了几个这样的Term被称为Frequency(词频)。 引擎会建立Term和原文档的Inverted In
elasticsearch java api 使用ik 分词器
本文主要说明如何在java中使用 ik <em>分词器</em> 安装<em>分词器</em>见:<em>elasticsearch</em> 安装 analysis-ik
Elasticsearch安装中文分词插件ik
Elasticsearch安装中文分词插件ik
Elasticsearch-分词器对String的作用
关于String类型——分词与不分词在Elasticsearch中String是最基本的数据类型,如果不是数字或者标准格式的日期等这种很明显的类型,其他的一般都会优先默认存储成String。同样的数据类型,Elasticsearch也提供了多种存储与分词的模式,不同的模式应用于不同的场景。很多人在初次使用Elasticsearch时,都会很纳闷...为什么我存储的一句话,却查询不到?为什么我输入了
elasticsearch使用IK分词搜索
-
ElasticSearch中分词器以及分词原理:听课笔记(38讲-45讲)
第38讲 第39讲 第40讲 第41讲 <em>分词器</em>:拆分词语,做normalization(时态转换,单复数转换,同义词,大小写的转换) 默认情况下是standard状态,分词的时候会将连词and ,介词a the an等词干掉 第42讲 date建立倒排索引的时候,会按照精准查找来匹配。 post date内部做了一部分优化 测试<em>分词器</em>的方法...
elasticsearch 插件开发-自定义分词方法
<em>elasticsearch</em> 插件开发参考文档 官方文档,这个有点老 https://www.elastic.co/blog/found-writing-a-plugin 这是一个老外写的,也有点老,只写了个一个过滤器,最新版6.4.1不支持,不过改一下项目结构就可以了。 https://amsterdam.luminis.eu/2017/01/31/creating-<em>elasticsearch</em>-p...
解决elasticsearch安装中文分词器
开始安装。 1、下载 下载地址为: https://github.com/medcl/<em>elasticsearch</em>-analysis-ik 或者从官网地址搜索:https://www.elastic.co 搜索IK即可。 本博客下面也提供了<em>elasticsearch</em>-analysis-ik.zip的下载链接。 本博客使用的<em>elasticsearch</em>为2.2.0版本
es分词器
源文档来自es官方文档:https://www.elastic.co/guide/en/<em>elasticsearch</em>/reference/current/analysis-analyzers.htmlanalyzer可以由不同的character filters,tokenizer,token filters的组成。es自带了许多内置的Analyzer分析器,无需配置就可以直接在index中使用:标...
elasticsearch集成ik分词器详细文档
Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
Elasticsearch搜索引擎学习记录3-分词器(analyzer)应用
本人的<em>分词器</em><em>选择</em>的是ik,感兴趣的可以尝试使用mmseg等其他热门<em>分词器</em>。 analyzer单词的中文译为“分析”,应用到搜索引擎就是对文字的断章取义,段的好可以说算法好,分词效果好,索引查询效率高,就es引擎来说,默认的<em>分词器</em>,只是简单的将文字单独分开作为索引匹配,效率低,应用较好的分词插件对于ES服务来说较有必要。 下面我简单举个例子作对比 默认 curl -XPOST “http
Elasticsearch 的 NGram 分词器处理模糊匹配
接到一个任务:用 Elasticsearch 实现搜索银行支行名称的功能。大概就是用户输入一截支行名称或拼音首字母,返回相应的支行名称。比如,用户输入&quot;工行&quot;或者&quot;gh&quot;,我需要返回&quot;工行XXX分行&quot;类似这样的结果。我心里嘀咕着:数据库不是支持通配符查询吗?为什么不直接用数据库查询?说归说,但是任务还是要完成的。之前有在网上看过一篇文章,主要就是说用 Elasticsearch 处理通配符查询不太...
ElasticSearch如何不分词完全匹配搜索
最近在做一个查询系统,用到了ES,版本是6.1。 场景:通过用户姓名搜索用户列表,名字必须完全匹配。如 输入 “贾跃” 不会检索出”贾跃亭“,输入 ”马云“ 不会检索出马云云。 6.0之前的操作: PUT /&amp;lt;index_name&amp;gt;/_mapping { &amp;lt;type_name&amp;gt;: { ...
二、ElasticSearch6 安装中文分词器(IK Analysis)
通过前一篇的安装后:ElasticSearch6.2.4 安装OK了 我们继续安装IK<em>分词器</em>一、安装    以下是版本对照表(GitHub地址): IK versionES versionmaster6.x -&amp;gt; master6.2.46.2.46.1.36.1.35.6.85.6.85.5.35.5.35.4.35.4.35.3.35.3.35.2.25.2.25.1.25.1.21.10...
ElasticSearch:为中文分词器增加对英文的支持(让中文分词器可以处理中英文混合文档)(转)
本文地址,需转载请注明出处: http://blog.csdn.net/hereiskxm/article/details/47441911 当我们使用中文<em>分词器</em>的时候,其实也希望它能够支持对于英文的分词。试想,任何一个存储文字的字段都有可能是中英文夹杂的。 我们的项目中使用IKAnalyzer作为中文<em>分词器</em>,它在处理文档过程中遇到英文时,利用空格和标点将英文单词取出来,同时也会对其转全小写处理。...
ES分词插件使用
Elasticsearch中,内置了很多<em>分词器</em>(analyzers),例如standard (标准<em>分词器</em>)、english (英文分词)和chinese (中文分词)。其中standard 就是无脑的一个一个词(汉字)切分,所以适用范围广,但是精准度低;english 对英文更加智能,可以识别单数负数,大小写,过滤停用词(例如“the”这个词)等;chinese 虽然是针对中文的<em>分词器</em>,但是效果很
es进行分词测试以及自定义分词
前言: es中的<em>分词器</em>由三部分组成 1、character filter:作用:先对要进行分析的文本进行一下过滤,比如html文档,去除其中的标签,比如&amp;lt;p&amp;gt;、&amp;lt;html&amp;gt;等等; 2、tokenizer:作用:对文本进行分词,把要进行分析的文本根据所指定的规则,按照其规则把文本拆分为单词,,只可以指定一个; 3、tokenizer filter:作用:把分好的词条(...
各种基于es的分词插件
  Field.Store.YES:存储字段值(未分词前的字段值)        Field.Store.NO:不存储,存储与索引没有关系        Field.Store.COMPRESS:压缩存储,用于长文本或二进制,但性能受损 jieba分词(结巴分词作为es的插件:)https://github.com/hongfuli/<em>elasticsearch</em>-analysis-jieba按照这个...
ES中的分词器
2019独角兽企业重金招聘Python工程师标准&gt;&gt;&gt; ...
修改ES默认分词设置
        ES的默认分词设置是standard,这个在中文分词时就比较尴尬了,会单字拆分,比如我搜索关键词“清华大学”,这时候会按“清”,“华”,“大”,“学”去分词,然后搜出来的都是些“清清的河水”,“中华儿女”,“地大物博”,“学而不思则罔”之类的莫名其妙的结果,这里我们就想把这个分词方式修改一下,于是呢,就想到了ik<em>分词器</em>,有两种ik_smart和ik_max_word。       ...
es 分词器
课程大纲 1、什么是<em>分词器</em> 切分词语,normalization(提升recall召回率) 给你一段句子,然后将这段句子拆分成一个一个的单个的单词,同时对每个单词进行normalization(时态转换,单复数转换),分瓷器 recall,召回率:搜索的时候,增加能够搜索到的结果的数量 character filter:在一段文本进行分词之前,先进行预处理,比如说最常见的就是,过滤html...
spring 整合 es 中的 ElasticsearchRepository
-
ElasticsearchTemplate的详细使用,完成多条件查询、匹配度查询等
ElasticsearchTemplate是Spring对ES的java api进行的封装,提供了大量的相关的类来完成各种各样的查询。该篇主要是讲ElasticsearchTemplate的详细使用方法,条件查询、模糊查询等
有用过ElesticSearch吗?ES为什么要建立分词?Hystack如何对接ES?
ES 是什么 Elasticsearch是一个基于Lucene的实时的分布式搜索和分析引擎,由Java实现的分析大规模的日志系统,它可以准实时地快速存储、搜索、分析海量的数据。 什么是全文检索 全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程...
elasticsearch 英文数字组合字符串模糊检索
不分词,然后用wildcard查询 { &quot;query&quot;: { &quot;wildcard&quot;: { &quot;字段名&quot;: &quot;*123*&quot; } } }
Elasticsearch自定义分词,从一个问题说开去
1、<em>问题</em>抛出 来自星友的一个真实业务场景<em>问题</em>: 我现在的业务需求是这样的。有一个作者字段,比如是这样的Li,LeiLei;Han,MeiMei;还有一些是LeiLei Li...。 现在要精确匹配。 我的想法是:用自定义分词通过分号分词。但是这样我检索Li,LeiLei那么LeiLei Li就不能搜索到,我希望的结果是LeiLei Li也被搜索到 而且这种分词,Li,LeiLei不加逗号,也不能...
elasticsearch 查看分词效果
Elasticsearch 之(12)query string的分词,修改分词器以及自定义分词器
query string分词query string必须以和index建立时相同的analyzer进行分词query string对exact value和full text的区别对待 (第10节中详细阐述过)date:exact value_all:full text比如我们有一个document,其中有一个field,包含的value是:hello you and me,建立倒排索引我们要搜索...
ElasticSearch50:索引管理_快速上机动手实战修改分词器以及定制自己的分词器
1.默认的<em>分词器</em> standard standard tokenizer:以单词的边界进行切分 standard token filter:什么都不做 lowercase token filter:将所有字母转换成小写 stop token filter(默认被禁用),移除停用词,比如a the it等等 2.修改<em>分词器</em>的设置 例子:启用standard的基于english的
Elasticsearch分词与查询问题
-
Elasticsearch- 分词查询
查看分词的命令, ES配置完成后需要测试分词,看看分词是否达到预期效果。  curl 命令查看: 1. 使用自定义的分析器查看分词:ansj_index_synonym:自定交分析器名称.  pretty :json格式显示   [plain] view plaincopy   curl -XGET 'http://localhost:8200/zh/_anal...
ElasticSearch学习 - (八)安装中文分词器IK和拼音分词器
IK<em>分词器</em> 下载地址:https://github.com/medcl/<em>elasticsearch</em>-analysis-ik <em>选择</em><em>elasticsearch</em>对应版本的<em>分词器</em>进行下载 进入到对应页面下载 找到下载好的文件,右键,解压到当前文件夹 进入文件夹,cmd进入dos窗口,使用maven打包 输入命令,打包,前提是安装好了maven 命令: mvn pac...
ElasticSearch简单搜索程序+分词(中文和拼音)
es的注意事项:不能用root用户启动。                         如果是虚拟机启动使用,在安装5.0版本以上,需要修改一些参数。                         es用户需要对es文件夹有权限。                         修改配置文件,记得检查日志和数据路径。                          记得给es端口开防火墙,或...
elastic search配置ik分词及pinyin分词使搜索同时支持中文和拼音搜索
有这样一个需求:对于某个中文field进行ik分词,并对ik分词后的结果进行pinyin分词,这样我通过中文和英文都可以对此field进行搜索。 比如说“道路挖掘”,分词结果是道路 和 挖掘,其拼音应该是daolu和wajue,那么我通过daolu或道路应该都能搜索到这条记录。 如何解决呢?1. 先下载ik分词和pinyin分词,并放到esplugins相应目录中通过kibanaGET /_cat...
Elasticsearch 5.5.1 中文/拼音分词 亲测有效
所有不说明elastic 版本的博客都是耍流氓 。 ——某码农 版本如题。配置测试流程如下: 预备 删除 index DELETE /index_name/ { } 创建一个 index_name 的 index PUT /index_name/ { &amp;amp;quot;index&amp;amp;quot;: { &amp;amp;quot;analysis&amp;amp;quot;: { &amp;amp;quo
ElasticSearch6.5 使用ik+拼音分词
ElasticSearch安装中文分词插件 ```linux cd /usr/local/src/<em>elasticsearch</em>-6.5.2 ./bin/<em>elasticsearch</em>-plugin install https://github.com/medcl/<em>elasticsearch</em>-analysis-ik/releases/download/v6.5.2/<em>elasticsearch</em>-analys...
ES设置多个自定义分词器,每个分词器使用不同的词库
ES中如何设置自定义<em>分词器</em>并且每个<em>分词器</em>使用自己定义的词库? 1.首先在ansj.cfg.yml中配置 然后在ansj-library.properties文件中添加词典放置路径。。ansj-library.properties和library文件放同一路径下 curl -XPUT ‘http://localhost:9200/fencitest3?pretty’ -d ‘{“sett...
ES:修改分词器以及定制自己的分词器
1、默认的<em>分词器</em> standard standard tokenizer:以单词边界进行切分 standard token filter:什么都不做 lowercase token filter:将所有字母转换为小写 stop token filer(默认被禁用):移除停用词,比如a the it等等 2、修改<em>分词器</em>的设置 PUT /my_index { &quot;settings&quot;: { &quot;...
Elasticsearch 分词搜索
之前做了一下ES 的分词搜索,在网上找的资料很少,只能根据API一点点扒拉,总算长得帅还是有好处的,成功的通过分词进行搜索,适用的场景,根据某些字段进行分词匹配,并指定字段不同的优先级,都是通过http请求直接完成,自己实现是通过java封装了一下,java代码就不贴出来了,大家可以根据根据自己需要进行封装 分词查询大概需要两步操作:1.设置ES 某index下的mapping,2,针对字段进行...
Elastic Search之分词
分词(Analysis):将文本切分为一系列单词的过程,比如 &quot;美国留给伊拉克的是个烂摊子吗?&quot;经过分词后的后果为:美国、伊拉克、烂摊子。 <em>分词器</em>(Analyzer):<em>elasticsearch</em>中执行的分词的主体,官方把<em>分词器</em>分成三个层次: Character Filters:针对文档的原始文本进行处理,例如将印度语的阿拉伯数字&quot;0 12345678 9&quot;转换成拉丁语的阿拉伯数字&quot;012345...
Elasticsearch词库扩充实践
        我们知道ES(Elasticsearch)有一个默认的ik<em>分词器</em>,国内用户也可以安装中文分词插件。但这些往往不能满足实际的项目需求,今天就和大家交流一下ES如何扩充自定义词库。话不多说,直奔主题。 一、添加用户词典        在ES的安装路径下找到配置目录custom(如果没有就mkdir),创建用户自定义的词典myTest.dic。这里新添加用户自定义词典,不建议在ES自...
Elasticsearch JavaAPI建立分词索引并统计词频
求助各位,在项目中,我创建了一个名为“condition”的index,名为“msg”的type,并且仅仅建立一个数据节点。msg里含有一个字段如下: 字段名 属性 是否分析 属性说明 ID Stri
Elasticsearch实现中文分词
教程目录0x00 教程内容0x01 默认标准分词效果展示1. 默认标准<em>分词器</em>的使用2. 新建一个测试索引3. 查询及效果展示0x02 分词插件<em>elasticsearch</em>-analysis-ik1. 下载插件2. 启动Elasticsearch3. 重新创建测试索引0x03 ik分词效果展示1. ik_max_word分词2. ik_smart分词0xFF 总结 0x00 教程内容 默认标准分词效...
ElasticSearch 分词
分词将文本转换成一系列单词的过程,转换成的单词叫term or token原理: 倒排索引(b+)<em>分词器</em>的组成以及调用顺序1.Character Filter 单词过滤器,对原始的文本进行处理 2.Tokenizer 将原始文本按照一定的规则切分成不同的单词 3.Token Filter 针对2过程处理的单词在进行加工,例如大小写转换等 1.指定analyzer进行测试请求:POST _ana...
ElasticSearch 倒排索引、分词
es使用称为倒排索引的结构达到快速全文搜索的目的。   一个倒排索引包含一系列不同的单词,这些单词出现在任何一个文档, 对于每个单词,对应着所有它出现的文档。   比如说,我们有2个文档,每个文档有一个conteng字段。 内容如下: “ The quick brown fox jumped over the lazy dog” “ Quick brown foxes leap...
Elasticsearch分词无效
我在映射的时候已经添加了.Analyzer("ik_smart"),但是我输入北,他还是全部读出来,并没有达到分词效果,哪里有<em>问题</em>吗?
Elasticsearch初探(3)——简单查询与中文分词
一、简单查询 1.1 查询全部 请求方式: GET 请求路径: ES服务的IP:端口/索引名/{分组,可省略}/_search 以上篇文章建立的索引为例,搜索结果如下: { &quot;took&quot;: 0, &quot;timed_out&quot;: false, &quot;_shards&quot;: { &quot;total&quot;: 5, &quot;successful&quot;: 5, &quot;sk.
ElasticSearch中文分词ik安装
[url]http://www.<em>elasticsearch</em>.org/overview/elkdownloads/[/url] 下载编译好的安装包,解压缩就可以直接使用 如果是自己编译的版本在安装插件时可能会出现一些<em>问题</em>,比如安装<em>elasticsearch</em>-head,虽然安装成功,但是插件运行不正常,能够查看索引,但是节点的相关状态信息无法显示,所以在熟悉<em>elasticsearch</em>的细节后再自编...
Elasticsearch设置中文分词
安装分词插件在ES安装目录下:./bin/<em>elasticsearch</em>-plugin install https://github.com/medcl/<em>elasticsearch</em>-analysis-ik/releases/download/v5.6.1/<em>elasticsearch</em>-analysis-ik-5.6.1.zip重启ES添加索引和类型在Kibana Sense下http://localhos
ElasticSearch查看分词结果
 如下:GET googleplay/app/com.pearlabyss.blackdesertm/_termvectors?fields=name_krGET your_index/your_type/your_id/_termvectors?fields=your_fieldsName
elasticsearch篇之正/倒排索引与分词
倒排索引与分词 类似于书的目录,目录能够方便的定位哪一章节或哪一小节的页码,但是无法定位某一关键字的位置。有一些书的最后有索引页,它的功能就是帮助定位某些关键字出现的位置。 目录页对应正排索引 索引页对应倒排索引 正排索引和倒排索引 对于搜索引擎来讲: 正排索引是文档 Id 到文档内容、单词的关联关系。也就是说可以通过 Id获取到文档的内容。 倒排索引是单词到文档 Id ...
elasticsearch5.5.1中文分词实践过程(亲测可用)
<em>elasticsearch</em>5.5.1中文分词实践过程,避免小白使用过程中遇到的弯路和套路。
elasticsearch实现中文分词和拼音分词混合查询+CompletionSuggestion
引言之前已经介绍了如何搭建<em>elasticsearch</em>服务端和简单的索引创建,和中文分词的支持。今天我们来说一说如何实现<em>elasticsearch</em>同时实现中文分词和pinyin分词。并且实现类似百度搜索栏的搜索建议的功能。混合查询实现混合查询有很多方式,这里介绍我认为是一个偷懒的方法,就是为你要拼音搜索的字段提供两个额外的字段,一个是全拼字段,一个是首字母缩写字段。我这里用的是官网的Employee的
Elasticsearch中的分词介绍
1、概述 在我们初次使用Elasticsearch查询的时候,有时会很困惑,为什么我存储的一段String数据,却查询不到?为什么输入了汉语单词,只能一个字一个字的匹配?等这些都与是否分词、使用什么<em>分词器</em>有关。1.1 分词概念 首先说说什么是<em>分词器</em>吧! 比如“分词介绍”: 如果是标准<em>分词器</em>,会把它拆分成“分”,“词”,“介”,“绍”。 如果使用一些汉语的<em>分词器</em>,则会分析成“分词”,“介绍”。
elasticsearch中文分词
由于<em>elasticsearch</em>基于lucene,所以天然地就多了许多lucene上的中文分词的支持,比如 IK, Paoding, MMSEG4J等lucene中文分词原理上都能在<em>elasticsearch</em>上使 用。当然前提是有<em>elasticsearch</em>的插件。 至于插件怎么开发,这里有一片文章介绍: http://log.medcl.net/item/2011/07/diving-i
ElasticSearch 查看某个字段数据的分词结果
GET /${index}/${type}/${id}/_termvectors?fields=${fields_name}
Elasticsearch 5 Ik+pinyin分词配置详解
一、拼音分词的应用拼音分词在日常生活中其实很常见,也许你每天都在用。打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示:拼音分词是根据输入的拼音提示对应的中文,通过拼音分词提升搜索体验、加快搜索速度。下面介绍如何在Elasticsearch 5.1.1中配置和实现pinyin+iK分词。二、IK<em>分词器</em>下载与安装关于IK<em>分词器</em>的介绍不再多少,
elasticsearch 分词过程
我们常常会遇到<em>问题</em>,为什么指定的文档没有被搜索到。很多情况下, 这都归因于映射的定义和分析例程配置存在<em>问题</em>。 一:分词流程 整个流程大概是:单词 ====》Character Filter 预处理 =====》tokenizer分词 ====》 token filter对分词进行再处理。 单词或文档先经过Character Filters;Char
Elasticsearch 5.X为index指定中文分词器ik
Elasticsearch用于json格式数据的全文检索十分方便,但是需要一些时间来熟悉和配置。最权威的配置说明在官方文档这里,但是由于是英文的,而且新概念和内容十分多,初学者往往不容易找到解决<em>问题</em>的办法。笔者解决这篇文章中的<em>问题</em>就花了2天时间,所以记录下来,方便初学者查阅。Elasticsearch 5.X不再支持<em>elasticsearch</em>.yml配置文件中全局的<em>分词器</em>配置,那么如果想给一个in...
ElasticSearch学习
ElasticSearch是一个基于Lucene构建的开源,分布式,RESTful搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过HTTP使用JSON进行数据索引。    官方站点:http://www.<em>elasticsearch</em>.com/  中文站点:http://es-cn.medcl.net/      1.安装    必须先安装Java环
Game Engine Architecture.part1.pdf下载
Game Engine Architecture Jason Gregory 真正的Game Engine Architecture,不是3d Game Engine Architecture 相关下载链接:[url=//download.csdn.net/download/kezbt/2901193?utm_source=bbsseo]//download.csdn.net/download/kezbt/2901193?utm_source=bbsseo[/url]
Wiz书库经典教程JSP Servlet下载
jsp获取当前URL绝对路径.ziw JSP页面跳转的五种方法.ziw servlet 获取客户端请求的路径 得到站点的绝对地址.ziw 强制页面刷新,防止被服务器缓存.ziw 相关下载链接:[url=//download.csdn.net/download/yiranstill/3317600?utm_source=bbsseo]//download.csdn.net/download/yiranstill/3317600?utm_source=bbsseo[/url]
收藏关于手机开发的东西下载
不错的------------------------------------------------------------------- 相关下载链接:[url=//download.csdn.net/download/fensegongzi/3486209?utm_source=bbsseo]//download.csdn.net/download/fensegongzi/3486209?utm_source=bbsseo[/url]
我们是很有底线的