solr 多值分词查询问题

1???? 2018-09-17 03:29:51

如图所示：搜出来的这个结果不尽如人意，匹配跨越了多值，不想被搜索出来，有什么办法解决呢？

...全文

203 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

word分词是一个Java实现的中文分词组件，提供了多种基于词典的分词算法，并利用ngram模型来消除歧义。能准确识别英文、数字，以及日期、时间等数量词，能识别人名、地名、组织机构名等未登录词。同时提供了Lucene、Solr、ElasticSearch插件。分词使用方法： 1、快速体验运行项目根目录下的脚本demo-word.bat可以快速体验分词效果用法: command [text] [input] [output] 命令command的可选值为：demo、text、file demo text 杨尚川是APDPlat应用级产品开发平台的作者 file d:/text.txt d:/word.txt exit 2、对文本进行分词移除停用词：List words = WordSegmenter.seg("杨尚川是APDPlat应用级产品开发平台的作者"); 保留停用词：List words = WordSegmenter.segWithStopWords("杨尚川是APDPlat应用级产品开发平台的作者"); System.out.println(words); 输出：移除停用词：[杨尚川, apdplat, 应用级, 产品, 开发平台, 作者] 保留停用词：[杨尚川, 是, apdplat, 应用级, 产品, 开发平台, 的, 作者] 3、对文件进行分词 String input = "d:/text.txt"; String output = "d:/word.txt"; 移除停用词：WordSegmenter.seg(new File(input), new File(output)); 保留停用词：WordSegmenter.segWithStopWords(new File(input), new File(output)); 4、自定义配置文件默认配置文件为类路径下的word.conf，打包在word-x.x.jar中自定义配置文件为类路径下的word.local.conf，需要用户自己提供如果自定义配置和默认配置相同，自定义配置会覆盖默认配置配置文件编码为UTF-8 5、自定义用户词库自定义用户词库为一个或多个文件夹或文件，可以使用绝对路径或相对路径用户词库由多个词典文件组成，文件编码为UTF-8 词典文件的格式为文本文件，一行代表一个词可以通过系统属性或配置文件的方式来指定路径，多个路径之间用逗号分隔开类路径下的词典文件，需要在相对路径前加入前缀classpath: 指定方式有三种：指定方式一，编程指定（高优先级）： WordConfTools.set("dic.path", "classpath:dic.txt，d:/custom_dic"); DictionaryFactory.reload();//更改词典路径之后，重新加载词典指定方式二，Java虚拟机启动参数（中优先级）： java -Ddic.path=classpath:dic.txt，d:/custom_dic 指定方式三，配置文件指定（低优先级）：使用类路径下的文件word.local.conf来指定配置信息 dic.path=classpath:dic.txt，d:/custom_dic 如未指定，则默认使用类路径下的dic.txt词典文件 6、自定义停用词词库使用方式和自定义用户词库类似，配置项为： stopwords.path=classpath:stopwords.txt，d:/custom_stopwords_dic 7、自动检测词库变化可以自动检测自定义用户词库和自定义停用词词库的变化包含类路径下的文件和文件夹、非类路径下的绝对路径和相对路径如： classpath:dic.txt，classpath:custom_dic_dir, d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt classpath:stopwords.txt，classpath:custom_stopwords_dic_dir， d:/stopwords_more.txt，d:/STOPWORDS_DIR，d:/STOPWORDS2_DIR，stopwords_dir，remove.txt 8、显式指定分词算法对文本进行分词时，可显式指定特定的分词算法，如： WordSegmenter.seg("APDPlat应用级产品开发平台", SegmentationA

schema.xml，在SolrCore的conf目录下，它是Solr数据表配置文件，它定义了加入索引的数据的数据类型的。主要包括FieldTypes、Fields和其他的一些缺省设置。field：进行索引，需要创建document，document中包括了很多的field（域）。 field属性：是否索引、是否存储、是否分词，是否多值multiValuedmultiValued：该Field如果要存储多个值时设置为true，solr允许一个Field存储多个值，比如存储一个用户的好友id（多个），商品的图片（多个，大图和小图），通过使用solr查询要看出返回给客户端是数组：Field

一、修改 solr-7.3.1\server\solr\articles【创建的core的名称】\conf\managed-schema文件1、增加中文的分词器：2、增加字段名，指定text_cn类型：3、pom引入jiarorg.springframework.dataspring-data-solr二、java代码如下：package com.silverbox.solr;import jav...

在solr的分词配置后成功后，在solr后台管理界面进行模糊查询的时候会存在分词匹配个数的问题。打个简单的比方：搜索兰州XXXX酒店。往往这个时候就有一大批数据出来，只要包含了分词后的词的数据都会搜索出来，给客户的体验不怎么好，本来客户是想只展示兰州的XXXX酒店的，结果北京的、广州的，还有其他名称的酒店都给搜索出来。这个时候就是分词的匹配个数设置的问题了。首先还是看下分词的配置（IK ...

1.安装下载下载路径：solr-7.5.0下载 2.安装配置 7.5的solr是自带jetty容器的，不需要通过tomcat，解压后通过cmd来启动，默认端口为8983 solr 启动、停止、重启命令 solr start -p 端口号 solr stop -all solr restart -p 端口号启动成功，登录管理页http://127.0.0.1:8983/solr/#/ ...

搜索引擎技术

2,760

社区成员

2,052

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章