社区
搜索引擎技术
帖子详情
solr拼音搜索功能如何实现
yanghaoge001
2018-05-18 10:50:47
目前拼音搜索功能已经实现,现在的需求是拼音搜索功能如何结合搜索推荐功能搜索?搜索推荐我用的是solr的TermsComponent组件实现的。
需求:就像图片一样,当我输入汉字拼音首字母或者全拼的时候,就能搜索出对应汉字的推荐种类商品的数量以及推荐种类名称。
大家可以去京东搜索体验一下
...全文
1198
2
打赏
收藏
solr拼音搜索功能如何实现
目前拼音搜索功能已经实现,现在的需求是拼音搜索功能如何结合搜索推荐功能搜索?搜索推荐我用的是solr的TermsComponent组件实现的。 需求:就像图片一样,当我输入汉字拼音首字母或者全拼的时候,就能搜索出对应汉字的推荐种类商品的数量以及推荐种类名称。 大家可以去京东搜索体验一下
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
2 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
深海游摆深秋入林
2019-04-15
打赏
举报
回复
可以分享下拼音检索的功能实现吗
ZHOU西口
2018-06-18
打赏
举报
回复
两个方面的工作: 1、拼音与汉字的映射,楼主实现了,就不多嘴了(可以分享出来哦)
2、输入结果与推荐的映射 其中,这里先做好推荐的功能,比如solr cloud是否可以处理联想词与推荐结果的匹配关系(约XXX个结果) 然后下一步就简单了
自己动手写
搜索
引擎(罗刚著).doc
自己动手写
搜索
引擎 1 第1章 了解
搜索
引擎 1 1.1 Google神话 1 1.2 体验
搜索
引擎 1 1.3 你也可以做
搜索
引擎 4 1.4 本章小结 4 第2章 遍历
搜索
引擎技术 5 2.1 30分钟
实现
的
搜索
引擎 5 2.1.1 准备工作环境(10分钟) 5 2.1.2 编写代码(15分钟) 6 2.1.3 发布运行(5分钟) 9 2.2
搜索
引擎基本技术 14 2.2.1 网络蜘蛛 14 2.2.2 全文索引结构 14 2.2.3 Lucene 全文检索引擎 15 2.2.4 Nutch网络
搜索
软件 15 2.2.5 用户界面 17 2.3 商业
搜索
引擎技术介绍 17 2.3.1 通用
搜索
17 2.3.2 垂直
搜索
18 2.3.3 站内
搜索
19 2.3.4 桌面
搜索
21 2.4 本章小结 21 第3章 获得海量数据 22 3.1 自己的网络蜘蛛 22 3.1.1 BerkeleyDB介绍 27 3.1.2 抓取网页 28 3.1.3 MP3 抓取 29 3.1.4 RSS 抓取 30 3.1.5 图片抓取 33 3.1.6 垂直行业抓取 34 3.2 抓取数据库中的内容 36 3.2.1 建立数据视图 36 3.2.2 JDBC数据库连接 36 3.2.3 增量抓取 40 3.3 抓取本地硬盘上的文件 41 3.3.1 目录遍历 41 3.4 本章小结 42 第4章 提取文档中的文本内容 43 4.1 从HTML文件中提取文本 43 4.1.1 HtmlParser介绍 51 4.1.2 结构化信息提取 54 4.1.3 网页去噪 60 4.1.4 网页结构相似度计算 63 4.1.5 正文提取的工具FireBug 64 4.1.6 正文提取的工具NekoHTML 66 4.1.7 正文提取 68 4.2 从非HTML文件中提取文本 73 4.2.1 TEXT文件 73 4.2.2 PDF文件 73 4.2.3 Word文件 82 4.2.4 Rtf文件 82 4.2.5 Excel文件 83 4.2.6 PowerPoint文件 84 4.3 流媒体内容提取 85 4.3.1 音频流内容提取 85 4.3.2 视频流内容提取 87 4.4 抓取限制应对方法 89 4.5 本章小结 90 第5章 自然语言处理 91 5.1 中文分词处理 91 5.1.1 Lucene 中的中文分词 91 5.1.2 Lietu中文分词的使用 92 5.1.3 中文分词的原理 92 5.1.4 查找词典算法 95 5.1.5 最大概率分词方法 98 5.1.6 新词发现 101 5.1.7 隐马尔可夫模型 102 5.2 语法解析树 104 5.3 文档排重 105 5.4 中文关键词提取 106 5.4.1 关键词提取的基本方法 106 5.4.2 关键词提取的设计 107 5.4.3 从网页提取关键词 107 5.5 相关
搜索
107 5.6 拼写检查 110 5.6.1 英文拼写检查 110 5.6.2 中文拼写检查 112 5.7 自动摘要 116 5.7.1 自动摘要技术 117 5.7.2 自动摘要的设计 117 5.7.3 Lucene中的动态摘要 124 5.8 自动分类 125 5.8.1 Classifier4J 126 5.8.2 自动分类的接口定义 127 5.8.3 自动分类的SVM方法
实现
128 5.8.4 多级分类 128 5.9 自动聚类 131 5.9.1 聚类的定义 131 5.9.2 K均值聚类方法 131 5.9.3 K均值
实现
133 5.10
拼音
转换 138 5.11 语义
搜索
139 5.12 跨语言
搜索
143 5.13 本章小结 144 第6章 创建索引库 145 6.1 设计索引库结构 146 6.1.1 理解 Lucene 的索引库结构 146 6.1.2 设计一个简单的索引库 148 6.2 创建和维护索引库 149 6.2.1 创建索引库 149 6.2.2 向索引库中添加索引文档 149 6.2.3 删除索引库中的索引文档 151 6.2.4 更新索引库中的索引文档 151 6.2.5 索引的合并 151 6.2.6 索引的定时更新 152 6.2.7 索引的备份和恢复 153 6.2.8 修复索引 154 6.3 读写并发控制 154 6.4 优化使用 Lucene 155 6.4.1 索引优化 155 6.4.2 查询优化 157 6.4.3
实现
时间加权排序 162 6.4.4
实现
字词混合索引 163 6.4.5 定制Similarity 170 6.4.6 定制Tokenizer 171 6.5 查询大容量索引 173 6.6 本章小结 174 第7章
jcseg:Jcseg是用Java开发的轻量级NLP框架。 提供基于MMSEG算法的CJK和英语细分,并基于TEXTRANK算法
实现
关键词提取,关键句提取,摘要提取。 Jcseg具有内置的http服务器和用于最新lucene,
solr
,elasticsearch的
搜索
模块
Jcseg是什么? Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键在于提取,关键句提取和文章自动摘要等
功能
,并提供了一个基于Jetty的web服务器,方便各大语言直接Jcseg自带了一个jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加
拼音
,是否追加名词等! Jcseg核心
功能
: 中文分词:mmseg算法+ Jcseg独创的优化算法,七种切分模式。 关键字提取:基于textRank算法。 关键语法提取:基于textRank算法。 关键句子提取:基于textRank算法。 文章自动摘要:基于BM25 + textRank算法。 自动词性标注:基于词库+(统计歧义去除计划),总体效果不是很理想,对词性标注结果要求更高的应用不建议使用。 命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。 Restful api:嵌入jetty提供了一个绝对高级的服务器模块,包含所有
功能
的http接口,标准
Lunene
Solr
搜索
引擎专题
Lucene是apache下的一个开放源代码的全文检索引擎工具包。提供了完整的查询引擎和索引引擎。...
Solr
提供了比Lucene更为丰富的查询语言,同时
实现
了可配置、可扩展,并对索引、
搜索
性能进行了优化。
java开源包3
Spring4GWT GWT Spring 使得在 Spring 框架下构造 GWT 应用变得很简单,提供一个易于理解的依赖注入和RPC机制。 Java扫雷游戏 JVMine JVMine用Applets开发的扫雷游戏,可在线玩。 public class JVMine extends java.applet.Applet 简单
实现
!~ 网页表格组件 GWT Advanced Table GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可
实现
分页数据显示、数据排序和过滤等
功能
! Google Tag Library 该标记库和 Google 有关。使用该标
java开源包4
Spring4GWT GWT Spring 使得在 Spring 框架下构造 GWT 应用变得很简单,提供一个易于理解的依赖注入和RPC机制。 Java扫雷游戏 JVMine JVMine用Applets开发的扫雷游戏,可在线玩。 public class JVMine extends java.applet.Applet 简单
实现
!~ 网页表格组件 GWT Advanced Table GWT Advanced Table 是一个基于 GWT 框架的网页表格组件,可
实现
分页数据显示、数据排序和过滤等
功能
! Google Tag Library 该标记库和 Google 有关。使用该标记库,利用 Google 为你的网站提供网站查询,并且可以直接在你的网页里面显示搜查的结果。 github-java-api github-java-api 是 Github 网站 API 的 Java 语言版本。 java缓存工具 SimpleCache SimpleCache 是一个简单易用的java缓存工具,用来简化缓存代码的编写,让你摆脱单调乏味的重复工作!1. 完全透明的缓存支持,对业务代码零侵入 2. 支持使用Redis和Memcached作为后端缓存。3. 支持缓存数据分区规则的定义 4. 使用redis作缓存时,支持list类型的高级数据结构,更适合论坛帖子列表这种类型的数据 5. 支持混合使用redis缓存和memcached缓存。可以将列表数据缓存到redis中,其他kv结构数据继续缓存到memcached 6. 支持redis的主从集群,可以做读写分离。缓存读取自redis的slave节点,写入到redis的master节点。 Java对象的SQL接口 JoSQL JoSQL(SQLforJavaObjects)为Java开发者提供运用SQL语句来操作Java对象集的能力.利用JoSQL可以像操作数据库中的数据一样对任何Java对象集进行查询,排序,分组。
搜索
自动提示 Autotips AutoTips是为解决应用系统对于【自动提示】的需要(如:Google
搜索
), 而开发的架构无关的公共控件, 以满足该类需求可以通过快速配置来开发。AutoTips基于
搜索
引擎Apache Lucene
实现
。AutoTips提供统一UI。 WAP浏览器 j2wap j2wap 是一个基于Java的WAP浏览器,目前处于BETA测试阶段。它支持WAP 1.2规范,除了WTLS 和WBMP。 Java注册表操作类 jared jared是一个用来操作Windows注册表的 Java 类库,你可以用来对注册表信息进行读写。 GIF动画制作工具 GiftedMotion GiftedMotion是一个很小的,免费而且易于使用图像互换格式动画是能够设计一个有趣的动画了一系列的数字图像。使用简便和直截了当,用户只需要加载的图片和调整帧您想要的,如位置,时间显示和处理方法前帧。 Java的PList类库 Blister Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端 JOpenID JOpenID是一个轻量级的OpenID 2.0 Java客户端,仅50KB+(含源代码),允许任何Web网站通过OpenID支持用户直接登录而无需注册,例如Google Account或Yahoo Account。 JActor的文件持久化组件 JFile JFile 是 JActor 的文件持久化组件,以及一个高吞吐量的可靠事务日志组件。 Google地图JSP标签库 利用Google:maps JSP标签库就能够在你的Web站点上
实现
GoogleMaps的所有
功能
而且不需要javascript或AJAX编程。它还能够与JSTL相结合生成数据库驱动的动态Maps。 OAuth
实现
框架 Agorava Agorava 是一个
实现
了 OAuth 1.0a 和 OAuth 2.0 的框架,提供了简单的方式通过社交媒体进行身份认证的
功能
。 Eclipse的JavaScript插件 JSEditor JSEditor 是 Eclipse 下编辑 JavaScript 源码的插件,提供语法高亮以及一些通用的面向对象方法。 Java数据库连接池 BoneCP BoneCP 是一个高性能的开源java数据库连接池
实现
库。它的设计初衷就是为了提高数据库连接池的性能,根据某些测试数据发现,BoneCP是最快的连接池。BoneCP很小,只有四十几K
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章