社区
高性能WEB开发
帖子详情
有人用lucene做过类似baidu的搜索引擎吗?
ccnu_zrb
2009-07-31 11:10:40
FYI
...全文
72
1
打赏
收藏
有人用lucene做过类似baidu的搜索引擎吗?
FYI
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
1 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
beck_716
2009-07-31
打赏
举报
回复
我做过类似的 是wap搜索
百歌
搜索引擎
tomcat嵌入版(Baioogle-SearchEngine Embed in Tomcat)
关于“百歌
搜索引擎
tomcat嵌入版(Baioogle-SearchEngine Embed in Tomcat)”的说明: 2008年5月份,因学习《信息检索》课程,本人利用java的开源
搜索引擎
库
lucene
,以及结合ajax技术google-suggest功能,模仿
baidu
、google的基本风格做了个“Baioogle-SearchEngine(百歌
搜索引擎
)”程序。 (源代码见csdn下载地址:http://download.csdn.net/source/482402) 后来,不时
有人
询问相关技术及操作,现给出嵌入了tomcat的版本,希望对大家学习有用。 -------------------------------------------- 嵌入版的运行步骤: 1.启动“Baioogle-SearchEngine Embed in Tomcat”文件夹下的Start.bat,开启tomcat服务。 2.web浏览器中访问http://127.0.0.1/,等tomcat启动完毕后刷新即可看到网站界面如下图: 3.接下来的操作就和使用百度、谷歌
类似
了。 注:可以进入“...\Baioogle-SearchEngine Embed in Tomcat\apache-tomcat-5.5.28-embed\webapps\Root\cache”目录,执行里面的bat文件爬取感兴趣的网站,之后再建立快照及索引库。相关操作见随源代码附带的ReadMe.txt。 -------------------------------------------- Email:wudazhg@163.com 2011.6
搜索引擎
设计软件程序源码+数据库+WORD毕业设计论文文档.zip
搜索引擎
设计软件程序源码+数据库+WORD毕业设计论文文档. 经过对
搜索引擎
的研究同时与
Lucene
自身的特性相结合,
搜索引擎
的设计与实现需要实现的功能阐述如下: (1)支持桌面文件搜索,格式包括txt、doc、xls和ppt; (2)支持分词查询 (3)支持全文搜索 (4)能够高亮显示搜索关键字 (5)显示查询所用的时间 (6)显示搜索历史、过滤关键字 目 录 目 录 IV 1 绪论 1 1.1 项目背景 1 1.2 国内外发展现状及分类 2 1.3 本论文组织结构介绍 3 2 相关技术介绍 5 2.1什么是
搜索引擎
5 2.2 sqlserver数据库 6 2.3 Tomcat服务器 7 3
搜索引擎
的基本原理 8 3.1
搜索引擎
的基本组成及其功能 8 3.2
搜索引擎
的详细工作流程 11 4 系统分析与设计 14 4.1系统分析 14 4.2系统概要设计 14 4.2系统实现目标 15 5 系统详细实现 16 5.1实现环境配置 16 5.2功能实现 16 5.2.1 建立索引 16 5.2.2 文件搜索实现 18 5.2.3 数据库的连接配置 20 5.2.4 数据库搜索实现 20 5.2.5 后台数据编辑实现 22 6 系统测试 24 6.1测试重要性 24 6.2测试用例 25 结 论 27 参 考 文 献 28 致 谢 29 1 绪论 1.1 项目背景 环球信息网(World Wide Web),即3W,一般在计算机与信息行业用Web这个词汇来来表示,万维网是它进入中国时所赋予的称呼,其实,这就是一个资料的汇集与存储的空间。 在这个空间中,以事物为单位,一个事物也可以称为一样“资源”,利用URL来标识,统一资源标识符”(URL。这些资源通过超文本传输协议(Hypertext Transfer Protocol,HTP)传送给终端用户,其中给到用户手上的是一个个链接,然后用户通过逐层点击链接,就可以查看到资源,也可以获得到资源。 万维网也常常被人们误以为是因特网的近义词,在这里必须要表明的概念是:万维网与因特网存在着本质的区别。因特网(Internet)是指,把全世界所有的各类型电脑,利用网络连接,所形成的硬件框架,这是一个实实在在的“网”。万维网,其本质是一种功能,即让使用者光看网络页面,而页面之间又交相辉映,从而让使用者觉得这也是一种“网”,但这种网是虚拟的,是不存在的。 可以说1994年在信息时代是一个重大突破的一年,因为万维网(World Wide Web)出现了。在这一改变之前,人们的信息获取方式还是通过各种传统文化传媒,相对于万维网来说是很传统、笨拙的,它在开放性和广泛的可访问性极大的激励了人们创作的积极性。所以万维网的出现极大的缩短了人们信息获取的时间,同时信息的时效性也得到了保障。万维网一出现就收到了全世界各国人的追捧,人们在它出现的十几年的一个时间段中,就在万维网这一平台上发布了几十亿条的网页信息,他的一个数据量是那么的庞大,粗略计算一下,万维网上的网页信息每天都会不断增长几十万。因为网络化、数字化的信息资源,所以网络信息也是有利有弊:利的一面是提高了我们的信息量;不利的一面是庞大的信息一并向我们开来,犹如破堤的江水,汹涌澎湃,造成了我们无所适从。 关于
搜索引擎
的由来,北美加拿大(Canada)的麦吉尔大学就必须要介绍一下了,早在上世纪,90年代之初,由于网络资源众多,分散性特别大,人们在找资料的时候特别费力。麦吉尔大学的团队也意识到了这个问题,所以他们就研发出了Archie,这是一个可以自动运行的系统,可以完成在FTP上搜集有用资源的作用。该系统定期会自动搜索FTP系统上保存的文档名以及相关的资源,而且还可以自行分析,如果有客户端发出搜索请求,该系统会根据搜索请求的内容,自动提供保存在主机中文件。在以Web网页为对象的
搜索引擎
系统的大背景下,
搜索引擎
被人们当做了在网上查找信息的重要手段,通过
搜索引擎
系统人们可以在浩瀚的网络海洋中第一时间找到自己真正想要的信息,并且
搜索引擎
的智能以及现在网页的特性使得人们只要输入相关的词语(即关键词)就可以找到相关的信息。 现如今,人们看到的百度、Google取得的显著成效,可以说是成为了行业的领头羊,所以整个世界也都把视觉一部分放置在了
搜索引擎
这一领域当中,各种各样的搜索服务犹如雨后春笋一般争相冒出。
搜索引擎
不仅种类愈来愈多,而且其服务的质量也越来越全面,从最初期的国外的Google引擎、Yahoo引擎,到如今的中国的
Baidu
引擎、360引擎等等。随着web技术的不断完善,网络信息资源也是翻倍增长的(变化关系是成正比的)。所以为了满足用户的需要,既可以快速的找到到资源,而且还可以提高资源的质量,各类型的引
Lucene
全文检索框架+Solr
搜索引擎
(2018版.Java)
Lucene
是一个开放源代码的全文检索引擎工具包, 提供了完整的查询引擎和索引引擎, 部分文本分析引擎。Solr是一个高性能,基于
Lucene
的全文搜索服务器。提供了比
Lucene
更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文
搜索引擎
,是架构师技术!
nutch入门教程
1.1 什么是 nutch Nutch 是一个开源的、Java 实现的
搜索引擎
。它提供了我们运行自己的搜 引擎所需的全部工具。 1.2 研究 nutch的原因 可能有的朋友会有疑问,我们有 google,有百度,为何还需要建立自己的搜索 擎呢?这里我列出 3 点原因: (1) 透明度:nutch 是开放源代码的,因此任何人都可以查看他的排序算法 是如何工作的。商业的
搜索引擎
排序算法都是保密的,我们无法知道为 什么搜索出来的排序结果是如何算出来的。更进一步,一些
搜索引擎
允 许竞价排名,比如百度,这样的索引结果并不是和站点内容相关的。因 此 nutch 对学术搜索和政府类站点的搜索来说,是个好选择,因为一 个公平的排序结果是非常重要的。
ElasticSearch7.x入门到案例实战教程
ElasticSearch是一个基于
Lucene
的搜索服务器。它提供了一个分布式多用户能力的全文
搜索引擎
,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级
搜索引擎
。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 ElasticSearch应用场景维基百科,
类似
百度百科,全文检索,高亮,搜索推荐The Guardian(国外新闻网站),
类似
搜狐新闻,用户行为日志(点击,浏览,收藏,评论)+社交网络数据(对某某新闻的相关看法),数据分析,给到每篇新闻文章的作者,让他知道他的文章的公众反馈(好,坏,热门,垃圾,鄙视,崇拜)Stack Overflow(国外的程序异常讨论论坛),IT问题,程序的报错,提交上去,
有人
会跟你讨论和回答,全文检索,搜索相关问题和答案,程序报错了,就会将报错信息粘贴到里面去,搜索有没有对应的答案GitHub(开源代码管理),搜索上千亿行代码电商网站,检索商品通过理论和剖析原理的方式让你熟悉ElasticSearch技术,节省你的学习时间和提高你的学习效率。
高性能WEB开发
25,985
社区成员
4,366
社区内容
发帖
与我相关
我的任务
高性能WEB开发
高性能WEB开发
复制链接
扫一扫
分享
社区描述
高性能WEB开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章