社区
数据库开发
帖子详情
睡不着, 百度等搜索引擎的索引如何存储的,在文件还是数据库?
hqulyc
2009-10-23 12:51:08
1. 百度/google等搜索引擎的建好的倒排序索引跟词库, 分别如何存放呢? 是存放于数据库的吗?
2. lucene的索引好象是存放在文件里,没有放到数据库, 每次查询的时候都要打开一次文件吗? 如果不是,很想知道它跟apache/tomcat是如何交互的?
3. lucene的词库是加载到内存的吗?还是每次搜索都要去加载或读取文件?
...全文
128
4
打赏
收藏
睡不着, 百度等搜索引擎的索引如何存储的,在文件还是数据库?
1. 百度/google等搜索引擎的建好的倒排序索引跟词库, 分别如何存放呢? 是存放于数据库的吗? 2. lucene的索引好象是存放在文件里,没有放到数据库, 每次查询的时候都要打开一次文件吗? 如果不是,很想知道它跟apache/tomcat是如何交互的? 3. lucene的词库是加载到内存的吗?还是每次搜索都要去加载或读取文件?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
4 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
iisbsd
2009-10-23
打赏
举报
回复
这种应用,用数据库只有死路一条。
iisbsd
2009-10-23
打赏
举报
回复
应对大流量的访问,从磁盘上读取数据也是死路一条。
swandragon
2009-10-23
打赏
举报
回复
索引应该放在磁盘上
hqulyc
2009-10-23
打赏
举报
回复
有看过百度跟google技术的介绍,
1. 网页蜘蛛/机器人, 定时从网上抓取页面, 更新数据信息;
2. 文本分析器, 分析页面内容,抽取出关键词, 这里用了分词技术;
3. 建立数据索引,似乎都用了改良的倒排序索引。
4. 存储索引? 我有个疑问,如果保存在数据库, 如何能够进行快速匹配到词, 难道是直接从数据库里采用SQL语句搜索索引库, 然后获取索引,如何对索引进行合并呢?这样处理如何能达到那么快的速度呢?
这个处理过程我很想知道,哪怕是个大概。
百度
,google,
搜
索引
擎
分析
搜
索引
擎
的英译名为Search Engine,是收录网页全文
索引
的
数据库
。当使用
搜
索引
擎
时,实际上是在检索这些被搜索到的网页的
数据库
,而不是检索网络本身
JAVA上百实例源码以及开源项目
FTP的目标是:(1)提高
文件
的共享性(计算机程序和/或数据),(2)鼓励间接地(通过程序)使用远程计算机,(3)保护用户因主机之间的
文件
存储
系统导致的变化,(4)为了可靠和高效地传输,虽然用户可以在终端上...
【
搜
索引
擎
数据库
】
搜
索引
擎
数据库
早期又称全文
数据库
、非结构化
数据库
等,因为搜
索引
擎
数据库
诞生的初期主要是解决关系型
数据库
中长文本检索效率低下的问题而诞生的,但是 随着技术的发展,目前的
搜
索引
擎
数据库
已经不仅仅可以处理长...
索引
、收录、快照与搜索间的关系
网站更新,并提交
搜
索引
擎
,新页面会在N天后在后台生成
索引
,这时,还不能在搜索前台页面看到。(估计这个是所有蜘蛛爬完,将数据存入
数据库
)
索引
生成后N天,site域名有数据更新。这时快照还是没有的,但是可以...
百度
搜索
数据库
——Tera 设计和实践全攻略
百度
搜
索引
擎
的作用是连接人与信息、连接人与服务,信息抓取、
索引
构建、检索系统构成了
搜
索引
擎
最经典的三大板块。 互联网上的信息是如何通过
搜
索引
擎
最终展示给用户的?首先,网页被
搜
索引
擎
发现,通过抓取...
数据库开发
8,028
社区成员
1,361
社区内容
发帖
与我相关
我的任务
数据库开发
高性能数据库开发
复制链接
扫一扫
分享
社区描述
高性能数据库开发
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章