社区
C#
帖子详情
百度的搜索原理
qiqundelang
2009-05-05 10:28:42
各位昨天关于迅雷搜索问题的下载原理基本明确,我的思想开阔了一大片,可是还有个问题,百度的搜索原理又是什么呢?给一颗钻研的心一点思绪,在下感谢不尽.
...全文
446
21
打赏
收藏
百度的搜索原理
各位昨天关于迅雷搜索问题的下载原理基本明确,我的思想开阔了一大片,可是还有个问题,百度的搜索原理又是什么呢?给一颗钻研的心一点思绪,在下感谢不尽.
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
21 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
ccc8692651cc
2010-01-26
打赏
举报
回复
[size
=16px][/size]
[align
=right][/align]
srjyjj
2009-05-08
打赏
举报
回复
学习
绿色夹克衫
2009-05-08
打赏
举报
回复
呵呵,希望不要成为国内企业的讨伐贴!
[Quote=引用 16 楼 vrhero 的回复:]
引用 15 楼 litaoye 的回复:
hehe,花不了那么多钱吧,另外估计不是靠花钱能解决的事儿。
如果真是这样倒不会让我看低百度,只会让我看低CCTV
引用 14 楼 vrhero 的回复:
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...
据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...
当然google、y…
[/Quote]
gyouyang
2009-05-07
打赏
举报
回复
板凳
oscar213
2009-05-06
打赏
举报
回复
厉害
绿色夹克衫
2009-05-06
打赏
举报
回复
LZ看看lucene就能了解一个搜索引擎的大概原理了,网上资料很多,讲的也挺清楚
但真想做到百度那样,里面学问就深了,光是多服务器的调度调配,对于词的多维向量分析,自然语言分析单独一门学问,都够学很长时间的,
而且在某些领域,现在的研究还处于初级阶段,未来还有很大的提升空间!
yuanhanhua987
2009-05-06
打赏
举报
回复
高手荟萃呀!!!!!!!!
vrhero
2009-05-06
打赏
举报
回复
[Quote=引用 15 楼 litaoye 的回复:]
hehe,花不了那么多钱吧,另外估计不是靠花钱能解决的事儿。
如果真是这样倒不会让我看低百度,只会让我看低CCTV
引用 14 楼 vrhero 的回复:
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...
据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...
当然google、yahoo也会跳过一些网站或目录,但…
[/Quote]
CCTV还能低到哪儿去?第十九层?呵呵...
[Quote=引用 小道消息:]
百度首席财务官(CFO) 李昕晢近日不慎爆出百度春晚内幕:在百度《2009年第一季度财报电话会议》上, 李昕晢确认,就央视春晚李彦宏露脸一事,百度向CCTV赞助了4000W,以下是对话实录:
高盛分析师詹姆斯•米歇尔(James Mitchell):第一季度你们向CCTV“赞助”了4000万元,这些支出是否计入总务和行政支出?还有你们是如何开展中小企业对凤巢的信任计划的?
李昕晢:上个季度,我们发布的预期就包括了人民币4000万元的营销相关支出,这些支出绝大部分用于CCTV。第一季度总务和行政支出主要与员工和正常活动有关。
[/Quote]
绿色夹克衫
2009-05-06
打赏
举报
回复
hehe,花不了那么多钱吧,另外估计不是靠花钱能解决的事儿。
如果真是这样倒不会让我看低百度,只会让我看低CCTV
[Quote=引用 14 楼 vrhero 的回复:]
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...
据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...
当然google、yahoo也会跳过一些网站或目录,但那是应网站所有者要求不爬的,即Robots.txt...
[/Quote]
vrhero
2009-05-06
打赏
举报
回复
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...
据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...
当然google、yahoo也会跳过一些网站或目录,但那是应网站所有者要求不爬的,即Robots.txt...
vrhero
2009-05-06
打赏
举报
回复
百度的搜索都是抄袭yahoo、google的...也就中文分词还能拿出来说说...
爬网站原理其实很简单,但是路径算法和评级算法很复杂...简单讲就是启动n多线程,每个线程http get一个网页,然后获取该网页中的所有a标记并分析,根据预定义的路径算法过滤掉无价值的a标记...对有价值的a标记再开新线程重复上一步骤,过程中根据网页的评级决定是否收录...
healer_kx
2009-05-06
打赏
举报
回复
我有一堆关于搜索的资料呢,。
Error_Code
2009-05-06
打赏
举报
回复
需要提交到baidu.com
然后蜘蛛就在那个站上爬啊爬,,,爬啊爬~~~~~~~
qiqundelang
2009-05-06
打赏
举报
回复
谢谢!
那他是怎么爬网站的,这个搞不懂
zllking
2009-05-06
打赏
举报
回复
推荐楼主去看看IBM的lucene介绍,这里发个网址http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/
WDFrog
2009-05-06
打赏
举报
回复
简单的说,就是经常扫描网络上的页面, 信息来源( 网址大全, ICP管理备案库啊, 域名注册机构等), 还有就是A 标签,跳来跳去的
将你的页面根据文字信息,分门别类, 供用户查询
SuperWade
2009-05-05
打赏
举报
回复
我也很想知道,哪位高手给解释一下???
下面是网上DOWNLOAD的资料
■ 全文搜索引擎
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
........................................................................................
■ 目录索引
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
(注):Yahoo已于2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作
SuperWade
2009-05-05
打赏
举报
回复
我也很想知道,哪位高手给解释一下???
下面是网上DOWNLOAD的资料
■ 全文搜索引擎
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
........................................................................................
■ 目录索引
与全文搜索引擎相比,目录索引有许多不同之处。
首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)
此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。
最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
(注):Yahoo已于2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作
CqCoder
2009-05-05
打赏
举报
回复
关注
namhyuk
2009-05-05
打赏
举报
回复
WOW.
加载更多回复(1)
百度
搜索
引擎工作
原理
关于
百度
以及其它
搜索
引擎的工作
原理
,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家
搜索
引擎都发生着巨大的变化,并且这些变化都是飞快的。我们设计这个章节的目的,除了从官方的角度发出一些声音、纠正一些之前的误读外,还希望通过不断更新内容,与
百度
搜索
引擎发展保持同步,给各位站长带来最新的、与
百度
高相关的信息。 本章主要内容分为四个章节,分别为:抓取建库;检索排序;外部投票;
百度
爬虫的工作
原理
解析
百度
作为中国最大的
搜索
引擎,其工作
原理
备受关注。本文将深入探讨
百度
爬虫的工作
原理
,介绍其基本流程以及关键技术,帮助读者更好地理解
搜索
引擎背后的技术核心。
百度
爬虫是
百度
搜索
引擎的重要基石,它们被广泛用于收集互联网上的网页信息。这些爬虫程序通过跟踪网页链接,不断地深入互联网的各个角落,尽可能地收集和索引互联网上的网页信息。在收集网页信息的过程中,
百度
爬虫会根据特定的规则和算法对网页进行评估和分类,以确保它们的内容质量和相关性。这些被收集的网页信息会被存储为索引数据,这些数据是
百度
搜索
引擎进行快速检索的关键。
百度
搜索
引擎工作
原理
解读
作为seo工作人员,
搜索
引擎运行
原理
是必须要了解的,包括页面质量白皮书、
搜索
引擎优化指南,今天重点解读下
搜索
引擎整个工作
原理
过程分析。
搜索
引擎的主要工作过程包括:抓取、存储、页面分析、索...
分享
百度
网盘
搜索
引擎
原理
以及实现部分源码
先给出大家示例:
百度
网盘
搜索
示例参考https://pan.90xz.com/ 一、
搜索
引擎结构 网盘
搜索
引擎---》既然是
搜索
引擎---》最终都是蜘蛛爬寻程序 蜘蛛爬寻就必须有网,网在哪里呢,
百度
都给你了,但现在隐藏了如下图 图上红色字体 【粉丝】,和【关注】 这俩货
百度
给隐藏了,原来都显示,记住是隐藏了,相当于程序的警告,无视他,当然你也看不到。 网就在粉丝和关注这里,关注相当于...
百度
搜索
引擎的工作
原理
转自:http://www.mahaixiang.cn/seoyjy/1222.html 关于
百度
以及其它
搜索
引擎的工作
原理
,其实大家已经讨论过很多,但随着科技的进步、互联网业的发展,各家
搜索
引擎都发生着巨大的变化,并且这些变化都是飞快的,本文的目的,除了从
百度
官方的角度发出一些声音、纠正一些之前的误读外,还希望通过不断更新内容,与
百度
搜索
引擎发展保持同步,给各位站长带来最新的、
C#
110,536
社区成员
642,577
社区内容
发帖
与我相关
我的任务
C#
.NET技术 C#
复制链接
扫一扫
分享
社区描述
.NET技术 C#
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
让您成为最强悍的C#开发者
试试用AI创作助手写篇文章吧
+ 用AI写文章