百度的搜索原理

qiqundelang 2009-05-05 10:28:42
各位昨天关于迅雷搜索问题的下载原理基本明确,我的思想开阔了一大片,可是还有个问题,百度的搜索原理又是什么呢?给一颗钻研的心一点思绪,在下感谢不尽.
...全文
446 21 打赏 收藏 转发到动态 举报
写回复
用AI写文章
21 条回复
切换为时间正序
请发表友善的回复…
发表回复
ccc8692651cc 2010-01-26
  • 打赏
  • 举报
回复
[size=16px][/size]
[align=right][/align]
srjyjj 2009-05-08
  • 打赏
  • 举报
回复
学习
绿色夹克衫 2009-05-08
  • 打赏
  • 举报
回复
呵呵,希望不要成为国内企业的讨伐贴!

[Quote=引用 16 楼 vrhero 的回复:]
引用 15 楼 litaoye 的回复:
hehe,花不了那么多钱吧,另外估计不是靠花钱能解决的事儿。
如果真是这样倒不会让我看低百度,只会让我看低CCTV

引用 14 楼 vrhero 的回复:
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...

据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...

当然google、y…
[/Quote]
gyouyang 2009-05-07
  • 打赏
  • 举报
回复
板凳
oscar213 2009-05-06
  • 打赏
  • 举报
回复
厉害
绿色夹克衫 2009-05-06
  • 打赏
  • 举报
回复
LZ看看lucene就能了解一个搜索引擎的大概原理了,网上资料很多,讲的也挺清楚

但真想做到百度那样,里面学问就深了,光是多服务器的调度调配,对于词的多维向量分析,自然语言分析单独一门学问,都够学很长时间的,
而且在某些领域,现在的研究还处于初级阶段,未来还有很大的提升空间!
yuanhanhua987 2009-05-06
  • 打赏
  • 举报
回复
高手荟萃呀!!!!!!!!
vrhero 2009-05-06
  • 打赏
  • 举报
回复
[Quote=引用 15 楼 litaoye 的回复:]
hehe,花不了那么多钱吧,另外估计不是靠花钱能解决的事儿。
如果真是这样倒不会让我看低百度,只会让我看低CCTV

引用 14 楼 vrhero 的回复:
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...

据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...

当然google、yahoo也会跳过一些网站或目录,但…
[/Quote]
CCTV还能低到哪儿去?第十九层?呵呵...

[Quote=引用 小道消息:]
百度首席财务官(CFO) 李昕晢近日不慎爆出百度春晚内幕:在百度《2009年第一季度财报电话会议》上, 李昕晢确认,就央视春晚李彦宏露脸一事,百度向CCTV赞助了4000W,以下是对话实录:

高盛分析师詹姆斯•米歇尔(James Mitchell):第一季度你们向CCTV“赞助”了4000万元,这些支出是否计入总务和行政支出?还有你们是如何开展中小企业对凤巢的信任计划的?

李昕晢:上个季度,我们发布的预期就包括了人民币4000万元的营销相关支出,这些支出绝大部分用于CCTV。第一季度总务和行政支出主要与员工和正常活动有关。
[/Quote]
绿色夹克衫 2009-05-06
  • 打赏
  • 举报
回复
hehe,花不了那么多钱吧,另外估计不是靠花钱能解决的事儿。
如果真是这样倒不会让我看低百度,只会让我看低CCTV

[Quote=引用 14 楼 vrhero 的回复:]
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...

据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...

当然google、yahoo也会跳过一些网站或目录,但那是应网站所有者要求不爬的,即Robots.txt...
[/Quote]
vrhero 2009-05-06
  • 打赏
  • 举报
回复
对了,忘了说百度之毒了...百度有个黑名单,蜘蛛爬站时发现黑名单网站就直接跳过了,黑名单怎么来的做过竞价排名的很多人都知道...

据说因为这个CCTV 3.15曝光之后百度花了4千万才摆平CCTV...道听途说与我无关,请勿跨省追缉...

当然google、yahoo也会跳过一些网站或目录,但那是应网站所有者要求不爬的,即Robots.txt...
vrhero 2009-05-06
  • 打赏
  • 举报
回复
百度的搜索都是抄袭yahoo、google的...也就中文分词还能拿出来说说...

爬网站原理其实很简单,但是路径算法和评级算法很复杂...简单讲就是启动n多线程,每个线程http get一个网页,然后获取该网页中的所有a标记并分析,根据预定义的路径算法过滤掉无价值的a标记...对有价值的a标记再开新线程重复上一步骤,过程中根据网页的评级决定是否收录...
healer_kx 2009-05-06
  • 打赏
  • 举报
回复
我有一堆关于搜索的资料呢,。
Error_Code 2009-05-06
  • 打赏
  • 举报
回复
需要提交到baidu.com
然后蜘蛛就在那个站上爬啊爬,,,爬啊爬~~~~~~~
qiqundelang 2009-05-06
  • 打赏
  • 举报
回复
谢谢!
那他是怎么爬网站的,这个搞不懂
zllking 2009-05-06
  • 打赏
  • 举报
回复
推荐楼主去看看IBM的lucene介绍,这里发个网址http://www.ibm.com/developerworks/cn/java/j-lo-lucene1/
WDFrog 2009-05-06
  • 打赏
  • 举报
回复
简单的说,就是经常扫描网络上的页面, 信息来源( 网址大全, ICP管理备案库啊, 域名注册机构等), 还有就是A 标签,跳来跳去的
将你的页面根据文字信息,分门别类, 供用户查询
SuperWade 2009-05-05
  • 打赏
  • 举报
回复
我也很想知道,哪位高手给解释一下???
下面是网上DOWNLOAD的资料

■ 全文搜索引擎
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

........................................................................................

■ 目录索引
与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
(注):Yahoo已于2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作
SuperWade 2009-05-05
  • 打赏
  • 举报
回复
我也很想知道,哪位高手给解释一下???
下面是网上DOWNLOAD的资料

■ 全文搜索引擎
在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

........................................................................................

■ 目录索引
与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo!这样的超级索引,登录更是困难。(由于登录Yahoo!的难度最大,而它又是商家网络营销必争之地,所以我们会在后面用专门的篇幅介绍登录Yahoo雅虎的技巧)

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo! 这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。
(注):Yahoo已于2004年2月正式推出自己的全文搜索引擎,并结束了与Google的合作
CqCoder 2009-05-05
  • 打赏
  • 举报
回复
关注
namhyuk 2009-05-05
  • 打赏
  • 举报
回复
WOW.
加载更多回复(1)

110,536

社区成员

发帖
与我相关
我的任务
社区描述
.NET技术 C#
社区管理员
  • C#
  • Web++
  • by_封爱
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

让您成为最强悍的C#开发者

试试用AI创作助手写篇文章吧