百度谷歌的爬虫是用什么语言开发的？

comey 2012-03-01 05:16:16

打算做个爬虫，感觉要抓取到数据容易，但要高效抓取大量网页数据还是非常困难的。
你们的爬虫一小时能处理多少网页？百度谷歌的爬虫又能处理多少网页？

...全文

3406 13 打赏收藏转发到动态举报

写回复

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

huazhouji 2012-06-11

打赏
举报

回复

google 的应该是 python下用urllib来搞的

poson 2012-03-16

打赏
举报

回复

最关键的是spider的URL解析和调度。
当有很多机器同时抓取的时候，怎么调度是最复杂的问题。

nonocast 2012-03-15

打赏
举报

回复

个人感觉crawler的瓶颈不是在语言，而是在网络和分析，因为本身只是Socket Send HTTP Request的行为

comey 2012-03-06

打赏
举报

回复

[Quote=引用 8 楼 elmnd 的回复:]
baidu，google的爬虫我还以为是java呢……
爬虫主要受制于网络因素啦。我写的那个爬虫一秒大概爬取7，8个页面吧。
[/Quote]

Java做的？一秒7、8个页面相当牛啊，能分享点经验吗？
我做的能达到一两秒抓完一个页面就满足了^_^

poson 2012-03-05

打赏
举报

回复

貌似这些爬虫可以把带宽跑满。
关键是怎么调度爬虫吧，防止被封杀；以及怎么快速更新。

elmnd 2012-03-05

打赏
举报

回复

baidu，google的爬虫我还以为是java呢……
爬虫主要受制于网络因素啦。我写的那个爬虫一秒大概爬取7，8个页面吧。

wljbetter 2012-03-05

打赏
举报

回复

linux下的C++

comey 2012-03-05

打赏
举报

回复

好象大多的办法是把整个网页down到本地再来分析所要的内容，能不能只下载关心的内容，比如说title, meta, description之类的？

comey 2012-03-02

打赏
举报

回复

莫非是linux下的C？

昵称很不好取 2012-03-02

打赏
举报

回复

[Quote=引用 3 楼 comey 的回复:]

莫非是linux下的C？
[/Quote]
我觉得是，但具体得问问百度公司的人

昵称很不好取 2012-03-01

打赏
举报

回复

百度收藏网页的数量级好像是千亿级别的

昵称很不好取 2012-03-01

打赏
举报

回复

我觉得应该是C吧，现在也有许多使用java来开发爬虫

万能爬虫python编写，可以爬取任何想要的图片，来源是百度、谷歌等，亲测好用！ URL就是网页的网址，种子URL就是爬虫要首先爬取的网页网址，确定你的爬虫程序首先从哪些网页开始爬取。一组种子URL是指一个或多个的网页地址。爬虫程序开始工作后，种子URL会先加入到待爬取网页的队列中，爬虫程序从队列按照先进先出的原则获取网页URL，爬虫程序开始爬取网页，爬虫会下载整个网页内容，然后提取网页内容，分析出网页内容包含的URL，并把新的URL加入到队列。当队列为空时，爬虫停止工作，否则爬虫会继续从队列获取网页URL，爬取下一个网页。 Python爬虫基础代码如下： # 导入队列模块 import queue as q # 定义种子URL seed_url = ["url1","url2"] # 定义URL队列 url_queue = q.Queue() # 定义添加种子到队列的函数 def put_seed(): for s in seed_url: url_queue.put(s) # 定义网址添加到队列的函数 def put_url(url): url_

由上图可见，Python整体呈上升趋势，反映出Python应用越来越广泛并且也逐渐得到业内的认可！！！ Python可以应用于众多领域，如：数据分析、组件集成、网络服务、图像处理、数值计算和科学计算等众多领域。目前业内几乎所有大中型互联网企业都在使用Python，如：Youtube、Dropbox、BT、 Quora（中国知乎）、豆瓣、知乎、Google、Yahoo!、Facebook、NASA、百度、腾讯、汽车之家、美团等。目前Python主要应用领域：云计算: 云计算最火的语言，典型应用OpenStack WEB开发: 众多优秀的WEB框架，众多大型网站均为Python开发，Youtube, Dropbox, 豆瓣。。。，典型WEB框架有Django 科学运算、人工智能: 典型库NumPy, SciPy, Matplotlib, Enthought librarys,pandas 系统运维: 运维人员必备语言金融：量化交易，金融分析，在金融工程领域，Python不但在用，且用的最多，而且重要性逐年提高。原因：作为动态语言的Python，语言结构清晰简单，库丰富，成熟稳定，科学计算和统计分析都很牛逼，生产效率远远高于c,c++,java,尤其擅长策略回测图形GUI: PyQT, WxPython,TkInter Python在一些公司的应用：谷歌：Google App Engine 、code.google.com 、Google earth 、谷歌爬虫、Google广告等项目都在大量使用Python开发 CIA: 美国中情局网站就是用Python开发的 NASA: 美国航天局(NASA)大量使用Python进行数据分析和运算 YouTube:世界上最大的视频网站YouTube就是用Python开发的 Dropbox:美国最大的在线云存储网站，全部用Python实现，每天网站处理10亿个文件的上传和下载 Instagram:美国最大的图片分享社交网站，每天超过3千万张照片被分享，全部用python开发 Facebook:大量的基础库均通过Python实现的 Redhat: 世界上最流行的Linux发行版本中的yum包管理工具就是用python开发的豆瓣: 公司几乎所有的业务均是通过Python开发的知乎: 国内最大的问答社区，通过Python开发(国外Quora) 春雨医生：国内知名的在线医疗网站是用Python开发的除上面之外，还有搜狐、金山、腾讯、盛大、网易、百度、阿里、淘宝、土豆、新浪、果壳等公司都在使用Python完成各种各样的任务。 python

课程介绍：大数据时代，python爬虫工程师人才猛增，本课程专为爬虫工程师打造，本课程是爬虫工程师的入门阶段，了解爬虫的领域，能做什么，爬虫原理，抓包工具的调教使用，每一个爬虫都会涉及到抓包，属于爬虫工程师的必备硬核技能，带你系统学习。课程精选多个实战项目，从易到难，层层深入。不同项目解决不同的抓取问题，带你从容抓取主流网站，进阶部分针对性讲解数据抓取的难点和面试考点，让你牢牢掌握爬虫工程师硬核技能

Python 是一门开源免费、通用型的脚本编程语言，它上手简单，功能强大，坚持「极简主义」。 Python 类库（模块）极其丰富，这使得 Python 几乎无所不能，不管是传统的 Web 开发、PC 软件开发、Linux 运维，还是当下火热的机器学习、大数据分析、网络爬虫，Python 都能胜任。 Python是一种跨平台的计算机程序设计语言。是一种面向对象的动态类型语言，最初被设计用于编写自动化脚本(shell)，随着版本的不断更新和语言新功能的添加，越来越多被用于独立的、大型项目的开发。 Python的应用领域非常广泛，几乎所有大中型互联网企业都在使用 Python 完成各种各样的任务，例如国外的Google、Youtube、Dropbox，国内的百度、新浪、搜狐、腾讯、阿里、网易、淘宝、知乎、豆瓣、汽车之家、美团等等。概括起来，Python的应用领域主要有如下几个：web应用开发、自动化运维、人工智能领域、网络爬虫、科学计算、金融领域、游戏开发等。感兴趣的小伙伴赶快学起来吧。

MAIYIGO（无限智能建站）的全自动SEO站此程序操作非常智能，只需后台设置几个最热门的关键词，每天采集的文章数量，再也无需人员管理，一个域名建立一个站，100个域名建立一百个站，百度谷歌收录都几千，PR从1升到2，访问量倍增，达到500IP/天，假如开20个站，价值就更大了， ·智能全自动建站系统：你要做的仅仅是设置几个关键词 ·全自动更新：MAIYIGO自动寻找信息，随时自动更新 ·在线的WEB系统:无须安装软件，买个空间就能用 ·非作弊:我们不要关键词堆砌，不要作弊，我们是正规站! ·会上网就会使用:无需懂任何网站建设知识 ·自动赚钱的机器:放上广告，在家睡觉!等着赚美元 MAIYIGO是由工作在顶级门户网站的几名资深高级工程师利用爬虫技术(蜘蛛机器人,spider)、分词技术和网页萃取技术，利用URL重写技术、缓存技术，使用PHP语言开发的一套能根据设置的关键词自动抓取

搜索引擎技术

2,760

社区成员

2,052

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章