百度谷歌的爬虫是用什么语言开发的?

comey 2012-03-01 05:16:16
打算做个爬虫,感觉要抓取到数据容易,但要高效抓取大量网页数据还是非常困难的。
你们的爬虫一小时能处理多少网页?百度谷歌的爬虫又能处理多少网页?
...全文
3406 13 打赏 收藏 转发到动态 举报
写回复
用AI写文章
13 条回复
切换为时间正序
请发表友善的回复…
发表回复
huazhouji 2012-06-11
  • 打赏
  • 举报
回复
google 的应该是 python下用urllib来搞的
poson 2012-03-16
  • 打赏
  • 举报
回复
最关键的是spider的URL解析和调度。
当有很多机器同时抓取的时候,怎么调度是最复杂的问题。
nonocast 2012-03-15
  • 打赏
  • 举报
回复
个人感觉crawler的瓶颈不是在语言,而是在网络和分析,因为本身只是Socket Send HTTP Request的行为
comey 2012-03-06
  • 打赏
  • 举报
回复
[Quote=引用 8 楼 elmnd 的回复:]
baidu,google的爬虫我还以为是java呢……
爬虫主要受制于网络因素啦。我写的那个爬虫一秒大概爬取7,8个页面吧。
[/Quote]

Java做的?一秒7、8个页面相当牛啊,能分享点经验吗?
我做的能达到一两秒抓完一个页面就满足了^_^
poson 2012-03-05
  • 打赏
  • 举报
回复
貌似这些爬虫可以把带宽跑满。
关键是怎么调度爬虫吧,防止被封杀;以及怎么快速更新。
elmnd 2012-03-05
  • 打赏
  • 举报
回复
baidu,google的爬虫我还以为是java呢……
爬虫主要受制于网络因素啦。我写的那个爬虫一秒大概爬取7,8个页面吧。
wljbetter 2012-03-05
  • 打赏
  • 举报
回复
linux下的C++
comey 2012-03-05
  • 打赏
  • 举报
回复
好象大多的办法是把整个网页down到本地再来分析所要的内容,能不能只下载关心的内容,比如说title, meta, description之类的?
comey 2012-03-02
  • 打赏
  • 举报
回复
莫非是linux下的C?
昵称很不好取 2012-03-02
  • 打赏
  • 举报
回复
[Quote=引用 3 楼 comey 的回复:]

莫非是linux下的C?
[/Quote]
我觉得是,但具体得问问百度公司的人
昵称很不好取 2012-03-01
  • 打赏
  • 举报
回复
百度收藏网页的数量级好像是千亿级别的
昵称很不好取 2012-03-01
  • 打赏
  • 举报
回复
我觉得应该是C吧,现在也有许多使用java来开发爬虫
由上图可见,Python整体呈上升趋势,反映出Python应用越来越广泛并且也逐渐得到业内的认 可!!! Python可以应用于众多领域,如:数据分析、组件集成、网络服务、图像处理、数值计算和科学计算等 众多领域。目前业内几乎所有大中型互联网企业都在使用Python,如:Youtube、Dropbox、BT、 Quora(中国知乎)、豆瓣、知乎、Google、Yahoo!、Facebook、NASA、百度、腾讯、汽车之家、 美团等。 目前Python主要应用领域: 云计算: 云计算最火的语言, 典型应用OpenStack WEB开发: 众多优秀的WEB框架,众多大型网站均为Python开发,Youtube, Dropbox, 豆 瓣。。。, 典型WEB框架有Django 科学运算、人工智能: 典型库NumPy, SciPy, Matplotlib, Enthought librarys,pandas 系统运维: 运维人员必备语言 金融:量化交易,金融分析,在金融工程领域,Python不但在用,且用的最多,而且重要性逐年提 高。原因:作为动态语言的Python,语言结构清晰简单,库丰富,成熟稳定,科学计算和统计分析 都很牛逼,生产效率远远高于c,c++,java,尤其擅长策略回测 图形GUI: PyQT, WxPython,TkInter Python在一些公司的应用: 谷歌:Google App Engine 、code.google.com 、Google earth 、谷歌爬虫、Google广告等项 目都在大量使用Python开发 CIA: 美国中情局网站就是用Python开发的 NASA: 美国航天局(NASA)大量使用Python进行数据分析和运算 YouTube:世界上最大的视频网站YouTube就是用Python开发的 Dropbox:美国最大的在线云存储网站,全部用Python实现,每天网站处理10亿个文件的上传和下 载 Instagram:美国最大的图片分享社交网站,每天超过3千万张照片被分享,全部用python开发 Facebook:大量的基础库均通过Python实现的 Redhat: 世界上最流行的Linux发行版本中的yum包管理工具就是用python开发的 豆瓣: 公司几乎所有的业务均是通过Python开发的 知乎: 国内最大的问答社区,通过Python开发(国外Quora) 春雨医生:国内知名的在线医疗网站是用Python开发的 除上面之外,还有搜狐、金山、腾讯、盛大、网易、百度、阿里、淘宝 、土豆、新浪、果壳等公司 都在使用Python完成各种各样的任务。 python

2,760

社区成员

发帖
与我相关
我的任务
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
  • 搜索引擎技术社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧