社区
搜索引擎技术
帖子详情
百度谷歌的爬虫是用什么语言开发的?
comey
2012-03-01 05:16:16
打算做个爬虫,感觉要抓取到数据容易,但要高效抓取大量网页数据还是非常困难的。
你们的爬虫一小时能处理多少网页?百度谷歌的爬虫又能处理多少网页?
...全文
3406
13
打赏
收藏
百度谷歌的爬虫是用什么语言开发的?
打算做个爬虫,感觉要抓取到数据容易,但要高效抓取大量网页数据还是非常困难的。 你们的爬虫一小时能处理多少网页?百度谷歌的爬虫又能处理多少网页?
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
13 条
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
huazhouji
2012-06-11
打赏
举报
回复
google 的应该是 python下用urllib来搞的
poson
2012-03-16
打赏
举报
回复
最关键的是spider的URL解析和调度。
当有很多机器同时抓取的时候,怎么调度是最复杂的问题。
nonocast
2012-03-15
打赏
举报
回复
个人感觉crawler的瓶颈不是在语言,而是在网络和分析,因为本身只是Socket Send HTTP Request的行为
comey
2012-03-06
打赏
举报
回复
[Quote=引用 8 楼 elmnd 的回复:]
baidu,google的爬虫我还以为是java呢……
爬虫主要受制于网络因素啦。我写的那个爬虫一秒大概爬取7,8个页面吧。
[/Quote]
Java做的?一秒7、8个页面相当牛啊,能分享点经验吗?
我做的能达到一两秒抓完一个页面就满足了^_^
poson
2012-03-05
打赏
举报
回复
貌似这些爬虫可以把带宽跑满。
关键是怎么调度爬虫吧,防止被封杀;以及怎么快速更新。
elmnd
2012-03-05
打赏
举报
回复
baidu,google的爬虫我还以为是java呢……
爬虫主要受制于网络因素啦。我写的那个爬虫一秒大概爬取7,8个页面吧。
wljbetter
2012-03-05
打赏
举报
回复
linux下的C++
comey
2012-03-05
打赏
举报
回复
好象大多的办法是把整个网页down到本地再来分析所要的内容,能不能只下载关心的内容,比如说title, meta, description之类的?
comey
2012-03-02
打赏
举报
回复
莫非是linux下的C?
昵称很不好取
2012-03-02
打赏
举报
回复
[Quote=引用 3 楼 comey 的回复:]
莫非是linux下的C?
[/Quote]
我觉得是,但具体得问问百度公司的人
昵称很不好取
2012-03-01
打赏
举报
回复
百度收藏网页的数量级好像是千亿级别的
昵称很不好取
2012-03-01
打赏
举报
回复
我觉得应该是C吧,现在也有许多使用java来开发爬虫
万能图片
爬虫
python
万能
爬虫
python编写,可以爬取任何想要的图片,来源是
百度
、
谷歌
等,亲测好用! URL就是网页的网址,种子URL就是
爬虫
要首先爬取的网页网址,确定你的
爬虫
程序首先从哪些网页开始爬取。一组种子URL是指一个或多个的网页地址。
爬虫
程序开始工作后,种子URL会先加入到待爬取网页的队列中,
爬虫
程序从队列按照先进先出的原则获取网页URL,
爬虫
程序开始爬取网页,
爬虫
会下载整个网页内容,然后提取网页内容,分析出网页内容包含的URL,并把新的URL加入到队列。 当队列为空时,
爬虫
停止工作,否则
爬虫
会继续从队列获取网页URL,爬取下一个网页。 Python
爬虫
基础代码如下: # 导入队列模块 import queue as q # 定义种子URL seed_url = ["url1","url2"] # 定义URL队列 url_queue = q.Queue() # 定义添加种子到队列的函数 def put_seed(): for s in seed_url: url_queue.put(s) # 定义网址添加到队列的函数 def put_url(url): url_
Python基础教程
由上图可见,Python整体呈上升趋势,反映出Python应用越来越广泛并且也逐渐得到业内的认 可!!! Python可以应用于众多领域,如:数据分析、组件集成、网络服务、图像处理、数值计算和科学计算等 众多领域。目前业内几乎所有大中型互联网企业都在使用Python,如:Youtube、Dropbox、BT、 Quora(中国知乎)、豆瓣、知乎、Google、Yahoo!、Facebook、NASA、
百度
、腾讯、汽车之家、 美团等。 目前Python主要应用领域: 云计算: 云计算最火的
语言
, 典型应用OpenStack WEB
开发
: 众多优秀的WEB框架,众多大型网站均为Python
开发
,Youtube, Dropbox, 豆 瓣。。。, 典型WEB框架有Django 科学运算、人工智能: 典型库NumPy, SciPy, Matplotlib, Enthought librarys,pandas 系统运维: 运维人员必备
语言
金融:量化交易,金融分析,在金融工程领域,Python不但在用,且用的最多,而且重要性逐年提 高。原因:作为动态
语言
的Python,
语言
结构清晰简单,库丰富,成熟稳定,科学计算和统计分析 都很牛逼,生产效率远远高于c,c++,java,尤其擅长策略回测 图形GUI: PyQT, WxPython,TkInter Python在一些公司的应用:
谷歌
:Google App Engine 、code.google.com 、Google earth 、
谷歌
爬虫
、Google广告等项 目都在大量使用Python
开发
CIA: 美国中情局网站就是用Python
开发
的 NASA: 美国航天局(NASA)大量使用Python进行数据分析和运算 YouTube:世界上最大的视频网站YouTube就是用Python
开发
的 Dropbox:美国最大的在线云存储网站,全部用Python实现,每天网站处理10亿个文件的上传和下 载 Instagram:美国最大的图片分享社交网站,每天超过3千万张照片被分享,全部用python
开发
Facebook:大量的基础库均通过Python实现的 Redhat: 世界上最流行的Linux发行版本中的yum包管理工具就是用python
开发
的 豆瓣: 公司几乎所有的业务均是通过Python
开发
的 知乎: 国内最大的问答社区,通过Python
开发
(国外Quora) 春雨医生:国内知名的在线医疗网站是用Python
开发
的 除上面之外,还有搜狐、金山、腾讯、盛大、网易、
百度
、阿里、淘宝 、土豆、新浪、果壳等公司 都在使用Python完成各种各样的任务。 python
Python
爬虫
开发
入门
课程介绍:大数据时代,python
爬虫
工程师人才猛增,本课程专为
爬虫
工程师打造,本课程是
爬虫
工程师的入门阶段,了解
爬虫
的领域,能做什么,
爬虫
原理,抓包工具的调教使用,每一个
爬虫
都会涉及到抓包,属于
爬虫
工程师的必备硬核技能,带你系统学习。课程精选多个实战项目,从易到难,层层深入。不同项目解决不同的抓取问题,带你从容抓取主流网站,进阶部分针对性讲解数据抓取的难点和面试考点,让你牢牢掌握
爬虫
工程师硬核技能
python学习入门教程
Python 是一门开源免费、通用型的脚本编程
语言
,它上手简单,功能强大,坚持「极简主义」。 Python 类库(模块)极其丰富,这使得 Python 几乎无所不能,不管是传统的 Web
开发
、PC 软件
开发
、Linux 运维,还是当下火热的机器学习、大数据分析、网络
爬虫
,Python 都能胜任。 Python是一种跨平台的计算机程序设计
语言
。是一种面向对象的动态类型
语言
,最初被设计用于编写自动化脚本(shell),随着版本的不断更新和
语言
新功能的添加,越来越多被用于独立的、大型项目的
开发
。 Python的应用领域非常广泛,几乎所有大中型互联网企业都在使用 Python 完成各种各样的任务,例如国外的Google、Youtube、Dropbox,国内的
百度
、新浪、搜狐、腾讯、阿里、网易、淘宝、知乎、豆瓣、汽车之家、美团等等。 概括起来,Python的应用领域主要有如下几个:web应用
开发
、自动化运维、人工智能领域、网络
爬虫
、科学计算、金融领域、游戏
开发
等。 感兴趣的小伙伴赶快学起来吧。
智能建站,全自动SEO整站
MAIYIGO(无限智能建站)的全自动SEO站 此程序操作非常智能,只需后台设置几个最热门的关键词,每天采集的文章数量,再也无需人员管理, 一个域名建立一个站,100个域名建立一百个站,
百度
谷歌
收录都几千,PR从1升到2,访问量倍增, 达到500IP/天,假如开20个站,价值就更大了, ·智能全自动建站系统:你要做的仅仅是设置几个关键词 ·全自动更新:MAIYIGO自动寻找信息,随时自动更新 ·在线的WEB系统:无须安装软件,买个空间就能用 ·非作弊:我们不要关键词堆砌,不要作弊,我们是正规站! ·会上网就会使用:无需懂任何网站建设知识 ·自动赚钱的机器:放上广告,在家睡觉!等着赚美元 MAIYIGO是由工作在顶级门户网站的几名资深高级工程师利用
爬虫
技术(蜘蛛机器人,spider)、 分词技术和网页萃取技术,利用URL重写技术、缓存技术,使用PHP
语言
开发
的一套能根据设置的关键词自动抓取
搜索引擎技术
2,760
社区成员
2,052
社区内容
发帖
与我相关
我的任务
搜索引擎技术
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
复制链接
扫一扫
分享
社区描述
搜索引擎的服务器通过网络搜索软件或网络登录等方式,将Internet上大量网站的页面信息收集到本地,经过加工处理建立信息数据库和索引数据库。
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章