爬取网页数据问题

FG2006 2010-08-06 05:57:10

程序中遇到两个问题：1、我在程序中爬取百度上的数据，同一个ip爬取的次数太多被屏蔽了，有好的办法解决吗？用专门的爬虫程序可以解决吗？2、我连续去爬取同一网站的多个网址上的数据，在循环中做的，其中有一个爬取不成功的时候，循环就无法进行下去了，是什么原来呢？代码如下：



        header("Content-Type:text/html;charset=utf-8");		

		$keyword=iconv("utf-8","gb2312",$keyword);

		$keyword = str_replace(' ','%20',$keyword);

		$url = "http://www.baidu.com/s?wd=$keyword";

		

		$opts = array(

		   'http'=>array(

			 'method'=>"GET",

			 'timeout'=>30, 

		   )

	    );

	    $context = stream_context_create($opts);

	    $cnt=1; 

		while(($html = @file_get_contents($url,false,$context)) === false && $cnt <= 2  )

		$cnt++;

...全文

216 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

CunningBoy 2010-08-06

打赏
举报

回复

用cURL

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, 'http://www.baidu.com/s?wd=$keyword');

curl_setopt(CURLOPT_USERAGENT, "Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/534.1 (KHTML, like Gecko) Chrome/6.0.437.3 Safari/534.1");

curl_exec($ch);

Dleno 2010-08-06

打赏
举报

回复

file_get_contents的效率很低，而且也会有时候取不到值（莫名其妙的没有返回结果），好象百度不会封的
相对来说用curl和socket要好得多，也没那个问题，socket的效率更要好点

amani11 2010-08-06

打赏
举报

回复

伪造user_agent成浏览器效果估计会好一些

默认

; Define the User-Agent string
user_agent="PHP"//通常是这个

使用java代码基于MyEclipse开发环境实现爬虫抓取网页中的表格数据，将抓取到的数据在控制台打印出来，需要后续处理的话可以在打印的地方对数据进行操作。包解压后导入MyEclipse就可以使用，在TestCrawTable中右键运行就能看到抓取到的数据。其他的调试可以自行修改。

都说python爬网页数据方便，我们今天就来试试，python爬取数据到底有多方便简介爬取数据，基本都是通过网页的URL得到这个网页的源代码，根据源代码筛选出需要的信息准备 IDE：pyCharm 库：requests、lxml 大概介绍一下，这俩库主要为我们做什么服务的 requests：获取网页源代码 lxml：得到网页源代码中的指定数据言简意赅有没有 ^_^...

python爬虫爬取网页数据

摘要：对于程序员或开发人员来说，拥有编程能力使得他们构建一个网页数据爬取程序，非常的容易并且有趣。但是对于大多数没有任何编程知识的人来说，最好使用一些网络爬虫软件从指定网页获取特定内容。网页数据爬取是指从网站上提取特定内容，而不需要请求网站的API接口获取内容。“网页数据” 作为网站用户体验的一部分，比如网页上的文字，图像，声音，视频和动画等，都算是网页数据。对于程序员或开发人...

基于爬虫的实现原理，进入爬虫的第一阶段:爬取网页数据，即下载包含目标数据的网页。爬取网页需要通过爬虫向服务器发送一个HTTP请求，然后接收服务器返回的响应内容中的整个网页源代码。利用Python 完成这个过程，既可以使用内置的urllib库，也可以使用第三方库requests。使用这两个库，在爬取网页数据时，只需要关心请求的URL格式，要传递什么参数，要设置什么样的请求头，而不需要关心它们的底层是怎样实现的。

21,891

社区成员

140,347

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章