求助高手,谢谢!
我自己写了个小代码,去新浪网页爬虫100个子网页的内容,我步骤是这样的:
1、建一个socket,然后连接到www.sina.com.cn,该步也是运用socket编程中的connect()函数;
2、
for 1 to 100 //遍历新浪的100个子网页的url
{
1)对每个url发生http请求;
2)然后运用socke中的recv()函数,把网页内容下载过来;
}
可是,新浪只能让我下一个网页内容然后就不让下了,一直recv不到东西,返回值一直0;但是连接还在,我怎么样才能下完同域名下的这100个网页(只connect一次)。
163.com就可以一直爬虫多个子网页,新浪就不能。