爬虫程序中通过socket下载网页的问题
我的程序已经能成功爬取网页了,我想再改进一下。
int sock = socket(AF_INET, SOCK_STREAM, 0);
对于同一个站点如http://news.sina.com.cn/.../*.html,能否缓存sock,获取同一个站点下的不同页面时,使用缓存的sock,不再创建一个新的socket,因为每次创建都比较慢的。
另外,是不是还要区分http协议1.0和1.1的区别,如:http://book.csdn.net/bookfiles/147/1001476261.shtml,
是不是如果支持http1.1,我的想法就能实现呢?如何实现?大家给点建议吧。