怎样利用scrapy获取网页源码
我最近做了几个爬虫的项目,分别用scrapy和自己写的代码,发现在爬去大量页面的时候(100页以上),自己的代码在执行page = urllib2.urlopen(urllib2.Request(URL)).read()时有时会非常慢(因为网速问题),scrapy在获取网页源码方面效率高出十几倍。请问
1scrapy获取网页源码的原理是什么?parse(self, response)中的response是哪里来的?
2怎样在我的程序中通过import scrapy 直接得到这个response?
3我发现start_urls中的url并不是按顺序执行的,似乎是多线程执行的。但是我通过任务管理器查看命令行的线程数,只有1个线程啊。scrapy是通过多线程的方式提高爬取速度的吗?
多谢各位的帮助!