怎样利用scrapy获取网页源码

bodyhd 2015-11-18 01:32:36

我最近做了几个爬虫的项目，分别用scrapy和自己写的代码，发现在爬去大量页面的时候（100页以上），自己的代码在执行page = urllib2.urlopen(urllib2.Request(URL)).read()时有时会非常慢（因为网速问题），scrapy在获取网页源码方面效率高出十几倍。请问
1scrapy获取网页源码的原理是什么？parse(self, response)中的response是哪里来的？
2怎样在我的程序中通过import scrapy 直接得到这个response？
3我发现start_urls中的url并不是按顺序执行的，似乎是多线程执行的。但是我通过任务管理器查看命令行的线程数，只有1个线程啊。scrapy是通过多线程的方式提高爬取速度的吗？

多谢各位的帮助！

...全文