怎样利用scrapy获取网页源码

bodyhd 2015-11-18 01:32:36
我最近做了几个爬虫的项目,分别用scrapy和自己写的代码,发现在爬去大量页面的时候(100页以上),自己的代码在执行page = urllib2.urlopen(urllib2.Request(URL)).read()时有时会非常慢(因为网速问题),scrapy在获取网页源码方面效率高出十几倍。请问
1scrapy获取网页源码的原理是什么?parse(self, response)中的response是哪里来的?
2怎样在我的程序中通过import scrapy 直接得到这个response?
3我发现start_urls中的url并不是按顺序执行的,似乎是多线程执行的。但是我通过任务管理器查看命令行的线程数,只有1个线程啊。scrapy是通过多线程的方式提高爬取速度的吗?

多谢各位的帮助!
...全文
957 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
beishen7234 2017-08-20
  • 打赏
  • 举报
回复
urllib慢?不会你是直接print(urllib2.urlopen(urllib2.Request(URL)).read())了吧?需要decode的

61,127

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧