怎样利用scrapy获取网页源码

bodyhd 2015-11-18 01:32:36
我最近做了几个爬虫的项目,分别用scrapy和自己写的代码,发现在爬去大量页面的时候(100页以上),自己的代码在执行page = urllib2.urlopen(urllib2.Request(URL)).read()时有时会非常慢(因为网速问题),scrapy在获取网页源码方面效率高出十几倍。请问
1scrapy获取网页源码的原理是什么?parse(self, response)中的response是哪里来的?
2怎样在我的程序中通过import scrapy 直接得到这个response?
3我发现start_urls中的url并不是按顺序执行的,似乎是多线程执行的。但是我通过任务管理器查看命令行的线程数,只有1个线程啊。scrapy是通过多线程的方式提高爬取速度的吗?

多谢各位的帮助!
...全文
935 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
beishen7234 2017-08-20
  • 打赏
  • 举报
回复
urllib慢?不会你是直接print(urllib2.urlopen(urllib2.Request(URL)).read())了吧?需要decode的
项目概述:本项目是一个基于Python语言的职位画像系统,集成了Scrapy与Django框架,实现了数据抓取与Echarts可视化展示。该系统主要由Python、HTML、JavaScript、CSS和Shell等多种语言编写,包含532个文件,其中HTML文件108个,JavaScript文件102个,GIF图像75个,以及其他多种资源文件。 核心功能: 1. 数据抓取:利用Scrapy框架高效抓取各大招聘网站的职位信息。 2. 数据可视化:通过Django框架与Echarts相结合,对抓取到的职位数据进行多样化、交互式的图表展示。 技术构成: - Python:核心编程语言,用于构建整个系统的后端逻辑。 - HTML:构建网页结构,共108个文件。 - JavaScript:增强网页交互性,共有102个文件。 - CSS:美化页面样式,包含24个文件。 - Echarts:实现复杂数据的视觉呈现。 - Scrapy:数据抓取框架,高效稳定地获取职位数据。 - Django:Web开发框架,用于构建前端与后端的交互逻辑。 - Shell:辅助脚本,用于支持系统级操作。 文件类型分布: - GIF图像:75个,用于网页界面的视觉元素。 - DLL文件:57个,用于支持某些特定的动态链接库。 - Python脚本:37个,包含核心业务逻辑。 - XML配置:23个,用于配置系统及各类工具。 - SVG图形:21个,作为网页中的矢量图形元素。 - 可执行文件(EXE):21个,可能包含辅助工具或程序。 - 文本文件(TXT):7个,可能包含日志或其他文本数据。 总结:此项目是一个功能完善的职位画像系统,能够为用户提供直观、实时的职位市场动态,兼具技术深度与实用价值。

61,115

社区成员

发帖
与我相关
我的任务
社区描述
层叠样式表(英文全称:Cascading Style Sheets)是一种用来表现HTML(标准通用标记语言的一个应用)或XML(标准通用标记语言的一个子集)等文件样式的计算机语言。
社区管理员
  • HTML(CSS)社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧