scrapy爬取数据，代理出现延迟如何避免？

Logerlink 2020-04-14 04:54:28

小白求助

第一种：
scrapy通过代理爬取数据，当某一个代理出现延迟时，程序会卡住，直到请求时间达到 DOWNLOAD_TIMEOUT这个数值，才会报错释放线程，在这个等待的过程中什么事都没做，如果代理质量不高的话整体爬取的时间就会很慢。
但是如果是用c#或者java做多线程爬取则不会出现这个问题，线程之间是互不影响
速度：一秒两条以上

配置：

第二种：
代理检测
如果在请求指定链接之前，先采取代理检测操作，就不会出现上面那个问题，但是又有一个新的问题。
如果这个代理是可用的，那么代理检测操作又显得多余，而且整体速度是要比不检测时要慢的
速度：一秒一条

速度上比较肯定是第一种比较好的，第一种有没有什么解决方案呢？
或者有没有更好的方法？求大佬给个建议

...全文

261 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本文介绍如何利用scrapy框架构建一个爬虫，目标是抓取电影天堂的所有电影信息。通过配置settings.py文件，设置下载延迟、中间件、用户代理，确保爬虫的稳定性和效率。同时，通过pipelines将爬取的数据存储到MongoDB数据库中，避免重复数据。文章还包含了自定义下载中间件以随机更换User-Agent，提高爬虫的匿名性。

本文介绍了如何在Scrapy爬虫项目中配置随机下载延迟，以避免频繁请求导致的封禁问题。同时，详细阐述了设置IP代理和User-Agent的方法，以增强爬虫的匿名性和多样性，确保爬取过程更加稳定。

本文介绍了Scrapy框架的功能，包括网络爬取、数据提取、存储、清洗、用户登录管理、代理和请求头管理，以及其并发支持（异步请求、并发请求、下载器中间件、延迟请求和分布式爬取）。特别强调了Scrapy的协程并发模型及其在Twisted和Asyncio框架下的应用。,

本文介绍了如何使用scrapy爬取豆瓣华语电影，包括爬取思路、分析、实现过程，以及反反爬虫策略。通过解析页面获取电影信息，并存储到MongoDB数据库，总计爬取了33133部电影。

本文介绍使用 Scrapy 爬取汽车之家报价数据的完整流程。先介绍 Scrapy 框架特点与安装，接着创建项目、分析页面结构和数据请求，编写爬虫、定义数据结构，进行数据存储与管道配置，最后运行爬虫并对数据清洗分析，帮助读者掌握 Scrapy 爬虫开发。

37,740

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章