关于scrapy请求效率太低的问题

奔跑的菜菜 2019-07-28 01:31:32

初学者使用scrapy spiders爬取某网站的数据，遇到一个问题。

情况是这样的，我要爬取的是一个返回数据的接口，我可以入参pageSize和pageNumber来控制返回数据量的多少。
由于总数据量3W多条，于是使用Size=1000（返回1000条数据），结果大部分请求超过3分钟超时了（scrapy默认超时时间为180S），我怀疑过是否是因为返回数据太大导致scrapy底层处理response对象耗时太久了，但是等我使用requests.get(url)后，我发现原来是接口服务端处理时间比较长。

在使用requests请求查找问题时，自己做了时间和数据大小输出，情况如下：
当size=10时



耗时： 0:00:20.995203

当返回 10 条数据时，数据量大小：17.846 kb

当size=100时



耗时： 0:00:48.262390

当返回 100 条数据时，数据量大小：189.148 kb

当size=1000时



耗时： 0:04:12.454073

当返回 1000 条数据时，数据量大小：1980.934 kb

看到当查询1000条数据要花费4分钟12秒时，我有点茫然，3W条数据至少要30次请求，也就是至少要耗时126分钟，再加上connect和disconnect的时间，这有点消耗不起啊。
我用scrapy跑起来，感觉好像是单线程，上一个请求必须结束下一个请求才起，该如何使他并发请求以节约时间呢。

因为初学，还搞不太清楚下载器等等其他的组件如何使用，现在代码全在spider.py中跑，也没有用到其他组件，代码如下图：

请大家指点一下，如何提高效率。

...全文

339 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

奔跑的菜菜 2019-07-28

打赏
举报

回复

原来发现明明自己写的是单yield 把倒数第三行的if改成while就好了

增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为INFO或者ERROR即可。在配置文件中编写：LOG_LEVEL = ‘INFO’ 禁止cookie：...

PS:这篇博文主要讨论思路、方法，有细节伪代码，但没有完整实现代码。如果有时间，后面会专门写一篇实现的博文，附上完整代码。转载请注明出处：https://blog.csdn.net/aaronjny/article/details/84899262 scrapy应该算是当下最流行、也最受欢迎的python爬虫框架了。利用scrapy，爬虫工程师可以快速开发高效的爬虫程序。 scrapy默认是单...

在使用scrapy爬虫做性能优化时，一定要根据不同网站的特点来进行优化，不要使用一种固定的模式去爬取一个网站，这个是真理，以下是对58同城的爬取优化策略：一、先来分析一下影响scrapy性能的settings设置(部分常用设置)：1，DOWNLOAD_TIMEOUT，下载超时，默认180S，若超时则会被retry中间件进行处理，重新加入请求队列2019-04-18 20:23:18 [scrapy...

scrapy 继承ImagesPipeline类保存图片，解决对相同url图片地址发起重复请求方案

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试. 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫. Scrapy吸引人的地...

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章