scrapy在start_urls设置很多url会卡住

mmmaxxx 2017-04-09 11:01:28

我在start_urls中设置了百万级别的url数量，爬虫会直接卡住，而之前做过几十万个就没事，是不是不能在start_urls中设置这么大数量的url？

...全文

413 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Maxwelll_ 2017-04-10

打赏
举报

回复

估计放在init里了

分布式爬虫 scrapy-redis、集群

但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来，...

在复习 scrapy 框架的时候, 遇到了一个问题，就是在爬取多个页面的换页时候，要进行 yield 操作来进行下一个页面的爬取，但是爬取完第一页后，老是卡在那里，也不报错，就是单纯的卡，也花费了一些时间解决，故在此...

本文是本人在b站上学习尚硅谷的Python爬虫教程小白零基础速通的，关于爬虫部分后记录的笔记。

但目前Scrapy的用途十分广泛，可用于如数据挖掘、监测和自动化测试等领域，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy 是基于twisted框架开发而来，...

37,720

社区成员

34,239

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章