scrapy-redis爬虫跑了一阵子之后从队列中取不到url了

YnKness 2020-08-25 03:37:13
我在redis的队列中存储了两千条start_url,但是在进行爬取的时候,每次都是爬了几十条或者百来条,就会进入等待获取start_url的状态
...全文
557 9 打赏 收藏 转发到动态 举报
写回复
用AI写文章
9 条回复
切换为时间正序
请发表友善的回复…
发表回复
板栗呀 2021-05-26
  • 打赏
  • 举报
回复
我也是,明明有那么多没爬,也上ip代理,就是一会儿requests队列就没了,空跑,请问楼主解决了吗
YnKness 2021-04-30
  • 打赏
  • 举报
回复
我想说我也还没解决,,,你们呢?
marck_pen 2021-01-15
  • 打赏
  • 举报
回复
我也有相同的疑问,还以为是我程序挂了,结果是不运行了,是怎么一回事?
写Bug 的大潘 2020-11-05
  • 打赏
  • 举报
回复
引用 1 楼 YnKness 的回复:
有没有大佬帮忙分析一下,我百度查了好多了,但是没有找到能够解决的办法。 因为它能够从队列中拿数据进行爬取,就是会跑了一阵子之后拿不到数据了,重新启动爬虫,又会有一些start_url可以爬,但是不一会儿又会没有start_url了
我貌似遇到了和你一样的问题,我是定时往队列里加请求,前几分钟还能监听到去爬取,之后貌似就监听不到这个队列了,你解决了吗兄弟
weixin_48478655 2020-08-27
  • 打赏
  • 举报
回复
引用 4 楼 YnKness 的回复:
引用 3 楼 weixin_48478655 的回复:
是本地爬取还是说别的?
在服务器上爬的,redis在另一台服务器上
如何是在网络爬取最好就是伪装,以防万一IP给封访问不了,虽然说你是在自己的两个服务来回爬取,但也可能会给封IP。如何是你在本地这样弄倒不会出现问题。我只可以说有概率是IP给封了访问不了
YnKness 2020-08-26
  • 打赏
  • 举报
回复
引用 3 楼 weixin_48478655 的回复:
是本地爬取还是说别的?
在服务器上爬的,redis在另一台服务器上
weixin_48478655 2020-08-26
  • 打赏
  • 举报
回复
是本地爬取还是说别的?
YnKness 2020-08-25
  • 打赏
  • 举报
回复
眉没有人吗
YnKness 2020-08-25
  • 打赏
  • 举报
回复
有没有大佬帮忙分析一下,我百度查了好多了,但是没有找到能够解决的办法。 因为它能够从队列中拿数据进行爬取,就是会跑了一阵子之后拿不到数据了,重新启动爬虫,又会有一些start_url可以爬,但是不一会儿又会没有start_url了

37,719

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧