python,scrapy爬虫问题

暗里着迷0902 2016-09-01 03:04:50
先贴上我用scrapy写的爬虫运行日志:

2016-09-01 14:39:48 [scrapy] INFO: Crawled 71 pages (at 71 pages/min), scraped 6969 items (at 6969 items/min)
2016-09-01 14:40:48 [scrapy] INFO: Crawled 155 pages (at 84 pages/min), scraped 15150 items (at 8181 items/min)
2016-09-01 14:41:48 [scrapy] INFO: Crawled 238 pages (at 83 pages/min), scraped 15251 items (at 101 items/min)
2016-09-01 14:42:48 [scrapy] INFO: Crawled 317 pages (at 79 pages/min), scraped 15263 items (at 12 items/min)
2016-09-01 14:43:48 [scrapy] INFO: Crawled 398 pages (at 81 pages/min), scraped 15344 items (at 81 items/min)
2016-09-01 14:44:48 [scrapy] INFO: Crawled 483 pages (at 85 pages/min), scraped 15428 items (at 84 items/min)
2016-09-01 14:45:48 [scrapy] INFO: Crawled 570 pages (at 87 pages/min), scraped 15430 items (at 2 items/min)
2016-09-01 14:46:48 [scrapy] INFO: Crawled 652 pages (at 82 pages/min), scraped 15449 items (at 19 items/min)
2016-09-01 14:47:48 [scrapy] INFO: Crawled 732 pages (at 80 pages/min), scraped 15527 items (at 78 items/min)

问题是:从日志可以看出,前两分钟效率很高,但是从第三分钟开始性能突然下降,跟着的cpu占用也突然下降。也试过修改一些配置参数,检查了自己写的代码;但是都未发现、解决问题,求大神帮助分析一下这是什么原因。

tips:楼主刚刚接触爬虫,并且打算在这个道路上继续走一下,希望广交对爬虫同样感兴趣的朋友,共同学习交流经验。
...全文
371 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
暗里着迷0902 2016-09-02
  • 打赏
  • 举报
回复
引用 1 楼 sprawling 的回复:
pages/min没有降啊,是不是 你的算法有问题啊
是的,pages/min没有降低说明下载器那是正常的,但是后面的items/min从第三次明显降低了,这就造成了有好多请求阻塞在下载器,等待items的处理。 在网上查了一些文章说pipeline 处理items慢,但是我弄了半天还是不行
sprawling 2016-09-02
  • 打赏
  • 举报
回复
pages/min没有降啊,是不是 你的算法有问题啊

37,722

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧