scrapy-redis如何把去重做到本地上？

maya8maya85 2018-05-09 10:25:07

请教一下，现在用scrapy-redis做好了一个pachong，看了去重一块的解释，都是说运行时的去重，请问是如何把这个去重做到本地上的呢？就是说我就算关机重启了，也不会去重复pa那些pa过的url了，我知道redis有持久化到本地的功能，但不太会用，现在已经有appendonly.aof，这能保证重启后就不会重pa那些pa过的url吗？

...全文

835 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Scrapy-Redis 分布式 1 分布式概述 1.0 scrapy-redis是什么之前我们已经学习了Scrapy，它是一个通用的爬虫框架，能够耗费很少的时间就能够写出爬虫代码 Scrapy-redis是scrapy的一个组件，它使用了Redis数据库做为基础，目的为了更方便地让Scrapy实现分布式爬取 Scrapy能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘。有能人改变了Sc...

1. 分布式爬虫原理 Scrapy单机爬虫有一个本地爬取队列Queue，如果新的Request生成就会放到队列里面，随后Request被Scheduler调度，之后Request交给Downloader执行。分布式爬虫有多个Scheduler和多个Downloader，而爬取队列始终为一个，也就是共享爬取队列，这样才能保证Scheduler从队列里调度某个Request之后，其他的Schedule...

此篇文章为转载，只供学习，有很多问题，如没有解决分布式去重问题。最好还是用scrapy-redis给出的例子代码前言scrapy是Python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。虽然scrapy能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列...

文章目录前言分布式原理scrapy_redis项目编写前言 scrapy是python界出名的一个爬虫框架。Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。虽然scrapy能做的事情很多，但是要做到大规模的分布式应用则捉襟见肘。有能人改变了scrapy的队列调度，将起始的网址从start_urls里分离出来，改为从redis读取，多个客户端可以同时读取同一个redis，从而实现了分布式的爬虫。就算在同一台电脑上，也可以

我们在前面几节课了解了 Scrapy 爬虫框架的用法。但这些框架都是在同一台主机上运行的，爬取效率比较低。如果能够实现多台主机协同爬取，那么爬取效率必然会成倍增长，这就是分布式爬虫的优势。接下来我们就来了解一下分布式爬虫的基本原理，以及 Scrapy 实现分布式爬虫的流程。我们在前面已经实现了 Scrapy 基本的爬虫功能，虽然爬虫是异步加多线程的，但是我们却只能在一台主机上运行，所以爬取效率还是有限的，而分布式爬虫则是将多台主机组合起来，共同完成一个爬取任务，这将大大提高爬取的效率。 1.分布式爬虫架

Linux/Unix社区

23,125

社区成员

74,509

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章