用scrapy实现爬虫时，每个爬虫文件只能对应一个pipeline文件吗？

Cristal_tina 2016-12-16 04:02:35

目前在学习scrapy框架的使用，但是在编写自己爬虫的过程中，我使用两个pipeline文件处理爬取到的数据，并分别命名为save_mongo.py和filtration.py。在settings.py进行了如下设置：

ITEM_PIPELINES = {

      'scrapy_test.pipelines.filtration.FiltrationPipeline':300,

       'scrapy_test.pipelines.save_mongo.MongoDBPipeline':500,}

但是在运行过程中，通过log日志发现能够完成filtration.py的过滤，但并没有写入数据库，但是如果settings.py中只保留save_mongo.py设置的话，是能够写入数据库的。

所以想请教各位大神，在scrapy中，pipeline文件不是按照顺序依次执行的吗？还是每一个爬虫文件只能对应一个pipeline文件？

小女纸在这儿谢谢各位了~~~~~

...全文

376 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

Cristal_tina 2016-12-16

打赏
举报

回复 1

已解决，是顺序执行的，不能保存是因为编码问题，当不涉及到汉语的utf-8的编码方式，是可以正常保存的。

使用Scrapy框架开发爬取中国知网专利信息的爬虫,可以提供以下500字的说明: Scrapy是一个功能强大、高效的Python网络爬虫框架,非常适合用于爬取中国知网这样的专业学术资源网站。利用Scrapy可以快速开发一个高质量的知网专利信息爬虫。首先,需要确定要爬取的目标信息。对于知网专利,可以包括专利名称、专利号、专利类型、申请人、发明人、申请日期、授权日期、引用次数等关键字段。然后, 设计爬虫的抓取流程。一般来说,可以分为以下几个步骤: 1. 确定入口URL。可以从知网的专利检索入口页开始,构造初始爬取URL。 2. 解析搜索结果页。使用Scrapy的Selector解析器,提取每个专利条目的详情页URL。 3. 抓取专利详情页。访问每个专利详情页,使用Selector解析出所需的各项专利信息。 4. 存储数据。可以将解析到的专利数据保存到CSV文件或者数据库中。在Scrapy中,这些步骤可以通过Item、Spider、Pipeline等组件很好地实现。其中,Item定义了需要抓取的数据结构,Spider负责页面抓取和数据提取,Pipeline负责数据的存储

scrapy爬虫之热门网站数据爬取 1、很详细地完成了对scrapy的使用 2、其中有对正则表达式的详细使用 3、有对xpath和css选择器的使用 4、有对scrapy中的item、pipeline等类的修改和使用.zip

本套视频课程的讲师刘硕是清华大学出版社出版的《精通Scrapy网络爬虫》的作者，该视频课程为此书的配套课程，在书中内容的基础上增加、修改了部分实战案例。《精通Scrapy网络爬虫》以应用为出发点，详细深入地介绍...

## 开发环境：Python + Scrapy框架 + redis数据库 ## 程序开发工具： PyCharm 程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个主机的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布式组件。它利用Redis对用于爬取的请求(Requests)进行存储和调度(Schedule)，并对爬取产生的项目

Python_Scrapy_Distributed_Crawler Python基于Scrapy-Redis分布式爬虫设计毕业源码案例设计开发环境：Python + Scrapy框架 + redis数据库程序开发工具： PyCharm 程序采用 python 开发的 Scrapy 框架来开发，使用 Xpath 技术对下载的网页进行提取解析，运用 Redis 数据库做分布式，设计并实现了针对当当图书网的分布式爬虫程序，scrapy-redis是一个基于redis的scrapy组件，通过它可以快速实现简单分布式爬虫程序，该组件本质上提供了三大功能： scheduler - 调度器 dupefilter - URL去重规则（被调度器使用） pipeline - 数据持久化 Scrapy是一个比较好用的Python爬虫框架，你只需要编写几个组件就可以实现网页数据的爬取。但是当我们要爬取的页面非常多的时候，单个主机的处理能力就不能满足我们的需求了（无论是处理速度还是网络请求的并发数），这时候分布式爬虫的优势就显现出来。而Scrapy-Redis则是一个基于Redis的Scrapy分布

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章