使用Scrapy爬虫爬某一field时，同一field有两个不同的xpath，请问该如何将两个xpath归一或者有没有别的办法解决这个问题？

xqhlsjslcy 2016-11-24 02:52:34

详细问题如下：
在爬某网页的“作者”属性的时候，发现对这一属性有两个xpath：
1."//div[@class='news-info']/dl/dd/span[@class='name']/text()"
2."//div[@class='news-info']/dl/dd/span[@class='name-head']/a/text()"
如何将两个xpath归一？
用正则表达式的话可不可以？

...全文

7509 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

本套视频课程的讲师刘硕是清华大学出版社出版的《精通Scrapy网络爬虫》的作者，该视频课程为此书的配套课程，在书中内容的基础上增加、修改了部分实战案例。《精通Scrapy网络爬虫》以应用为出发点，详细深入地介绍了Python流行框架Scrapy的核心技术及网络爬虫的开发技巧。适合有一定Python语言基础，想学习编写复杂网络爬虫的程序员及网络爬虫工程师使用。

Scrapy-Redis 是 Scrapy 框架的一个扩展，用于实现分布式爬取。它基于 Redis 数据库实现了 Scrapy 的调度器、去重集和队列，使得多个爬虫节点可以共享相同的信息，并能够高效地协作。分布式爬取：Scrapy-Redis 允许多个 Scrapy 爬虫实例之间共享爬取队列和去重集合，使得爬取任务可以被多台机器分担，提高爬取效率和速度。基于 Redis 实现的调度器和去重集。

Date: 2019-07-17 Author: Sun 本节要讲解的内容有：（1）scrapy item数据封装（2）scrapy管道处理 (3) scrapy 数据持久化 (4) scrapy下载项目文件和图片一. Scrapy Item数据封装爬取的主要目标就是从非结构性的数据源提取结构性数据，例如网页。 Scrapy spider可以以python的dict来返...

首先是安装scrapy， windows下安装略坑，直接pip install scrapy会报错，因为scrapy基于twisted，需要我们手动安装twisted，见我的上一篇博客好了~~~ 开始建立爬虫工程：scrapy startproject yangguang2 再进入爬虫：cd yangguang2 生成爬虫：scrapy genspider ygspider url 记下来是主程...

scrapy的图片管道,在ImagePipeline类中实现 ,提供了一个方便并具有额外特性的方法,来下载并本地存储图片: 　　* 将所有下载的图片转换成通用的格式(JPG)和模式(RGB) 　　* 避免重新下载最近已经下载过的图片　　* 缩略图生成　　* 检测图像的宽/高,确保它们满足最小的限制这个管道也会为那些当前安排好要下载的图片保留一个内部队列,并将那些到达的包含相同图片的...

246

社区成员

377

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章