scrapy shell用xpath失效的问题

fancy_T 2020-01-06 11:08:40

我爬的是百度的首页：https://www.baidu.com/

<div id="ftCon">
<div class="ftCon-Wrapper">
<div id="ftConw">
<p id="lh">
<a id="setf" href="//www.baidu.com/cache/sethelp/help.html" onmousedown="return ns_c({'fm':'behs','tab':'favorites','pos':0})" target="_blank">把百度设为主页</a>

想取出这个a标签的text内容 “把百度设为主页”，

我的语句是：
response.xpath("//a[@id='setf']")
返回了 []

又试了试css和完整的路径
response.css(".setf")
response.xpath("/html/body/div[@id='wrapper']/div[@id='ftCon']/div[@class='ftCon-Wrapper']/div[@id='ftConw']/p[@id='lh']/a[@id='setf']")
也是返回了[]

看了网上的一些说法，说浏览器没有tbody这些标签，我想我这个是a标签，应该不会吧，那我直接去拿了a标签前面的div，依然不行

response.xpath("/html/body/div[@id='wrapper']/div[@id='ftCon']/div[@class='ftCon-Wrapper']/div[@id='ftConw']")

没辙了...

...全文

149 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

冰风漫天 2020-01-09

打赏
举报

回复

可以试试使用scrapy-splash

fancy_T 2020-01-08

打赏
举报

回复

引用 1 楼冰风漫天的回复:

用requests请求的百度首页里应该没有<a id="setf" 这个a标签吧

谢谢！看了一下requests请求的页面，确实没有这个标签，我之前都是f12拿标签来爬的，那怎么才能拿到这个a标签呢

冰风漫天 2020-01-06

打赏
举报

回复

用requests请求的百度首页里应该没有<a id="setf" 这个a标签吧

python博客分类中Scrapy框架爬虫，不同博客之间的材料，以免出现博客中图挂的问题，这里讲博客中使用到的图片上传到资料中

引言在爬虫的世界里，xpath是一种非常简单易用的匹配规则，方便我们在web世界里提取需要的各类信息。本文将讲述一个xpath规则无效的问题分析过程。环境介绍 Python 3.6.1 Scrapy 1.5.0 问题在选用xpath之时，都是基于firefox或者chrome中自带的Web开发工具来选取的。这里一般推荐使用chrome的devtool，功能强大，简单易用，童叟...

https://www.xin3721.com/eschool/pythonxin3721/前言Scrapy那么多模块都是怎么结合的啊？明明在chrome上的xpath helper插件写好了xpath，为什么到程序就读取的是None？Scrapy可以直接写多层response么？难道必须再使用requests库？？没关系，这篇文章一站式解答scrapy常见的坑Scrapy各部分运行机制Scrap...

HTML、DOM树以及XPath 从用户在浏览器输入URL到屏幕显示的过程。在浏览器输入URL。URL的第一部分用于在网络上找到合适的服务器，而URL以及cookie等其他数据则构成一个请求，用于发送到那台服务器中。服务器回应，向浏览器发送一个HTML页面。也可能返回其他格式，比如XML和JSON。将HTML转换成浏览器内部的树状表示形式：文档对象模型。基于一些布局规则渲染内部表示，...

当抓取网页时，最常见的任务是从HTML源码中提取数据，用Beautiful Soup或lxml都可以。Beautiful Soup是基于HTML代码的结构来构造一个Python对象，对不良标记的处理也很合理，缺点就是慢。而lxml是基于ElementTree（不是Python标准库的一部分）的Python化的XML解析库，也可以解析HTML。 Scrapy提取数据的机制被称为选择器（Se...

37,743

社区成员

34,212

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章