爬虫xpath只能解析出body,路径往下只能获取空列表

天上大月 2021-03-08 03:56:20

小白刚开始学爬虫，xpath解析不知道为什么用不了，求大神指正

不知道为什么，xpath只能获取到body标签

在解析路径body标签后面加上div标签后，返回的就是一个空列表

尝试在body标签后面加上text()获取文本，返回的也是一个空列表

以下是代码



from lxml import etree

import requests

if __name__ == '__main__':

    url = 'https://sc.chinaz.com/jianli/biaoge.html'

    headers = {

        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36'

    }

    data = requests.get(url=url,headers=headers).content.decode('utf-8')

    tree = etree.HTML('data')

    page_list = tree.xpath('//body/text()')

    print(page_list)

...全文

339 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

天上大月 2021-03-09

打赏
举报

回复

原来是div用了多个class，我把两个class名连在一起复制了

Farland-hobin 2022-07-07

举报

回复

@天上大月什么意思啊，我也遇到这种情况

天上大月 2021-03-08

打赏
举报

回复

没人么[face]monkey2:019.png[/face]

xpath写的对，但是返回值为空在写爬虫的时候解析网页，使用最多的解析方式就是xpath解析，但是在使用在使用xpath解析的时候，通常会遇到会获取不到相应元素的情况原因通常是前端做的一些反爬措施，在编写网页的时候通常省略一层标签，但是被省略的标签浏览器会自动补充，修改成正确的结构我们通过浏览器进行检查的时候，看到的代码结构是已经被浏览器修改后的，而爬虫获取到的是源代码所以根据修改后的xpath解析源代码会找不到相应的元素 ...

XPath是一门在XML文档中查找信息的语言，最初是用来搜寻XML文档的，但是它同样适用于HTML文档的搜索。所以在Python爬虫中，我们经常使用xpath解析这种高效便捷的方式来提取信息。

xpath是学爬虫的必备工具，其选择功能十分强大，它提供了非常简明的路径选择表达式，另外，它还提供了超过100个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等，几乎所有我们想要定位的节点，都可以用XPath来选择。当然我也是小白，可能写的不对或者不足还望指出，有不懂的可以直接评论或者私我。

可能的情况： 1、url的问题 2、xpath路径问题 3、网页标签class，id属性等一定要注意看后面有没有空格关于xpath路径问题之前在做的爬虫都是用的xpath去获取内容，又想偷懒，所以就直接在源码那里直接复制路径，然后就很容易踩雷了（我算是踩了很多坑了，不知道有没有小伙伴和我一样踩过这样的坑）：此时可能会得到如下路径： /html/body/div[2]/div[6]/table/tbody/tr[6]/td[1]/a/span 然后跑开始爬虫，结果...

scrapy自带xpath，不需要通过etree.HTML解析。还有一点就是scrapy的xpath以后要.extract()一下，才变成列表类型，这一点和etree有点区别。发现这种写法解析不出来数据：（这种绝对路径的写法）这种相对路径的写法可以解析出数据（用的相对路径）

250

社区成员

6,555

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章