python3 的xpath问题

weixin_42549694 2018-07-01 10:15:07

#coding:utf-8



import urllib.request

from lxml import etree



url="https://tieba.baidu.com/f?ie=utf-8&kw=%E7%BE%8E%E5%A5%B3&fr=search"

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36"

}

request = urllib.request.Request(url, headers=headers)

html = urllib.request.urlopen(request).read().decode('UTF-8')

# print(html)

# 解析HTML文档为HTML DOM模型

content = etree.HTML(html)

print(content)

link_list = content.xpath('//li[@class="j_thread_list clearfix"]/div[@class="t_con cleafix"]/div[@class="col2_right j_threadlist_li_right"]/div/div/a')

print(link_list)

for link in link_list:

    fulllink = "http://tieba.baidu.com" + link



    print(link)

为什么取不到数据？哪里出了问题啊，link_list一直是[ ]的，求助！

...全文

237 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_43494166 2018-11-22

打赏
举报

回复

问题在headers，我今天搞了一下午，也没有出来，明明可以取到的，然后测试出是在headers上，果然不加headers可以取到，具体原因不明白，希望能帮到你

Red_face 2018-07-02

打赏
举报

回复

路径有问题，试试不用绝对路径

weixin_42549694 2018-07-01

打赏
举报

回复

本文探讨了在Python3中使用XPath解析HTML页面时遇到的一个问题：循环中的元素值重复出现。通过具体代码示例展示了如何使用Selenium和lxml库抓取网页，并详细讨论了可能的原因及解决思路。

本文详细介绍了使用lxml的XPath和BeautifulSoup两种技术解析网页的方法，通过实例展示了如何提取HTML元素中的文本信息，是进行网页爬虫开发的重要参考资料。

在使用Python3.6和Selenium3.0进行UI自动化测试时，遇到Xpath定位元素错误的问题。通过在自定义函数中添加隐式等待时间的代码解决了该问题。

博客内容涉及如何在Anaconda环境下安装和使用lxml库。遇到pycharm找不到lxml.etree的问题，通过下载并安装指定版本的lxml wheel文件解决。安装后因解析不规范HTML文件引发错误，通过创建自定义的HTMLParser并指定编码解决。

作者针对朋友关于爬虫代码中XPath的问题，结合Python进行整理分享。通过例3.5和例3.6，详细介绍了查看页面源代码、确定信息HTML特征、编写XPath表达式的过程，还对XPath表达式的格式和符号含义进行了扩充说明。

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章