一个关于pyhton的html.xpath的问题

干饭人之路 2022-07-04 09:41:47

代码本意是解析页面：https://so.eastmoney.com/web/s?keyword=600759

从该页面提取如下内容：

综合评分 54

今日表现 +0.09

打败了 15.52% 的gp

目前遇到的问题是未提取到任何文字内容，且无法验证xpath写的路径是否正确（尽管该路径来源于google浏览器的复制xpath），有没有会用xpath的帮我修改一下

import urllib
from urllib.request import urlopen
from urllib.request import Request

import requests
from bs4 import BeautifulSoup as bf4
import random
import json
import time
from lxml import etree

def get_pages():
    _url = ' '
    _url = 'https://so.eastmoney.com/web/s?keyword=600759/'
    print('正在爬取：', _url)
    #  伪装头部
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
    req = requests.get(_url, headers=headers)
    print(str(req.text))
    html2 = etree.HTML(req.content)
    time.sleep(random.randint(0, 3))
    ttt = html2.xpath('/html/body/div[1]/div[3]/div[1]/div[2]/div[3]/div[2]/div/div[1]/div[4]/span/text()')
    #print(str(ttt[0].text))
    print(type(html2))
    print(html2)
    print(len(ttt))
    #for t in ttt
    #    print(str(t))
    #result = etree.tostring(html2)
    #print(result.decode('utf-8'))
    return html2

if __name__ == "__main__":
    html = get_pages('')

如下为控制台的打印内容：

<class 'lxml.etree._Element'>
<Element html at 0x2267db310c0>
0

Process finished with exit code 0

...全文

红包已过期，查看明细

229 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

herosunly 2022-07-04

打赏
举报

回复 1

直接用request进行静态网页爬取是不行的，鼠标右键查看网页源代码，然后搜索评分显示没有。可以试试selenium。

您观看课程学习后免费入群领取【超全Python资料包+17本学习电子书】本课程主要给大家分享基于Python语言的网络爬虫基础篇体验，其中讲解Python网络爬虫(XPath、Beautiful Soup和pyquery)解析库的使用，抓包工具的使用，以及如何实现图片信息爬取和Ajax信息的爬取。后给大家分享一个动态渲染页面信息的爬取。

本文整理汇总了Python中lxml.etree.XPath方法的典型用法代码示例。如果您正苦于以下问题：Python etree.XPath方法的具体用法？Python etree.XPath怎么用？Python etree.XPath使用的例子？那么恭喜您, 这里精选的方法代码示例或许可以为您提供帮助。您也可以进一步了解该方法所在模块lxml.etree的用法示例。在下文中一共展示了etree...

在python中使用xpath不可能一下子定位到想要的具体元素，但是我们定位到一个元素之后，想在定位此元素中的子元素时候，会出现问题，比如在下面这个例子中：根据xpath定位到了tr，注意游览器自动生成了tbody，在python中要把自动生成的tbody层级去掉。此时我们想获取tr下面的td，请看代码 import requests from lxml import etree url = "https://www.w3school.com.cn/xpath/xpath_axes..

一、基础介绍Harry PotterJ K. Rowling200529.99bookstore : 选取 bookstore 元素的所有子节点。/bookstore : 选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！bookstore/book : 选取属于 bookstore 的子元素的所有 book 元素。//book :...

python etree.HTML 以及xpath 解析网页的工具

Python全栈技术交流社区

11,612

社区成员

717

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章