爬虫问题

top啦它 2020-05-12 11:07:47
我现在想把CSDN我的博客下面的页码爬出来,出了点问题,求解,多谢了。
import requests
from lxml import etree

HEADERS={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'
}
URL='https://blog.csdn.net/weixin_45949073/article/list/'

#response = requests.get(url=URL,headers=HEADERS).text
response = requests.get(url=URL,headers=HEADERS).content.decode('utf-8')
html = etree.HTML(response)
detail_ur = html.xpath("//div[@class='pagination-box']//div[@class='ui-paging-container']//ul//li/@data-page")#明明是可以提取出来的,如下图,但是输出确实空列表
print(detail_ur)


...全文
143 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
top啦它 2020-05-14
  • 打赏
  • 举报
回复
引用 2 楼 持之以恒_liu 的回复:
这个页码应该是动态加载出来的吧!根本不在源码当中,你看一下源代码就知道
OK,谢谢大哥。
  • 打赏
  • 举报
回复
这个页码应该是动态加载出来的吧!根本不在源码当中,你看一下源代码就知道
top啦它 2020-05-12
  • 打赏
  • 举报
回复
如图所示//div[@class='pagination-box']//div[@class='ui-paging-container']//ul//li/@data-page")放在XPath插件中是可以检索出来的,但是代码却什么都没输出,唉,好蒙啊。

37,718

社区成员

发帖
与我相关
我的任务
社区描述
JavaScript,VBScript,AngleScript,ActionScript,Shell,Perl,Ruby,Lua,Tcl,Scala,MaxScript 等脚本语言交流。
社区管理员
  • 脚本语言(Perl/Python)社区
  • IT.BOB
加入社区
  • 近7日
  • 近30日
  • 至今

试试用AI创作助手写篇文章吧