关于python3种xpath采集网页与加载本地页面结果不一致

Fuoluo 2021-04-09 07:21:46

from lxml import etree

import requests

url='https://tieba.baidu.com/f/search/res?isnew=1&kw=&qw=%C8%EB%C8%BA&un=&rn=10&sd=&ed=&sm=1&only_thread=1&pn=0'

response=requests.get(url)

content=response.text

print(content)

html=etree.HTML(content)

pics=html.xpath('//img[@class="p_pic"]/@original')

print(pics)

for pic in pics:

    print(pic)

我这样去采集匹配结果是空的，但是我吧content打印出来然后放a.html里面用这种方式可以正常匹配出来是什么原因啊，真是懵了

from lxml import etree

f=open('./a.html','rb')

content=f.read()

html=etree.HTML(content)

pics=html.xpath('//img[@class="p_pic"]/@original')

for pic in pics:

    print(pic)

...全文

212 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

1. 需求分析从重庆市政府采购网自动获取所有的采购公告信息，将其项目名称和采购物资通过可读的方式展示。 2. 实现过程分析页面布局第一次爬取到“假网址” （1）首先，展示第一次爬取到的“假网址”。通过 xpath 匹配该 div。（2）尝试采集当前页面的所有二级链接。 import requests from lxml import etree import json def getpage(url, headers): res = requests.get(url, headers=headers) html = etree.HTML(res.text)

前言这两天原本想在淘宝上爬点东西进行分析的，但没想到淘宝的反爬机制对我这个爬虫菜鸡充满了恶意。先是被数据的格式搞得焦头烂额，好不容易写好了测试一页的代码，准备美滋滋开始大显身手，爬取多页时，发现竟然被封IP了！呜呜┭┮﹏┭┮。于是，开始研究各种反反爬的机制，IP代理，多线程、模拟登陆… …发现自己的盲区越来越大。眼瞅着与自己的博客更新计划越行越远，只好先换个目标，对某东下手。但并不代表我会放过它，等自己在修炼一段时间，再来会会它。下面，我们开始进入正题吧。这次想做一个关于糖果的分析，于是爬取了京东共2700左右条的数据，这个数据应该是够自己分析了。京东比较坑的一点是，他的每一页是先加载一部

此处准备使用Scrapy爬虫框架对 http://books.toscrape.com/（一个专门用来被爬取的网站）上书籍的相关信息进行爬取。相关信息包括：书名、价格、评价等级、库存量、产品编码、评价数量。首先进行页面分析：这里补充一下，通常现在的浏览器都会对html文本进行一定的规范化, 所以在使用Chrome等浏览器自带的XPath路径的时候, 有可能会导致读取失败。虽然很多时候用view命令加载出的页面和浏览器打开的是一样的，但是前者是Scrapy爬虫下载的页面，后者是由浏览器下载的页面，有时它们是不同的。在进行页面分析时，使用view命令更加可靠：在命令提示符窗口输入 s

隔离生活 Day 2 【Python爬虫】使用etree进行XPath解析文章目录【Python爬虫】使用etree进行XPath解析一、相关知识etree的使用编码流程环境安装实例化etree对象XPath语法二、实例 - 爬取全国城市名称????网页分析背景介绍页面分析????代码一、相关知识 etree的使用编码流程将HTML文本加载到etree对象中调用etree的xpath()函数完成标签定位对标签为所欲为（此时获得的标签其实是xpath()函数返回的对象）环境安装 pip in

关于xpath的一些简单介绍

37,719

社区成员

34,238

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章