网页爬虫时碰到状态码412如何解决

para520 2023-05-03 22:21:59

#网址http://yjt.hubei.gov.cn/fbjd/tzgg/，试了好多办法都走不通，服务器不返回正常的代码页面

# 第一次：直接requests返回非正常内容，失败

import requests

url = 'http://yjt.hubei.gov.cn/fbjd/tzgg/'

response = requests.get(url)

# 第二次，模拟头部信息，仍然返回非正常内容，失败

url = 'http://yjt.hubei.gov.cn/fbjd/tzgg/'  

headers = {'User-Agent':'OW64; rv:59.0) Gecko/20100101 Firefox/59.0'}

response = requests.get(url, headers=headers)

# 第三次，调试页面获取cookie和header，放进代码里，只在1分钟之内有效，很快失效，失败

第四次，用selenium，还是失败了

from selenium import webdriver

driver=webdriver.Edge()

url = 'http://yjt.hubei.gov.cn/fbjd/tzgg/'

driver.get(url)

print(driver.page_source)

求大神指点迷津~~

...全文

436 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

captain5339 2023-08-15

打赏
举报

目标网站有反爬措施，使用reuest要分析整个网络流程，而非只模拟1条消息。使用 selenium 也要设置 header头部参数的，这样使用通常会被很轻易地对方识别为selenium测试消息。

本文探讨了在使用Python requests库爬取网页时遇到412状态码的问题，重点介绍了添加headers、使用selenium模拟及结合两者的方法，帮助读者理解先决条件失败的原因并提供实战解决方案。

文章描述了在尝试访问特定ZF网站时遇到412PreconditionFailed错误的问题。由于网站的反爬虫机制，单纯使用requests模块无法获取必要的cookies。文中提出了两种解决方案：1)使用模拟浏览器如selenium或playwright；2)模拟浏览器获取cookies并存储，之后用requests发送请求时带上cookies。作者选择了后者，通过playwright获取cookies，然后在需要时更新requests的headers中的Cookie字段来处理412错误。

本文介绍了解决爬虫过程中遇到的HTTP 412错误的方法，包括通过添加headers和使用selenium模拟请求等手段，并探讨了这些方法的具体实现。

在爬取网页时遇到send_request请求返回412错误，只得到script内容。通过使用selenium模拟浏览器成功绕过该问题，获取到完整HTML。文章介绍了如何安装selenium和Firefox驱动，并提供了完整的Python代码示例。

本文介绍了一个简单的Python网络爬虫项目，通过requests和bs4库抓取豆瓣Top250电影的名称，并提供了详细的代码实现及解释。

Python全栈技术社区

12,043

社区成员

3,183

社区内容

发帖

与我相关

我的任务

python学习企业社区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

创建由Python学习者和社区专家组成的国内最大的第三方Python中文社区，帮助社区成员更好地入门学习、职业成长和应用实践

这里有最新最全的 Python 学习内容及资源，每月多达4次技术公开课
这里有众多 Python 学习者，陪伴你一起交流成长
这里有专业 Python 社区专家、讲师，帮助你跨越学习瓶颈，解决实操难题
这里有丰富的社区活动，可以开阔眼界，结识更多同伴

【最新活动】：

周四技术公开课讲师招募中，点击查看详情
“Python 社区专家团” 招募中,点击查看详情

试试用AI创作助手写篇文章吧

+ 用AI写文章