网页爬虫时碰到状态码412如何解决

para520 2023-05-03 22:21:59

#网址http://yjt.hubei.gov.cn/fbjd/tzgg/,试了好多办法都走不通,服务器不返回正常的代码页面

 

# 第一次:直接requests返回非正常内容,失败

import requests

url = 'http://yjt.hubei.gov.cn/fbjd/tzgg/'

response = requests.get(url)

 

# 第二次,模拟头部信息,仍然返回非正常内容,失败

url = 'http://yjt.hubei.gov.cn/fbjd/tzgg/'  

headers = {'User-Agent':'OW64; rv:59.0) Gecko/20100101 Firefox/59.0'}

response = requests.get(url, headers=headers)  

 

# 第三次,调试页面获取cookie和header,放进代码里,只在1分钟之内有效,很快失效,失败

 

第四次,用selenium,还是失败了

from selenium import webdriver

driver=webdriver.Edge()

url = 'http://yjt.hubei.gov.cn/fbjd/tzgg/'

driver.get(url)

print(driver.page_source)

求大神指点迷津~~

...全文
97 1 打赏 收藏 转发到动态 举报
写回复
用AI写文章
1 条回复
切换为时间正序
请发表友善的回复…
发表回复
captain5339 2023-08-15
  • 打赏
  • 举报
回复

目标网站有反爬措施,使用reuest要分析整个网络流程,而非只模拟1条消息。使用 selenium 也要设置 header头部参数的,这样使用通常会被很轻易地对方识别为selenium测试消息。

11,189

社区成员

发帖
与我相关
我的任务
社区描述
创建由Python学习者和社区专家组成的国内最大的第三方Python中文社区,帮助社区成员更好地入门学习、职业成长和应用实践
python学习 企业社区
社区管理员
  • Python全栈技术社区
  • Lumos_zbj
  • 北侠大卫
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

创建由Python学习者和社区专家组成的国内最大的第三方Python中文社区,帮助社区成员更好地入门学习、职业成长和应用实践

  • 这里有最新最全的 Python 学习内容及资源,每月多达4次技术公开课
  • 这里有众多 Python 学习者,陪伴你一起交流成长
  • 这里有专业 Python 社区专家、讲师,帮助你跨越学习瓶颈,解决实操难题
  • 这里有丰富的社区活动,可以开阔眼界,结识更多同伴

【最新活动】:

  1. 周四技术公开课讲师招募中,点击查看详情
  2. “Python 社区专家团” 招募中,点击查看详情

 

试试用AI创作助手写篇文章吧