python爬取网页报错提示状态码404，但是网页可以打开

ppsdydy2011 2020-06-30 11:46:15

import requests
from bs4 import BeautifulSoup

url='http://www.xiachufang.com/explore/'
res=requests.get(url)
print(res.status_code)

返回404，但是这个网页我可以打开，哪位大神告诉我一下问题该怎么解决
谢谢

...全文

774 5 打赏收藏转发到动态举报

写回复

用AI写文章

5 条回复

切换为时间正序

请发表友善的回复…

发表回复

放风喽 2020-07-02

打赏
举报

网站一眼就认出你不是人，然后大威天龙

坚持不懈的大白 2020-07-02

打赏
举报

可以看我的这篇文章，文章链接为：https://blog.csdn.net/qq_45404396/article/details/105965562

anjhon_木 2023-02-11

@坚持不懈的大白答非所问

ppsdydy2011 2020-06-30

打赏
举报

麻烦大家了。。。

xujibicool 2020-06-30

打赏
举报

基本网站都要加个请求头，直接被识别为爬虫，肯定搞不到数据


headers={
            'user-agent':'Mozilla/5.0'
}
res=requests.get(url=url,headers=headers)

本文介绍了使用Python的requests库爬取静态网页的入门方法。首先解释了静态网页的特点（内容固定、直接返回HTML源码），对比了动态网页的区别。通过5行核心代码演示了如何爬取百度首页源码，包括发送请求、处理编码和异常捕获等关键步骤。文章还提供了运行效果检查方法和新手注意事项，如遵守robots协议、控制爬取频率等。最后指出获取源码仅是第一步，后续可结合BeautifulSoup解析数据。该教程适合零基础者快速上手静态网页爬取。

爬虫一般依赖于requests库，首先通过pip或conda命令安装requests库。切换到自己环境所在的终端。输入以下命令： pipinstallrequests / pip install requests 然后在自己的环境中导入requests库看会不会报错。 importrequests 库安装没有问题后开始使用requests库进行第一个Python爬虫。目的爬取百度页面，并且将其打印出来，并消除其打印出来时可能会发生的乱码。以下给出代码： import requ...

在大数据时代，数据采集是数据分析、人工智能、商业决策的基础环节。Python 凭借简洁的语法、丰富的第三方库，成为爬虫开发的首选语言。但对于大多数初学者而言，往往停留在静态网页爬取阶段，面对当下网站普遍存在的异步加载、参数加密、IP 限制、签名校验等反爬机制时，常常束手无策。

我们平时打开网页看到的数据，在某些时候是需要记录下来的，偶尔一两个网页我们进行复制粘贴，或者手动打字都是没有问题的，但是我在经理了猎头的实习生涯之后，我发现，有时候我需要在网上查找大量的企业和公司数据，可能有几十个或者上百个，有时候还得获取各种新闻资讯材料，看到同事们也都是自己直接从网上搜索，确实很麻烦，还包括很多的网页设计的不让我们进行复制粘贴，好歹现在可以使用截图技术，进行AI识别转文字，但是依然很麻烦。这条代码非常重要，让我们的编码格式变成utf-8，如果不这样，很多网页爬出的数据会是乱码。

代码不是看出来的，而是敲出来的，欢迎关注公众号，收藏教程，跟着步骤练习爬虫，成为真正的Spider Man。在第一篇教程里(不跳步骤新手python爬虫教程(一))我们学习了安装python、运行python、下载IDE: Pycharm(代码编辑器)以及浏览器的网络请求等相关知识内容，下面紧接着开始爬虫第二篇教程的学习。步骤一：认识http、https HTTP：超文本传输协议。以明文形式...

脚本语言

37,738

社区成员

34,211

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

试试用AI创作助手写篇文章吧

+ 用AI写文章