Python 简易爬虫入门（requests 零基础实战）

原始人用心编程 2026-04-29 22:51:56

一、前言

前面我们已经学完 Python 基础、面向对象、装饰器、多线程多进程等全套知识点。现在进入实战入门：网络爬虫。爬虫就是模拟浏览器，向网站发送请求，获取网页源代码，提取文字、图片、数据。

二、安装 requests 库

打开命令提示符 CMD 输入：

pip install requests

三、爬虫核心三步

发送请求：访问网址，拿到网页源码
解析数据：从源码里提取想要的内容
保存数据：打印、存文件、存 JSON

四、最简单爬虫：获取网页源码

import requests

# 目标网址
url = "https://www.baidu.com"

# 发送GET请求
res = requests.get(url)

# 设置编码，防止乱码
res.encoding = "utf-8"

# 打印网页源码
print(res.text)

五、请求状态码

print(res.status_code)

200：访问成功
404：页面不存在
500：服务器出错

六、模拟浏览器请求（加请求头）

很多网站拒绝裸爬虫，需要伪装成浏览器

import requests

url = "https://www.baidu.com"

# 请求头，伪装浏览器
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"
print(res.text)

七、GET 请求带参数

访问网址附带查询参数：

import requests

url = "https://www.baidu.com/s"
headers = {
    "User-Agent":"Mozilla/5.0"
}
# 搜索参数
params = {
    "wd":"Python学习"
}

res = requests.get(url, headers=headers, params=params)
res.encoding = "utf-8"
print(res.text)

八、简单提取网页标题

用字符串截取简易提取：

import requests

url = "https://www.baidu.com"
headers = {"User-Agent":"Mozilla/5.0"}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"
html = res.text

# 截取标题
start = html.find("<title>") + len("<title>")
end = html.find("</title>")
title = html[start:end]

print("网页标题：", title)

九、保存网页到本地文件

import requests

url = "https://www.baidu.com"
headers = {"User-Agent":"Mozilla/5.0"}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"

# 写入本地html文件
with open("baidu.html", "w", encoding="utf-8") as f:
    f.write(res.text)

print("网页保存成功")

十、爬虫基础规范与注意事项

不要爬取隐私数据、付费资源、涉密网站
控制爬取频率，加 time.sleep()，防止给服务器造成压力
一定要加 User-Agent 伪装浏览器
遵守网站 robots.txt 协议，合法合规练习

十一、总结与学习心得

本篇学习了 Python 简易爬虫入门：requests 库安装、GET 请求、请求头伪装、带参请求、网页源码获取、提取标题、保存网页本地文件。

...全文

96 2 打赏收藏转发到动态举报

写回复

2 条回复

切换为时间正序

请发表友善的回复…

发表回复

原始人用心编程 04-29 23:04

打赏
举报

回复

原始人用心编程 04-29 23:04

举报

回复

@原始人用心编程

内容概要：本文档是一份详细的Python爬虫入门指南，专为零基础和初学者准备。全文从实战角度讲解了Python爬虫的关键技术和操作流程，主要包括五个部分：了解网页结构、利用requests库抓取数据、借助BeautifulSoup解析页面、进行数据清理与整理以及探索爬虫攻防措施。教程采用实际案例深入浅出地阐述HTML、CSS、JS的基本概念，并详细解释requests和BeautifulSoup的具体应用方法。还涉及正则表达式的初步应用，指导读者完成一系列完整的任务。适用于希望通过系统学习掌握Web数据采集工具和技术的人群。对于希望快速上手并实际操作的小白尤其有利。使用场景及目标：适合刚开始接触自动化数据收集工作的个人开发者或学生，以及想要深入了解Web抓取技术的技术爱好者；帮助学员构建基本的爬虫理论体系和实践技能，确保能独立设计小型爬虫程序，应用于信息检索和数据分析等。

Python网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docxPython网络爬虫工程师系列培训课程(全套详细版).docx

Python编程从入门到实战完整课程代码仓库与学习指南_包含位运算加法运算性能比较基本运算符异常处理注释与多行字符串编写简易爬虫开发函数定义与调用条件判定与循环控制.zip

Python编程从入门到实战课程项目_包含位运算加法运算性能比较基本运算符异常处理注释多行字符串简易爬虫函数判定循环数据类型汉诺塔问题数组元组反转语句数组特殊创建集合寻找目标加和数.zip关于工业总线的通信协议

Python入门实战项目

新疆政法学院

151

社区成员

1,216

社区内容

发帖

与我相关

我的任务

课程设计笔记经验分享高校新疆·图木舒克市

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

英雄不问出处

试试用AI创作助手写篇文章吧

+ 用AI写文章