Python 简易爬虫入门(requests 零基础实战)

原始人用心编程 2026-04-29 22:51:56

一、前言

前面我们已经学完 Python 基础、面向对象、装饰器、多线程多进程等全套知识点。现在进入实战入门:网络爬虫。爬虫就是模拟浏览器,向网站发送请求,获取网页源代码,提取文字、图片、数据

二、安装 requests 库

打开命令提示符 CMD 输入:

pip install requests

三、爬虫核心三步

  1. 发送请求:访问网址,拿到网页源码
  2. 解析数据:从源码里提取想要的内容
  3. 保存数据:打印、存文件、存 JSON

四、最简单爬虫:获取网页源码

import requests

# 目标网址
url = "https://www.baidu.com"

# 发送GET请求
res = requests.get(url)

# 设置编码,防止乱码
res.encoding = "utf-8"

# 打印网页源码
print(res.text)

五、请求状态码

print(res.status_code)
  • 200:访问成功
  • 404:页面不存在
  • 500:服务器出错

六、模拟浏览器请求(加请求头)

很多网站拒绝裸爬虫,需要伪装成浏览器

import requests

url = "https://www.baidu.com"

# 请求头,伪装浏览器
headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"
}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"
print(res.text)

七、GET 请求带参数

访问网址附带查询参数:

import requests

url = "https://www.baidu.com/s"
headers = {
    "User-Agent":"Mozilla/5.0"
}
# 搜索参数
params = {
    "wd":"Python学习"
}

res = requests.get(url, headers=headers, params=params)
res.encoding = "utf-8"
print(res.text)

八、简单提取网页标题

用字符串截取简易提取:

import requests

url = "https://www.baidu.com"
headers = {"User-Agent":"Mozilla/5.0"}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"
html = res.text

# 截取标题
start = html.find("<title>") + len("<title>")
end = html.find("</title>")
title = html[start:end]

print("网页标题:", title)

九、保存网页到本地文件

import requests

url = "https://www.baidu.com"
headers = {"User-Agent":"Mozilla/5.0"}

res = requests.get(url, headers=headers)
res.encoding = "utf-8"

# 写入本地html文件
with open("baidu.html", "w", encoding="utf-8") as f:
    f.write(res.text)

print("网页保存成功")

十、爬虫基础规范与注意事项

  1. 不要爬取隐私数据、付费资源、涉密网站
  2. 控制爬取频率,加 time.sleep(),防止给服务器造成压力
  3. 一定要加 User-Agent 伪装浏览器
  4. 遵守网站 robots.txt 协议,合法合规练习

十一、总结与学习心得

本篇学习了 Python 简易爬虫入门:requests 库安装、GET 请求、请求头伪装、带参请求、网页源码获取、提取标题、保存网页本地文件。

...全文
27 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
  • 打赏
  • 举报
回复
  • 举报
回复
@原始人用心编程

151

社区成员

发帖
与我相关
我的任务
社区描述
这里专为新疆政法学院的探索者而建,英雄不问出处。起跑线是起点,热忱与坚持为加速器,无论bug缠身的项目,还是攻克的算法顿悟,每滴汗水皆被珍藏。执炬前行,终将照亮彼此峰顶,我们携手同行。
课程设计笔记经验分享 高校 新疆·图木舒克市
社区管理员
  • 雲中203
  • SHAO060706
  • 三叶草.
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告

英雄不问出处

试试用AI创作助手写篇文章吧