2022(秋)实验三:爬虫图片

计212汤佳丽 学生 2022-11-20 17:14:27

1 实验目的

  1. 理解抓取网页的含义和URL基本构成;
  2. 掌握类和函数及模块的设计与实现;
  3. 掌握网络爬虫原理。

2 实验内容

本实验将利用python程序抓取网络图片,完成可以批量下载一个网站的照片。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。

3 实验知识点

  1. Python基本语法;
  2. 网络爬虫基本原理;
  3. 解析HTML页面及URL;
  4. 爬取Web页面;
  5. 使用正则表达式提取关键信息对内容进行过滤。

4 实验时长

    8学时。

5 实验环境

  1. python3;
  2. Spyder。

6 实验过程

6.1 原理探究

1、网络爬虫

    即Web Spider,网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

网络爬虫的基本操作是抓取网页。

2、浏览网页过程

    抓取网页的过程其实和读者平时使用浏览器浏览网页的道理是一样的。打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。浏览器的功能是将获取到的HTML代码进行解析,然后将原始的代码转变成我们直接看到的网站页面。

    URL的格式由三部分组成: 

  • 第一部分是协议(或称为服务方式)。
  • 第二部分是存有该资源的主机IP地址(有时也包括端口号)。
  • 第三部分是主机资源的具体地址,如目录和文件名等。

    第一部分和第二部分用“://”符号隔开,

    第二部分和第三部分用“/”符号隔开。

    第一部分和第二部分是不可缺少的,第三部分有时可以省略。

    爬虫最主要的处理对象就是URL,它根据URL地址取得所需要的文件内容,然后对它 进行进一步的处理。

    因此,准确地理解URL对理解网络爬虫至关重要。

 

3、利用urllib2通过指定的URL抓取网页内容

    在Python中,我们使用urllib2这个组件来抓取网页。
    urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。

    它以urlopen函数的形式提供了一个非常简单的接口。

 

4、HTTP的异常处理问题

    当urlopen不能够处理一个response时,产生urlError。
    不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。
    HTTPError是urlError的子类,通常在特定HTTP URLs中产生。

 

5、Timeout 设置(超时设置)

    在Python2.6前,urllib2 的 API 并没有暴露 Timeout 的设置,要设置 Timeout 值,只能更改 Socket 的全局 Timeout 值。在 Python 2.6 以后,超时可以通过 urllib2.urlopen() 的 timeout 参数直接设置。

6.2 项目结构

    项目包含两个文件,pet_spider.py和main_file.py。其中pet_spider.py文件定义了类PetSpider,包含3个方法分别是get_html_content下载网页源代码、get_urls获得网页图片urls、 download_images下载图片。main_file.py文件定义了主函数main,用于调用PetSpider类。

6.3 根据给定的网址来获取网页源代码

    根据给定的网址来获取网页详细信息,得到的html就是网页的源代码。

    get_html_content函数主要功能是递归下载网页源代码。注意将byte类型转换成string类型,其中re.findall的含义是返回string中所有与pattern(正则表达式)相匹配的全部字串,返回形式为数组。

    新建pet_spider.py。

    首先实现获取网页源代码的函数:

 

6.4 从网页源代码中过滤所有图片urls

    获取网页源代码后,从网页源代码中匹配过滤图片的urls,制作进度条,从文件中读出网页图片内容,最后将所有urls写入文件。

    继续向pet_spider.py文件中添加如下代码:

 

现将所有图片url过滤出来。

6.5 将图片下载保存在本地

    将图片下载到本地,首先将urls字符串保存到列表中,遍历列表中的urls,将下载的图片保存在文件中。

    继续向pet_spider.py文件中添加如下代码:

6.6 主函数

    新建main_file.py文件。代码如下:

 最后运行主函数实现图片爬虫。

 

...全文
156 回复 打赏 收藏 举报
写回复
回复
切换为时间正序
请发表友善的回复…
发表回复
发帖
Python程序设计基础

2290

社区成员

软件工程老师
python 高校 江苏省·南通市
社区管理员
  • juking@ntu
加入社区
帖子事件
创建了帖子
2022-11-20 17:14
社区公告
暂无公告