程序设计实训 - 题目 20 爬虫

2019301248-侯星宇 2022夏-程序设计实训 2022-07-29 23:52:35

程序设计实训 - Python

题目 20

代码实现

# NPU 程序设计实训 HW20 爬虫
import time
import requests
from bs4 import BeautifulSoup


def crawler(book_list):
    sort_list = []
    for page in range(1, 6):  
        url = f'https://www.qidian.com/rank/yuepiao?style=1&page={page}'
        headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/'
                                 '87.0.4280.66 Safari/537.36'}
        ret = requests.get(url, headers=headers).text
        soup = BeautifulSoup(ret, "html.parser")
        books = soup.find_all(**{'data-eid': "qd_C40"})
        for book in books:
            book_name = book.get_text()
            if book_name in book_list:
                sort_list.append(book_name)
    return {book_name:index+1 for index, book_name in enumerate(sort_list)}

结果展示

# 函数测试
book_list = ["光阴之外", "我已不做大佬好多年", "这游戏也太真实了"]
print(crawler(book_list))

结果如图

...全文

646 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

CSDN-Ada助手 2023-01-13

打赏
举报

您可以前往 CSDN问答-Python 发布问题, 以便更快地解决您的疑问

通过分析页面中的一篇文章，提取文章名、文章URL、文章的点击数、文章评论数等信息。观察图中的数据，可以看到click111757611后对应的值为第一篇博客的点击数，comment111757611对应的值为第一篇博客的评论数，以此类推，每篇博客的点击数与评论数都可以在该数据中找到，因此可以通过该数据使用正则表达式提取博客点击数和评论数。等待程序运行完成后，进入“D:\scrapy_project\image”目录中，会发现有一个名为full的文件夹，打开该文件夹，将看到爬取到的图片，如图所示。

项目名称：java爬虫项目技术选型：Java、Maven、Mysql、WebMagic、Jsp、Servlet项目实施方式：以认知java爬虫框架WebMagic开发为主，用所学java知识完成指定网站的数据爬取解析，并使用Servlet和Jsp展示到页面实训环境：一人一机，边讲边练实训简介：本次实训的主要目的是增强学生对于WebMagic框架和Servlet的了解，并结合所学的理论知...

第一节：什么是网络爬虫？ 1. 爬虫的实际例子搜索引擎【百度、谷歌、360搜索等】其实在你搜索关键字之前就有成千上百的爬虫从各地爬取内容进行存储，在你输入关键字后，百度服务器会把爬取的内容与你关键字相关的内容进行汇总呈现。伯乐在线惠惠购物助手历史价格就是爬虫从很久前就开始爬取汇总获得的。数据分析与研究【数据冰山-知乎专栏】 2. 什么是网络爬虫？通俗来讲，爬虫就是一个模拟人类请求网站行为的程序。可以自动请求网页，将数据抓取下来，然后使用一定的规则提取有价值的数据

20194220 2019-2020-2 《Python程序设计》实验四报告课程：《Python程序设计》班级： 1942姓名：梁勇学号：20194220实验教师：王志强实验日期：2020年6月7日必修/选修：公选课1.实验内容Python综合应用：爬虫、数据处理、可视化、机器学习、神经网络、游戏、网络安全等我选择了，爬虫获取数据2. 实验过程及结果首先看书了解爬虫爬虫的原理是从一个链接开始发...

书名：Python程序设计实践教程定价：29.8ISBN：9787115532602作者：储岳中薛希玲版次：*1版出版时间：2020-04内容提要：本书是Python语言程序设计的配套实践教材，分为三部分，分别是*一部分：习题解答，包括13章；*二部分：实验指导，包括16个实验；第三部分：综合实训，包括4个实训案例。并且还附有Python常见调试错误和全国高等学校（安徽校区）计算机水平考试《Py...

西工大网安实践教学社区

社区成员

195

社区内容

发帖

与我相关

我的任务

python安全linux 高校

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章