2023软工K班个人编程任务

戴雨晴102101211 2023-09-14 23:25:30

链接：https://github.com/dai102101211/-/tree/main

一、PSP表格

PSP2.1	Personal Software Process Stages	预估耗时(分钟)	实际耗时(分钟）
Planning	计划	40	30
· Estimate	· 估计这个任务需要多少时间	40	30
Development	开发	900	1040
· Analysis	· 需求分析 (包括学习新技术)	200	300
· Design Spec	· 生成设计文档	60	40
· Design Review	· 设计复审	20	30
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	20	30
· Design	· 具体设计	200	240
· Coding	· 具体编码	180	180
· Code Review	· 代码复审	60	40
· Test	· 测试（自我测试，修改代码，提交修改	160	180
Reporting	报告	120	100
· Test Report	· 测试报告	30	20
· Size Measurement	· 计算工作量	30	30
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	60	50
	合计	1060	1170

二、任务要求的实现

(2.1) 项目设计与技术栈。从阅读完题目到完成作业，这一次的任务被你拆分成了几个环节？你分别通过什么渠道、使用什么方式方法完成了各个环节？列出你完成本次任务所使用的技术栈。

本次任务分为六个环节，分别是网页处理、多页弹幕提取合并、数据处理与保存、数据分析与统计、数据整理与可视化
1.网页处理：使用Python的爬虫库（如re，time，requests）以及Edge的处理库from msedge.selenium_tools import EdgeOptions, Edg来获取b站页面的HTML
2.多页弹幕提取合并：解析HTML的BV号，并转化为oid号，得到前300个视频弹幕网址
3.数据处理与保存：将数据弹幕数据的时间与数据文本使用csv库保存到csv文件中，为下一步数据分析与统计做准备
4.数据分析与统计：用python的数据库（如pandas库）进行读文件，运用collections 库与csv库进行弹幕数量前20的统计
5.数据整理与可视化：运用jieba、wordcloudmatplotlib.pyplot进行弹幕数据统计，词云图的绘画

（2.2）爬虫与数据处理。说明业务逻辑，简述代码的设计过程（例如可介绍有几个类，几个函数，他们之间的关系），并对关键的函数或算法进行说明。

我将数据保存前的步骤，与数据结果分析，分为两个界面进行编写，所以有两个主函数，四个函数，分别是进行网页获取，弹幕分析，弹幕数量前20的整理，与词云图的生成

网页提取HTML，得到BV号
运用主函数的网页html链接，调用get_bv函数进行对edge浏览器中的b站网页BV提取，并对提取到的BV进行去重，得到真正需要爬虫的网页信息
利用BV号，得到oid号，并进行弹幕数据分析
先提取前300个视频，再利用上图get_bv得到的BV号放入合适的位置，构造弹幕请求地址，再利用requests库，向b站该网址进行请求信息，最终利用json提取到网址内oid信息，并用正则解析300个网页弹幕的时间与弹幕文本
收集数据
由上图已知弹幕信心，用csv库将弹幕时间与文本数据写入csv文件中
数据分析与可视化
将csv中数据读出，再用Counter进行数据的数量处理，进一步得出弹幕数量前20的csv文件，最后将弹幕句子进行拆解，得到词云图

(2.3)数据统计接口部分的性能改进。记录在数据统计接口的性能上所花费的时间，描述你改进的思路，并展示一张性能分析图

(2.4) 数据结论的可靠性。介绍结论的内容，以及通过什么数据以及何种判断方式得出此结论

利用Counter得出弹幕数量前20的csv，得出除去数字，大部分是坚持抵制日本排污，要保护海洋；并且这个数据是基于b站的综合排序前300个视频得出的弹幕数据，所以数据庞大，即具有可靠性

(2.5) 数据可视化界面的展示。在博客中介绍数据可视化界面的组件和设计的思路。

利用jieba，wordcloud，matplotlib.pyplot进行弹幕拆解，词云图的制作，以及词云图保存

三、心得体会

这次爬虫，是我从来没有接触过的东西，在短短的10天里，学到了许多，如：python的使用，爬虫的函数，数据的采集，
词云图制作等
爬虫：本次实践，意识到了edge与谷歌的网站区别，edge的爬虫有一个属于自己的库进行读取网页html，而谷歌无需；并且在爬虫时，遇到了b站的反爬虫机制，这个问题困扰我的时间最久；也因为这个反爬虫机制，导致每次爬虫视频数量可能不会相同
数据解析保存：这次作业让我知道了数据分析有很多方法，在这里头我使用正则re，虽然正则要时间与文本一起读取才可，而xpath与css虽然可以单独读取文本，但是xpath与css形成的csv数据处理起来较麻烦；这也是性能较低的原因
数据解析保存：词云图也是很神奇
我会再继续努力，在这个方面再学习，争取学到更多知识

...全文