1,040
社区成员




这是我参加朝闻道知识分享大赛的第15篇文章
一、SPSS软件
SPSS软件是当前世界上应用最广泛的统计软件之一,特别是对于非统计学专业人员,其菜单化操作、图表化输出的风格体现了其自动化、智能化操作平台发展的成果。使用SPSS软件,我们几乎可以完全自动的自变量的预变换、筛选、模型优化、检验等工作。因此,SPSS软件是一个深受广大用户的喜爱的强大的统计工具。
信息技术的飞速发展,产生了海量的数据。如何管理、分析和使用大数据是当前市场迫切的需求,从全国大学生数学建模竞赛近年来的频频出现的大数据相关的题目也可以感受的到。作为非统计学专业的大专生,对于复杂的数据统计分析方法和工具接触并不很多,如何让这些学生快速入门和掌握一门有利的数据分析软件工具、完成数据分析和建模等任务就是我们近几年来数学建模培训教学研究的重点。
二、2019年全国大学生数学建模竞赛D题简述
空气污染对生态环境和人类健康危害巨大,通过对PM2.5等“两尘四气”浓度的实时监测可以及时掌握空气质量,对污染源采取相应措施。由于国控点监测数据的实时性和经济性不足,而自主研发时效性和经济性并优的微型空气质量检测仪的监测数据可能受到温度等气象学因素的影响,以及设备本身随着使用时间的延长可能产生监测误差,因此我们需要对自建点监测数据进行检验和校正,提高其精确度。我们首先需要对自建点数据与国控点数据进行描述性统计分析和探索性分析,寻找导致自建点数据与国控点数据差异的因素,最后建立模型对自建点数据进行校准和预测。
监测数据可能受到温度等气象学因素的影响,我们通过相关分析探索变量之间的关系,再通过散点图初步发现变量之间的回归关系,进而采用多元回归分析进行建模,并对模型进行残差分析。我们以竞赛提供的监测数据为例,使用SPSS23进行数据分析和建模。
三、SPSS23数据分析和建模应用
(1)建立数据文件
竞赛提供的Excel数据文件,SPSS软件可以直接读取Excel数据文件,需要对变量进行适当的定义,从而生成完善的SPSS数据文件。
(2)相关分析
SPSS软件中提供了“相关”子菜单,其中双变量(Bivariate)过程可以实现连续性变量的相关分析。
操作过程:
(1)“分析”→“相关”→“双变量”,打开“双变量相关”对话框;(2)将“PM2.5”与“温度”“湿度”“风速”“压强”“降水量”选入“变量”列表框中;(3)单击“确定”按钮。
结果分析:
相关分析结果如表1所示,PM2.5与风速和温度存在负相关关系(Pearson r<0,P<0.001),温度的增大,PM2.5有减小的趋势;PM2.5与压强、降水量和湿度有正相关关系(Pearson r>0,P<0.001),随着压强或降水量或湿度的增大,PM2.5有增大的趋势。
由相关分析的结果,PM2.5等监测变量指标与温度等气象学变量有相关关系,因此,提示我们进行下一步的多元回归分析。
(3)多元线性回归分析
SPSS软件中提供了“回归”子菜单,其中线性(Linear)过程可以实现多元线性回归分析。
第一步:做散点图,观察变量之间的趋势。因为有多个变量,所以做散点图矩阵。(1)“图形”→“图表建构程序”,打开“图表建构程序”对话框,选择“散点”,将右侧出现的散点图矩阵图表拖入画布中,单击“确定”,绘制散点图。(2)在输出文件中双击图形区域,进入编辑状态,选择“元素”→“增加趋势线”,在图形中添加回归线。 从散点图矩阵可以看到,PM2.5与风速和温度存在负相关关系,PM2.5与压强、降水量和湿度有正相关关系,与相关分析结果一致,并且变量之间呈现一定的直线关系,因此,提示我们进行下一步的多元线性回归分析。
第二步:多重线性回归分析,如图1。(1)“分析”→“回归”→“线性”,打开“线性回归”对话框;(2)将“PM2.5_1”选入“因变量”列表框中,将“PM2.5”“温度”“湿度”“风速”“压强”“降水量”选入“自变量”列表框中;(3)在“方法”下拉列表框中选择“逐步”;(4)单击“确定”按钮。
由于进行了变量筛选,SPSS首先给出了每一步模型的输入/移出变量,展示了变量的筛选过程,如表2(迭代步骤较多,仅展示前两个模型的结果)。第二,SPSS给出了模型的汇总,报道了决定系数R、R方和调整的R方,R方的值越接近于1说明模型的拟合效果越好,如表3。第三,SPSS给出了模型的ANOVA检验,报道了变异的分解、自由度、均方和F值、P值,P<0.05说明模型有统计学意义,如表4。最后,SPSS给出了模型的参数,以及各个系数的假设检验,从而我们可以写出所建立的多元线性回归方程。
第三步:残差分析,首先对残差的独立性进行检验,可以在上述回归过程中“统计量”子对话框汇总选择“Durbin-Watson检验”,如图2。输出结果如表5,Durbin-Watson值为1.980,通过查统计表,与界值进行比较说明满足独立性。然后,SPSS软件的“图形”模块可以输出残差直方图和P-P图,从图中可以看出,模型的残差没有严重的偏离,基本服从正态分布。因此,由残差分析说明所建立的模型具有较好的拟合效果。