数据分析记录(六)–多元线性回归在SPSS中的实现(步骤及指标含义)
本文仅作为自己的学习记录以备以后复习查阅
在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。
以上这段解释来自百度百科,我觉得解释的已经比较清楚了,就直接这样放上来,下面放一下SPSS进行多元线性回归的步骤。
一 明确自变量和因变量
多元线性回归的基本原理和基本计算过程与一元线性回归相同,但由于自变量个数多,计算相当麻烦,一般在实际中应用时都要借助统计软件。
这里自变量要求不少于两个,因变量要求是连续的。
二 软件分析(SPSS)
准备好自己的数据,我这里用两个自变量和一个因变量做例子:
选择分析选项卡–>回归–>线性:
分别将因变量和自变量填入对应的位置:
在统计选项中勾选德宾-沃森和共线性诊断:
在图选项卡中将ZPRED选入X,ZRESID选入Y:
勾选标准化残差图里的直方图和正态概率图:
全部设置好后点击确定:
三 查看R方和显著性
**R方:**这里主要是看调整后R方,例如0.698–代表这两个自变量可以对因变量进行69.8%的解释,实际情况下大于0.3就能用了,一些前沿的研究0.1以上就代表能接受。
显著性::例如0.001,意味着自变量对因变量有着(显著/极显著/无显著性 )影响。(图中显示的.000并不代表它是0,是因为数值太小未显示完全,可以双击查看具体数值,我们在这里只要知道它是小于0.001的就好)不同的自变量对因变量的显著性影响是不同的,如果分析出来发现有的具有显著影响而有的变量没有可以考虑更换变量。
四 看DW值和VIF
德宾-沃森-DW:DW值在1.5-2.5之间都是可以接受的,最理想的状态是2,非常好的是1.97-2.03之间,DW值主要用于表明自相关关系,如果不在这个范围之间,代表这两个自变量之间存在自相关。
VIF:检验共线性的数值,严格的情况下要在5以下,在正常的研究中一般在30以下。
五 看残差分布
**残差分布:**理想状态下是处于正态分布的,残差的意思就是除了这两个自变量以外,肯定是有其他的对因变量的影响因素,除去这两个变量之外剩下的(变量)就叫残差,因为是随机的,所以很难严格的计算它。
看P-P图的点是否围绕着渐近线分布,如果是的话那么数据就服从正态分布。
以上!!!!