六 SPSSSPSS之回归分析衍生方法(图文+数据集)( 二 )


对数似然值越大代表这个模型越好
加权后的决定系数基本上都是低于原模型的,其他结果和线性回归的结果解读一样
岭回归 针对问题:数据存在共线性,非独立
岭回归是一种专门用于共线性数据分析的有偏估计方法
§有偏意味着对数据信息有所取舍
§通过丢弃部分信息,以得到更为稳定的分析结果
§实际上是一种改良的最小二乘法
§由于是有偏估计,统计检验已经居次要地位,故一般不再给出
案例:用外形指标推测胎儿周龄
现测得22例胎儿的身长、头围、体重和胎儿受精周龄,研究者希望能建立由前三个外形指标推测胎儿周龄的回归方程
数据集如下
1.00 13.00 9.20 50.00 13.002.00 18.70 13.20 102.00 14.003.00 21.00 14.80 150.00 15.004.00 19.00 13.30 110.00 16.005.00 22.80 16.00 200.00 17.006.00 26.00 18.20 330.00 18.007.00 28.00 19.70 450.00 19.008.00 31.40 22.50 450.00 20.009.00 30.30 21.40 550.00 21.0010.00 29.20 20.50 640.00 22.0011.00 36.20 25.20 800.00 23.0012.00 37.00 26.10 1090.00 24.0013.00 37.90 27.20 1140.00 25.0014.00 41.60 30.00 1500.00 26.0015.00 38.20 27.10 1180.00 27.0016.00 39.40 27.40 1320.00 28.0017.00 39.20 27.60 1400.00 29.0018.00 42.00 29.40 1600.00 30.0019.00 43.00 30.00 1600.00 31.0020.00 41.10 27.20 1400.00 33.0021.00 43.00 31.00 2050.00 35.0022.00 49.00 34.80 2500.00 36.00
我们在不做任何修正的情况下,把所有自变量和因变量放入模型进行线性回归
分析----回归----线性
发现结果逻辑上解释不上来,在身长和体重不变的情况下,受精周龄增加一岁头围会减少2.159cm,这个解释不通,所以我们考虑是不是没有把所有变量都纳入的需要,是不是有变量没有意义,我们下一步使用逐步回归模型,观察结果
使用向前法、向后法、逐步法观看结果
向前法结果
向后法结果
逐步法结果
发现逐步回归模型也不能解决我们的问题,我们先来查看一下变量之间的相关性
分析----相关----双变量
发现变量之间显著相关,现在使用岭回归来解决回归问题
岭回归分析在SPSS中没有可供点击的对话框,我们需要写一段超级简单的语法来调用SPSS的宏 。
SPSS公司可能没有提供人机交互的对话框,于是他们提供了一段宏程序,存储路径为“你的SPSS安装目录\SPSS\\20\\ \Ridge .sps” 。
我们在SPPS中,点击打开新建语法
输入代码之后执行
INCLUDE 'C:\Program Files\IBM\SPSS\Statistics\20\Samples\Simplified Chinese\Ridge Regression.sps'.RIDGEREG ENTER= long touwei weight/dep = y / inc = 0.01 .

六  SPSSSPSS之回归分析衍生方法(图文+数据集)

文章插图
查看结果1、不同K值下自变量的标准化回归系数;2、岭轨图,3、R方的变化图 。
随着K的增大可以理解为我们在舍弃更多的信息,RSQ随着K的增大而减少,证明模型信息量在损失,后面为三个系数在变化,找其稳定值
查看岭迹图找到合适K值
选择一定K值下的标准化回归系数,选择的原则是各个自变量的标准化回归系数趋于稳定时的最小K值 。因为K值越小我们引入的单位矩阵就少,偏差就小 。
想获得非标准的偏回归系数、t值和p值呢(可以参考下面这篇文章链接)
完整的岭回归分析做完了,各个自变量的标准化回归系数合理了
假如我们研究的问题只是做预测,看模型的决定系数,发现其很高,其实可以忽略共线性问题,直接用来预测即可
但是假如我们要看自变量的影响,就必须解决变量之间的共线性
最优尺度回归
样本量大结果才稳定,灵敏度高,当样本少的时候结果不稳定