多重线性回归( 三 )


文章插图
式中,

多重线性回归

文章插图
为全模型的残差均方估计; q为所选模型中(包括常数项) 的自变数个数 。如果含q个自变数的模型是合适的,则其残差平方和的期望
多重线性回归

文章插图
。假定全模型的残差均方估计的期望
多重线性回归

文章插图
真,则
多重线性回归

文章插图
近似等于
多重线性回归

文章插图
,因此
多重线性回归

文章插图
的期望近似等于模型中参数的个数,即
多重线性回归

文章插图
。用
多重线性回归

文章插图
值对参数个数q绘製散点图,将显示“合适模型”的散点在直线
多重线性回归

文章插图
附近,拟合不佳的模型远离此线 。2.自变数筛选常用方法 。常用方法如下:(1) 前进法(forward selection) 。事先定一个选人自变数的标準 。开始时,方程中只含常数项,按自变数对y的贡献大小由大到小依次选入方程 。每选入一个自变数,则要重新计算方程外各自变数(剔除已选人变数的影响后) 对y的贡献,直到方程外变数均达不到选入标準为止 。变数一旦进人模型,就不会被剔除 。(2) 后退法(backward selection) 。事先定一个剔除自变数的标準 。开始时,方程中包含全部自变数,按自变数y对的贡献大小由小到大依次剔除 。每剔除一个变数,则重新计算未被剔除的各变数对y的贡献大小,直到方程中所有变数均不符合剔除标準,没有变数可被剔除为止 。自变数一旦被剔除,则不考虑进入模型 。(3) 逐步回归法(stepwise selection) 。本法区别于前进法的根本之处是每引人一个自变数,都会对已在方程中的变数进行检验,对符合剔除标準的变数要逐一剔除 。解决方案多重共线性(multi-colinearity) 是进行多重回归分析时存在的一个普遍问题 。多重共线性是指自变数之间存在近似的线性关係,即某个自变数能近似地用其他自变数的线性函式来表示 。在实际回归分析套用中,自变数间完全独立很难,所以共线性的问题并不少见 。自变数一般程度上的相关不会对回归结果造成严重的影响,然而,当共线性趋势非常明显时,它就会对模型的拟合带来严重影响 。(1) 偏回归係数的估计值大小甚至是方向明显与常识不相符 。(2) 从专业角度看对因变数有影响的因素,却不能选入方程中 。(3) 去掉一两个记录或变数,方程的回归係数值发生剧烈的变化,非常不稳定 。(4) 整个模型的检验有统计学意义,而模型包含的所有自变数均无统计学意义 。当出现以上情况时,就需要考虑是不是变数之间存在多重共线性 。多重共线性的诊断在做多重回归分析的共线性诊断时,首先要对所有变数进行标準化处理 。SPSS中可以通过以下指标来辅助判断有无多重共线性存在 。(1) 相关係数 。通过做自变数间的散点图观察或者计算相关係数判断,看是否有一些自变数间的相关係数很高 。一般来说,2个自变数的相关係数超过0.9,对模型的影响很大,将会出现共线性引起的问题 。这只能做初步的判断,并不全面 。(2) 容忍度(tolerance) 。以每个自变数作为因变数对其他自变数进行回归分析时得到的残差比例,大小用1减去决定係数来表示 。该指标值越小,则说明被其他自变数预测的精度越高,共线性可能越严重 。(3) 方差膨胀因子(variance inflation factor,VIF) 。方差膨胀因子是容忍度的倒数,VIF越大,显示共线性越严重 。VIF>10时,提示有严重的多重共线性存在 。(4) 特徵根(eigenvalue) 。实际上是对自变数进行主成分分析,如果特徵根为0,则提示有严重的共线性 。(5) 条件指数(condition index) 。当某些维度的该指标大于30时,则提示存在共线性 。共线性解决方案自变数间确实存在多重共线性,直接採用多重回归得到的模型肯定是不可信的,此时可以用下面的办法解决 。(1) 增大样本含量,能部分解决多重共线性问题 。(2) 把多种自变数筛选的方法结合起来拟合模型 。建立一个“最优”的逐步回归方程,但同时丢失一部分可利用的信息 。(3) 从专业知识出发进行判断,去除专业上认为次要的,或者是缺失值比较多、测量误差较大的共线性因子 。(4) 进行主成分分析,提取公因子代替原变数进行回归分析 。(5) 进行岭回归分析,可以有效解决多重共线性问题 。(6) 进行通径分析(path analysis),可以对应自变数间的複杂关係精细刻画 。