多重共线性的逐步回归检验分析
重庆三峡学院学报——
2006年第3期 第22卷——No.3. 2006 Vol.22.
多重共线性的逐步回归检验分析
杨 有
1,2
李晓虹
1
(1.重庆师范大学数学及计算机科学学院,重庆 400047; 2.北京航空航天大学计算机学院数字媒体实验室,北京 100083)
摘 要:通过国家财政逐步回归模型实例,本文分析了自变量选取原则,阐明了变量筛选的依据,并在逐步回归具体步骤中,重点描述了多重共线性的解决过程,最后利用积矩相关系数,对多重共线性问题的解决结果进行分析,并给出了合理的实际意义。
关键词:多重共线性;逐步回归;偏F检验;积矩相关系数
中图分类号:F224.7 文献标识码:A 文章编号:1009-8135(2006)03-0039-03
1 概述
回归分析刻画了变量之间的近似函数关系,是统计分析的重要方法,在各行各业有着广泛的应用。对于p个自变量的多元线性回归模型:Y=β0+β1X1+β2X2+
其基本假设是各自变量X1,X2,
如果模型(1)中各自变量之间存在多重共线性,则可能导致:(1)该模型的普通最小二乘(OLS)参数估计量为βl=(XTX)−1XTY,如果自变量之间存在完全共线性,即存在常数C0,C1,
l。则(XTX)不存在,无法得到参数的估计量β(2)在一般共线性或称近似共线性下,虽然可以得到OLS
−1
l=σ2(XTX)−1可以看出,法参数估计量,但是从参数估计量的方差表达式Covβ由于此时XTX≈0,引起(XTX)−1主
()
对角线元素较大,从而使参数估计值的方差增大,OLS参数估计量失效。(3)如果模型(1)中两个自变量具有线性相关性,例如X1和X2,那么它们中的一个变量可以由另一个变量来表征。这时,X1和X2前的参数就不能反映各自与因变量之间的结构关系,而是反映它们对因变量的共同影响。所以自变量对应的参数已经失去应有的经济含义。(4)由于多重共线性的存在,使参数估计值的方差增大,也使方差扩大因子VIF(Variance Inflation Factor)变大,这样,一方面,使t统计量的临界值增大,拒绝域变小,导致通过样本
收稿日期:2006-01-23
作者简介:杨 有(1965-),男,重庆人,博士研究生,重庆师范大学数学及计算机科学学院讲师。 基金项目:重庆师范大学科研项目(05XLY004)。
-39-
的推断,将重要的自变量排除在模型之外。
不少的文献提出了多重共线性的解决方案。文献[1]从不同的方面给出了多重共线性的定义,阐明了多重共线性的本质,并总结了解决办法。文献[2]通过对OLS的改进,使用岭回归方法建立了一个模型实例。文献[3]运用MATLAB工具,将一个存在多重共线性的多元统计问题影射为一个线性可分问题,然后用一般回归神经网络进行逼近。
本文根据文献[4]提供的数据,以国家工农业总产值、建筑业总产值、社会商品零售总产值、人口总数和受灾面积共六个因素为自变量,以国家财政收入为因变量,应用逐步回归分析方法建立国家财政收入模型。在该实例中,分析了自变量选取原则,阐明了变量筛选的依据,并在逐步回归具体步骤中,重点描述了多重共线性的解决过程,最后利用积矩相关系数,对多重共线性问题的解决结果进行分析。
2 逐步回归模型实例 2.1 变量选取
在使用回归分析建立模型时,遇到的一个重要问题就是自变量的选择问题。一方面为获取全面信息,总希望模型中包含的自变量尽可能多;另一方面,考虑到获取很多自变量的观测值的费用和实际困难,则希望模型中包含的变量是最重要的、且尽可能地少。理论上可以证明[5]:当自变量数目过大时,模型计算复杂并且往往会扩大估计方差,降低模型的精度。因此,最优的线性回归模型应理解为:(1)该模型中包含所有对因变量有显著影响的自变量;(2)该模型中包含的自变量个数尽可能地少;(3)当有几个模型都满足这两方面的要求时,方差
σ2的无偏估计中以S
2
判断某个变量是否可以从模型中剔除时,我们首先要问的问题是:这个变量对因变量的影响是否显著?解决该问题的正规方法是偏F检验。
对于模型(1),如果从该模型中剔除自变量xi,得到由p−1个自变量组成的减模型:
y=β0+β1x1+
设式(1)的复相关系数的平方和为R2,式(2)的复相关系数的平方和为Ri2,定义∆Ri2=R2−Ri2。则若∆Ri2接近为零,就说明自变量xi对因变量y没
2
有显著影响;而∆Ri越大,就说明自变量xi对因变
量y有其它自变量不可替代的作用。这个过程相当于检验假设:H0:∆Ri2=0,H1:∆Ri2≠0,这种检验称为偏F检验,它是变量筛选的依据。
表1 1989年至2003
2.3逐步回归模型和共线性解决过程 逐步回归法是向前回归法和向后回归法的一种结合。其基本思想是:将变量一个个地引入,引入的条件是该变量的偏F检验是显著的。同时,每引入一个新变量后又要对老变量逐个检验,将变得不显著的变量从回归模型中剔除。
预先给定F进和F出,且F进>F出,则逐步回归法的具体计算步骤为:①p个自变量xi分别与因变量
l(0)+βl(0)x,对它们进行Fy建立回归模型:y=βii0i检验,得Fi中最大的那个值,定义为:FL1=max{Fi},
i
(a)如果FL1
所有自变量线性无关;(b)如果FL1≥F进,引入xL1,
l(1)+βl(1)x
(3)并建立回归方程: