岭回归解决多重共线性
一、引言
回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用,但是经典的最小二乘估计,必需满足一些假设条件,多重共线性就是其中的一种。实际上,解释变量间完全不相关的情形是非常少见的,大多数变量都在某种程度上存在着一定的共线性,而存在着共线性会给模型带来许多不确定性的结果。
二、认识多重共线性
(一)多重共线性的定义
设回归模型y01x12x2pxp为零的数k0,k1,k2kp使得k0近似的多重共线性。
如果矩阵X的列向量存在一组不全
k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在完全共线性,如果k0k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在
(二)多重共线性的后果
1.理论后果
对于多元线性回归来讲,大多数学者都关注其估计精度不高,但是多重共线性不可
能完全消除,而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果,在理论上称作“微数缺测性”,所以当样本容量n很小的时候,多重共线性才是非常严重的。
多重共线性的理论后果有以下几点:
(1)保持OLS估计量的BLUE性质;
(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的
情况。所以多重共线性并不是简单的自变量之间存在的相关性,也包括样本容量的大小问题。
(3)近似的多重共线性中,OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样
的性质;如果X变量的取值固定情况下,反复对样本进行取样,并对每个样本计算OLS估计量,随着样本个数的增加,估计量的样本值的均值将收敛于真实值。
(4)多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系,但在具体
取样时仍存在样本间的共线性。 2.现实后果
(1)虽然存在多重共线性的情况下,得到的OLS估计是BLUE的,但有较大的方差和协方差,
估计精度不高;
(2)置信区间比原本宽,使得接受H0假设的概率更大;
(3)t统计量不显著;
(4)拟合优度R的平方会很大;
(5)OLS估计量及其标准误对数据微小的变化也会很敏感。
2
(三)多重共线性产生的原因
1.模型参数的选用不当,在我们建立模型时如果变量之间存在着高度的 相关性,我们又没有进行处理建立的模型就有可能存在着共线性。
2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时,反映经济情况的指标有可能按着某种比例关系增长
3. 滞后变量。滞后变量的引入也会产生多重共线行,例如本期的消费水平除了受本期的收入影响之外,还有可能受前期的收入影响,建立模型时,本期的收入水平就有可能和前期的收入水平存在着共线性。
(四) 多重共线性的识别
1.直观的判断方法
(1)在自变量 的相关系数矩阵中,有某些自变量的相关系数值比较大。 (2)回归系数的符号与专业知识或一般经验相反
(3)对重要的自变量的回归系数进行t检验,其结果不显著,但是F检验确得到了显著的
通过
(4)如果增加一个变量或删除一个变量,回归系数的估计值发生了很大的变化 (5)重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF)
定义VIFj=(1Rj)其中R2j是以Xj为因变量时对其他自变量的复测定系数。一般认为如果最大的VIFj超过10,常常表示存在多重共线性。事实上VIFj=(1Rj)>10这说明
21R2j0.9。
21
21
3.特征根判定法
根据矩阵行列式的性质,矩阵行列式的值等于其特征根的连乘积。因此,当行列式|XX|≈0时,至少有一个特征根为零,反过来,可以证明矩阵至少有一个特征根近似为零时,X的列向量必存在多重共线性,同样也可证明XX有多少个特征根近似为零矩阵,X
'
'
m其中为最大的特征根,为其他的特就有多少个多重共线性。根据条件数miK
i
征根,通常认为010存在着多重共线性。
i
(五)多重共线性的处理方法
1.增加样本容量
当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本,而不存在于总体
时,通过增加样本容量可以减少或是避免线性重合,但是在现实的生活中,由于受到各种条件的限制增加样本容量有时又是不现实的。
2.剔除法
对于一些不重要的解释变量进行剔除,主要有向前法和后退法,逐步回归法。理论上这三种方法都是针对不相关的的数据而言的,在多重共线性很严重的情况下,结论的可靠性受到影响,在一些经济模型中,要求一些很重要变量必须包含在里面,这时如果贸然的删除就不符合现实的经济意义。
3.主成分法
当自变量间有较强的线性相关性时,利用p个变量的主成分,所具有的性质,如果他们是互不相关的,可由前m个主成Z1,Z2,Zm来建立回归模型。
由原始变量的观测数据计算前m个主成分的得分值,将其作为主成分的观测值,建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构,且消除了变量间相关性带来的影响
4.PLS(偏最小二乘法)
H.Wold在1975年提出的 偏最小二乘法近年来引起广泛的关注,在解决多重共线性方面,它与主成分回归法,岭回归法一样都能很好的达到目的,但偏最小二乘又与前者又有较大的区别,偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想,但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关,因而主成分与因变量在算法上关系不密切,从而导致最后主成分在实际应用中无法更好的进一步拟合因变量,偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便运算的自变量的线性组合。
5.岭回归法.
岭回归分析是1962年由Heer首先提出的,1970年后他与肯纳德合作,进一步发展了该方法,在多元线性回归模型的矩阵形式YX,参数的普通最小二乘估计为
=(X'X)1X'Y, 岭回归当自变量存在多重共线性|X'X|≈0时,给矩阵加上一个正常
系数矩阵kI,那么=(XXkI)
'
1
X'Y,当时就是普通最小二乘估计。
三、实际的应用
我们对于重庆市1987至2010年的统计数据做一个回归预测模型,选取工业总产值为因变量,固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。
设模型为Y01X12X23X34X4 (3.1)
(一) 普通的最小二乘法
对模型进行最小二乘估计得到如下的结果:
调整的可决系数R为0.995,F=1198,在置信水平为95%,自由度4,方程通过了显著性的检验,从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过,而且能源消费的系数为负,这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。
根据方差扩大因子VIF1=455.510, VIF2=68.694, VIF3=224.271, VIF4=37.372.均大于10说明存在多重共线性。
此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此,利用SPSS软件进行相关处理可以得到下表:
2
从特征值我们可以看到有两个接近于零,条件数我们可以看到最大条件数为71.989,说明存在着共线性,以上的分析说明因变量间存在着多重共线性。
(二)运用岭回归解决多重共线性
用SPSS软件的岭回归功能的语法实现岭回归,做出的结果如下:
表3.5: 岭参数K值表
K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.022974 .05000 .99450 .298761 .231025 .351029 .109212 .10000 .99286 .279395 .234139 .315824 .148780 .15000 .99135 .268288 .234093 .295846 .168122 .20000 .98984 .260456 .232912 .282446 .178951 .25000 .98824 .254302 .231210 .272489 .185418 .30000 .98652 .249140 .229240 .264570 .189368 .35000 .98466 .244625 .227127 .257967 .191744 .40000 .98265 .240562 .224938 .252270 .193079 .45000 .98050 .236833 .222713 .247230 .193695 .50000 .97822 .233363 .220477 .242684 .193798 .55000 .97581 .230101 .218244 .238524 .193528 .60000 .97327 .227009 .216026 .234672 .192980 .65000 .97062 .224062 .213829 .231075 .192222 .70000 .96786 .221240 .211658 .227690 .191305 .75000 .96501 .218527 .209517 .224485 .190265 .80000 .96206 .215912 .207406 .221437 .189132 .85000 .95903 .213385 .205328 .218526 .187927 .90000 .95591 .210938 .203284 .215736 .186667 .95000 .95273 .208564 .201273 .213056 .185366 1.0000 .94948 .206258 .199296 .210473 .184034
图3.1 岭迹图
从岭迹图上看,最小二乘的稳定性很差,当k稍微增大时,系数有较大的变化。对各个
变量分别来看,当k=0, X1、X2和X3对于变量有显著性正的影响,X4对于变量有负的影响,从岭回归的角度来看,变量X1和X3随着k的增大其系数值迅速减小最终趋于稳定,
X2随着k的增加变化不大,对于X4讲,当k逐渐增大时,由负的影响变为正的影响。
由于X1和X4的岭参数都迅速减少,两者之和比较稳定。从岭回归的角度看,X1和X4
只要保留一个就可以了。X2和X3的岭回归系数相对稳定。通过分析,决定剔除X4,对剩下的三个变量进行岭回归。把岭参数步长改为0.02,范围缩小到0.2,在SPSS中用命令生成得到如下结果:
表3.6 :步长为0.02时的岭参数值表
K RSQ X1 X2 X3 .00000 .99604 .436166 .179183 .385799 .02000 .99584 .351867 .262568 .380494 .04000 .99560 .342222 .282832 .363342 .06000 .99531 .336854 .291961 .353101 .08000 .99497 .332900 .296644 .345962 .10000 .99457 .329612 .299105 .340458 .12000 .99410 .326701 .300300 .335921 .14000 .99357 .324028 .300709 .332010 .16000 .99297 .321521 .300600 .328527 .18000 .99231 .319135 .300137 .325355 .20000 .99159 .316844 .299420 .322417
由上表可以看到,剔除了X4后岭回归系数变化幅度减小,从岭迹图看岭参数在0.12到0.20之间时,岭参数已基本稳定,当k=0.16时,R0.99297仍然很大,因而可以选取k=0.16
2
岭参数。然后给定,重新作岭回归,计算结果如下:
表3.7: k = 0.16时的岭回归
Mult R .9964780 RSquare .9929685 Adj RSqu .9919137 SE 210.6252025:
表3.8: 方差分析表
df SS MS F value Sin F Regress 3.000 125295417 41765139 941.44 .000000 Residual 20.000 887259.52 44362.976
表3.9:方程中的变量
B SE(B) Beta B/SE(B) X1 .4110191 .0098800 .3215208 41.6010169 X2 .0399873 .0017557 .3006004 22.7755604 X3 1.1311326 .0405681 .3285272 27.8823490 Constant -451.7066055 69.6480613 .0000000 -6.4855589
得到对Y对X1,X2和X3的标准化岭回归方程为:
ˆ0.3215X0.3006X0.3285X (3.2) Y123
(41.601) (22.776) (27.882 )
R20.993 F=941.44
普通最小二乘法得到的回归方程为
ˆ0.487X0.188X0.349X0.023X (3.3) Y1234
(1.582 ) (1.570) (1.617) ( -0.261)
标准化岭回归得到的T统计量都比OLS估计显著,因此岭回归得到预期的效果。
(三) 主成分分析法
同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果:
由上表可以知道,四个主成分的特征值的最大值为3.927,最小值为0.001;前两个因子的累积贡献率已经达到99.657%,故只需要保留前两个主成分。
利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法: 第一主成分T10.254X10.253X20.252X30.250X4 (3.4) 第二主成分T21.014X10.315X22.408X33.137X4 (3.5)
用Y对T1、T2做普通最小二乘法,得如下回归方程为
ˆ0.995T0.08T (3.6) Y12
因此,可以得出主成分回归方程为
ˆ0.3339X0.2769X0.4434X0.012X (3.7) Y1234
回归方程的的修正的可决系数为 0.996。
由上面的分析我们看到岭回归和主成分的所得到的结果比较接近,各个系数解释也更加的合理,符合现实意义。
五、结论
主成分法和岭回归所估计的参数,都已经不是无偏的估计,主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性,其降维的优势是明显的,主成分回归方法对于一般的多重共线性问题还是适用的,尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法,采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法,每种方法都有其适用范围, 我们应该比较其效果而选用而不是断然否定一种方法。
参考文献
[1] 何晓群.应用回归分析[M].中国人民统计大学出版社:2007,(13). [2] 钱晓莉. 基于特征值的多重共线性处理方法[J]. 统计与决策:2004,(10). [3] 白雪梅, 赵松山. 更深入地认识多重共线性[J]. 东北财经大学学报:2005,(02).
[4] 赵松山, 白雪梅. 关于多重共线性检验方法的研究[J]. 中国煤炭经济学院学报:2001,(04).[5] 高辉. 多重共线性的诊断方法[J]. 统计与信息论坛:2003,(01).
[6] 达摩达尔.N.古扎拉蒂.计量经济学[M].中国人民大学出版社:2004,(6). [ 7] 薛薇.SPSS统计分析方法及应用[M].电子工业出版社:2009,(1).
[8] 秦红兵. 多元回归分析中多重共线性的探讨与实证[J]. 科技信息:2007,(31). [9] 柳丽,魏庆钲.回归分析中多重共线性的诊断与处理[J].中国卫生统计:1994,(11). [10] John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation on
Estimates of Parameters[J]. The Journal of Financial and Quantitative Analysis:1996,(6).
[11] Mark Z. Fabrycy.Multicollinearity caused by Specification Errors[J]. Applied
Statistics:1975,(4).
[12] Nityananda sarkar.Mean square error matrix comparision of some estmators in linear
regressions with muillinearity[J].Statistics and Probability letters:1996,(10).