基于多重共线性的处理方法
第30卷 第2期2010年6月数学理论与应用
MATHEMATICALTHEORYANDAPPLICATIONSVo.l30No.2
Jun.2010
基于多重共线性的处理方法*
满敬銮 杨 薇
(中南大学数学科学与计算技术学院,长沙,410075)
摘 要 多重共线性简称共线性是多元线性回归分析中一个重要问题。消除共线性的危害一直是回归分析的一个重点。目前处理严重共线性的常用方法有以下几种:岭回归、主成分回归、逐步回归、偏最小二乘法、Lasso回归等。本文就这几种方法进行比较分析,介绍它们的优缺点,通过实例分析以便于选择合适的方法处理共线性。关键词 岭回归
主成分回归
逐步回归
偏最小二乘法
Lasso回归
BasedonMultipleCollinearityProcessingMethod
ManJingluan YangWei
(SchoolofMathematicsScienceandComputingTechnology,CSU,Changsha,410075)
Abstract Multicollinearityreferredtoascollinearityisamulti-linearregressionanalysisinaverydifficultissue.Howtoeliminatethecollinearityhazardsregressionanalysishasbeenapriority.Theliteratureathomeandabroadtodealwithseriouscollinearitymethodscommonlyusedarethefollowing:Ridgeregression,principalcomponentregres-sion,stepwiseregression,partialleastsquaresmethod,Lassoregression.Inthispaper,acomparativeanalysisofthesemethodsanddescribetheiradvantagesanddisadvantages,easytoselecttheappropriatewaystodealwithco-llinearitythroughtheexampleanalysis.Keywords Ridgeregression gression
Principalcomponentregressionmethod
Partialleastsquaresregression
Lassore-
线性回归模型是处理数据的常用方法,而多重共线性简称共线性是多元线性回归分析中一个非常棘手的问题。共线性问题最早是由R.Frish提出的。如何消除共线性的危害,一直是回归分析的一个重点。
1 多重共线性的本质
如果有k个自变量Xi(i=1,2,,,k)满足下面的条件:K,则1X1+K2X2+,KkXk+E=0它们存在共线性关系。其中K为躁声数据,且EI1K2,Kk为常数,但不同时为零:K
*
0,
]。
李俊平 教授推荐
8月27日
106
数学理论与应用
当E=0时,就是完全共线性;Ey0时,共线性越严重;Ey]时,变量之间完全不相关,E的取值范围如此之大,克制共线性是普遍存在的。如果出现完全共线性,B回归分析的参数B将无法确定。而对于高度共线性,参数尽管可以估计,但可能招致以下后果:不改变参数估计的无偏性;使参数的最小二乘估计的方差很大,从而使得对模型难以取舍;各个回归系数的值很难精确估计,甚至可能出现符号错误的现象;回归系数对样本数据的微小变化可能变得非常敏感。
2 处理多重共线性问题的方法
目前国内外文献中处理严重共线性的方法常用的有以下几种:岭回归、主成分回归、逐步回归、偏最小二乘法、Lasso回归等。
2.1 岭回归
岭回归其基本思想为:设线性回归模型为:Y=XB+E,参数的最小二乘估计为:B=Xc-1
^
XcY。如果自变量之间存在较强的多重共线性,即XcX加上一个正的常XU0,给Xc
-1
^
数矩阵k>,I为单位阵,构造XcX+的可能性大,从而避免了因XcX+-1
使得XcX+kIU0的可能性比XcXU0
^
XcXU0造成B的方差变大,故岭回归的估计量为B=
XcY,其中k为岭回归参数,k>0且为常数。
2.2 主成分回归
主成分回归是根据多元统计分析中的主成分分析原理,来处理多重共线性模型的一种参数估计方法。其基本思想:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同的侧面反映了解释变量的综合影响,并且互不相关,因此,可以将被解释变量关于这些主成分进行回归,再根据主成分与解释变量之间的对应关系,求得原回归模型的估计方程。
2.3 逐步回归分析
逐步回归分析方法是综合了逐步剔除法和逐步引入法的特点产生的方法。其基本原理为:从一个自变量出发,视自变量对因变量的影响显著性大小,从大到小引入回归方程,同时,在逐个自变量选入回归方程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性,可以从回归方程中随时予以剔除。引入一个变量或剔除一个变量,为逐步回归的一步,每步都要进行显著性检验,以便保证每次引入变量前回归方程中只包括显著性检验,这个过程反复进行,直到既无不显著变量从方程中剔除,又无显著性变量需要引入回归方程为止。
2.4 偏最小二乘回归
偏最小二乘回归的方法是基于因子的提取,使新的因子变量相互独立,满足G-M条件,
基于多重共线性的处理方法
107
分回归基础上的一种多元数据分析方法,是一种将降维空间的每个元素组成的预测矩阵与被预测矩阵间的协方差最大化的降维技术。
2.5 Lasso回归
Lasso回归是一种收缩估计方法,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。假设数据
i
,2,,,N,x=x,
y,i=1
i
T
xi1,xi2,,xi为自变量,yi为第i个观测值对N
应的响应变量,假设响应变量yi在观测值给定的情况下独立,即B^=
B^^2,,^
,Lasso估计为:1,B
A^,=argmEx
j
ij
=0,
N
Ex
j
2ij
=1,令
E
N
i=1
yi-Ai-
E
p
j=1
Bjxij
2
满足于
E
j
Bj[
t(1)
这里t\0是调节参数,此时对一切的t,有A的估计^A=y ,不失一般性,假定y =0,这样就可以省略了A,调和参数t的控制使得回归系数总体变小,若令t0=归系数缩小并趋于0,一些系数甚至就等于0。
E
j
t0就会使一些回Bj,t[
3 实例验证
本文中的数据是研究儿童心象面积与性别、年龄、身高、体重、和胸围之间的关系。性别(x1:男=1,女=2),年龄(x2:月)、身高(x3:cm)、体重(x4:kg)、胸围(x5:cm)和心象面积(y:cm^2)。数据如下:
表1
ID[**************]13
X[1**********]222
X[***********][1**********]4
X395.592.089.0168.0117.0113.0122.091.091.091.0156.0163.0130.0
X414.013.012.553.519.718.121.611.011.512.555.054.025.0
X553.552.053.582.056.055.057.348.047.050.083.079.058.0
y49.6441.4635.81100.1467.2060.0058.0035.3944.9829.5194.6687.4262.00
108
数学理论与应用
3.1 主成分回归的建模
(1)采用多重回归分析,进行共线性诊断。(2)进行主成分分析确定所需主成分数。(3)主成分回归分析。
表2 主成分回归分析模型结果ANOVA(b)
oodelRegressionResidualTotal
SumofSquares6108.187298.5266406.713
df5712
MeanSquare1221.63742.647
F28.646
Sig.0.000(a)
aPredictors:(Constant),x5,x1,x2,x3,x4bDependentVariable:y
得到因变量y与x1x2x3x4x5的标准线性回归方程为:
^
y=58.951-2.683xc.877xc.741xc.505xc.784xc1+52+53+54+55
用主成分回归分析可以处理共线性,但它没有给出因变量的信息,较岭回归与Lasso回归解释模型效果不是很好。
3.2 岭回归的建模
从岭回归运行结果(略),可以看出变量x5的岭回归系数从负值迅速变为正值,x1,x2,x3,x4的回归系数则相对稳定。剔除x5后作岭回归,由于岭参数k在0.04-0.20之间基本稳定,选择k=0.08重新作岭回归。得到标准化的岭回归方程为:
y^=-0.1068x1+0.3410x2+0.3579x3+0.2658x4
从上面的建模过程可以看出岭回归可以处理共线性,但参数k的选择主观性太强。
4 几种回归分析的比较
4.1 主成分回归、岭回归、逐步回归和偏最小二乘法的比较
主成分回归具有降维的作用,核心思想就是通过降维把多个指标化为少数几个综合指标,而尽量不改变指标体系对因变量的解释程度,在一定程度上消除了共线性的危害,其偏差由保留主成分的个数决定。主成分回归成分或因子的提取来自于相关系数矩阵XcX,它追求的是自身方差的最大化,第一主成分反映的是自变量系统变异的最大方向,但它没有考虑因变量的信息。岭回归参数的选取原则和方法存在主观性,没有明确的含义,它的参数估计量始终是有偏估计;由于岭回归要保留所有变量,因此对变量的选择要特别谨慎,但灵活运用岭回归方法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。逐步回归优于岭回归和主成分回归。偏最小二乘法与主成分回归法、岭回归法一样能达到消除共线性的目的,但它又与其它的有区别。偏最小二乘法集中了最小二乘法与主成分分析法的优点,克服了两种方法的缺点。,
基于多重共线性的处理方法
109
去寻找主成分,与因变量无关。偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便算得的自变量的线性组合。
4.2 岭回归与Lasso回归的比较
Lasso回归和岭回归分析是一种改进的最小二乘,是以放弃最小二乘的无偏性,放弃部分精确度为代价来寻求效果好且更符合实际的回归过程。Lasso是通过构造一个L1罚函数得到一个较为精练的模型,区别于岭回归使用的L2罚,使得它收缩一些系数,同时设定另一些系数为0,因此保留了子集收缩和岭回归的优点。它和岭回归一样,也是一种处理具有复共线性数据的有偏估计。虽然Lasso和岭回归所得残差平方和比最小二乘回归要大,但这样一来,它对病态数据的耐受性就远远强于最小二乘法。Lasso回归可以在参数估计的同时实现变量选择,较好的解决回归分析中的多重共线性问题,是预测性能较稳定和较好的模型。
5 小结
线性回归方程是处理数据的一种方法,很多时候不可避免的出现共线性,严重影响模型对数据的解释性,如何消除共线性很重要,因此为了有效的从数据中得到信息,就要选择合理的方法去除共线性。Lasso回归和岭回归都是有偏估计,但对共线性处理较好,主成分回归和偏最小二乘回归也可以解决共线性,对于建模的选择要针对不同的类型要选择不同的方法。
参考文献
[1]高辉.多重共线性的诊断方法[J].统计与信息论坛,2003,(1),73-76.[2]周青松.解决多重共线性问题的线性回归方法[J].山西统计,2001,(1),6-7.
[3]刘国旗.多重共线性的产生原因及其诊断处理[J].合肥工业大学学报,2001,(4),607-610.[4]Tibshitan,iR.Regressionshrinkageandselectionviathelasso[M].J.Roy.Statist.soc.ser,1996.
[5]Hoer,lA.Eandkennard,R.WRidgeRegression:BiasedEstimationforNon-orthogonalProblems[J].Techno-metrics,1970,12(1),55-67.