基于多重共线性的处理方法

01-10

第30卷第2期2010年6月数学理论与应用

MATHEMATICALTHEORYANDAPPLICATIONSVo.l30No.2

Jun.2010

基于多重共线性的处理方法*

满敬銮杨薇

(中南大学数学科学与计算技术学院,长沙,410075)

摘要多重共线性简称共线性是多元线性回归分析中一个重要问题。消除共线性的危害一直是回归分析的一个重点。目前处理严重共线性的常用方法有以下几种:岭回归、主成分回归、逐步回归、偏最小二乘法、Lasso回归等。本文就这几种方法进行比较分析,介绍它们的优缺点,通过实例分析以便于选择合适的方法处理共线性。关键词岭回归

主成分回归

逐步回归

偏最小二乘法

Lasso回归

BasedonMultipleCollinearityProcessingMethod

ManJingluan YangWei

(SchoolofMathematicsScienceandComputingTechnology,CSU,Changsha,410075)

Abstract Multicollinearityreferredtoascollinearityisamulti-linearregressionanalysisinaverydifficultissue.Howtoeliminatethecollinearityhazardsregressionanalysishasbeenapriority.Theliteratureathomeandabroadtodealwithseriouscollinearitymethodscommonlyusedarethefollowing:Ridgeregression,principalcomponentregres-sion,stepwiseregression,partialleastsquaresmethod,Lassoregression.Inthispaper,acomparativeanalysisofthesemethodsanddescribetheiradvantagesanddisadvantages,easytoselecttheappropriatewaystodealwithco-llinearitythroughtheexampleanalysis.Keywords Ridgeregression gression

Principalcomponentregressionmethod

Partialleastsquaresregression

Lassore-

线性回归模型是处理数据的常用方法,而多重共线性简称共线性是多元线性回归分析中一个非常棘手的问题。共线性问题最早是由R.Frish提出的。如何消除共线性的危害,一直是回归分析的一个重点。

1 多重共线性的本质

如果有k个自变量Xi(i=1,2,,,k)满足下面的条件:K,则1X1+K2X2+,KkXk+E=0它们存在共线性关系。其中K为躁声数据,且EI1K2,Kk为常数,但不同时为零:K

]。

李俊平教授推荐

8月27日

106

数学理论与应用

当E=0时,就是完全共线性;Ey0时,共线性越严重;Ey]时,变量之间完全不相关,E的取值范围如此之大,克制共线性是普遍存在的。如果出现完全共线性,B回归分析的参数B将无法确定。而对于高度共线性,参数尽管可以估计,但可能招致以下后果:不改变参数估计的无偏性;使参数的最小二乘估计的方差很大,从而使得对模型难以取舍;各个回归系数的值很难精确估计,甚至可能出现符号错误的现象;回归系数对样本数据的微小变化可能变得非常敏感。

2 处理多重共线性问题的方法

目前国内外文献中处理严重共线性的方法常用的有以下几种:岭回归、主成分回归、逐步回归、偏最小二乘法、Lasso回归等。

2.1 岭回归

岭回归其基本思想为:设线性回归模型为:Y=XB+E,参数的最小二乘估计为:B=Xc-1

XcY。如果自变量之间存在较强的多重共线性,即XcX加上一个正的常XU0,给Xc

-1

数矩阵k>,I为单位阵,构造XcX+的可能性大,从而避免了因XcX+-1

使得XcX+kIU0的可能性比XcXU0

XcXU0造成B的方差变大,故岭回归的估计量为B=

XcY,其中k为岭回归参数,k>0且为常数。

2.2 主成分回归

主成分回归是根据多元统计分析中的主成分分析原理,来处理多重共线性模型的一种参数估计方法。其基本思想:利用主成分分析将解释变量转换成若干个主成分,这些主成分从不同的侧面反映了解释变量的综合影响,并且互不相关,因此,可以将被解释变量关于这些主成分进行回归,再根据主成分与解释变量之间的对应关系,求得原回归模型的估计方程。

2.3 逐步回归分析

逐步回归分析方法是综合了逐步剔除法和逐步引入法的特点产生的方法。其基本原理为:从一个自变量出发,视自变量对因变量的影响显著性大小,从大到小引入回归方程,同时,在逐个自变量选入回归方程中,如果发现先前被引入的自变量在其后由于某些自变量的引入而失去其重要性,可以从回归方程中随时予以剔除。引入一个变量或剔除一个变量,为逐步回归的一步,每步都要进行显著性检验,以便保证每次引入变量前回归方程中只包括显著性检验,这个过程反复进行,直到既无不显著变量从方程中剔除,又无显著性变量需要引入回归方程为止。

2.4 偏最小二乘回归

偏最小二乘回归的方法是基于因子的提取,使新的因子变量相互独立,满足G-M条件,

基于多重共线性的处理方法

107

分回归基础上的一种多元数据分析方法,是一种将降维空间的每个元素组成的预测矩阵与被预测矩阵间的协方差最大化的降维技术。

2.5 Lasso回归

Lasso回归是一种收缩估计方法,基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于0的回归系数,得到可以解释的模型。假设数据

,2,,,N,x=x,

y,i=1

xi1,xi2,,xi为自变量,yi为第i个观测值对N

应的响应变量,假设响应变量yi在观测值给定的情况下独立,即B^=

B^^2,,^

,Lasso估计为:1,B

A^,=argmEx

=0,

2ij

=1,令

i=1

yi-Ai-

j=1

Bjxij

满足于

Bj[

t(1)

这里t\0是调节参数,此时对一切的t,有A的估计^A=y ,不失一般性,假定y =0,这样就可以省略了A,调和参数t的控制使得回归系数总体变小,若令t0=归系数缩小并趋于0,一些系数甚至就等于0。

t0就会使一些回Bj,t[

3 实例验证

本文中的数据是研究儿童心象面积与性别、年龄、身高、体重、和胸围之间的关系。性别(x1:男=1,女=2),年龄(x2:月)、身高(x3:cm)、体重(x4:kg)、胸围(x5:cm)和心象面积(y:cm^2)。数据如下:

表1

ID[**************]13

X[1**********]222

X[***********][1**********]4

X395.592.089.0168.0117.0113.0122.091.091.091.0156.0163.0130.0

X414.013.012.553.519.718.121.611.011.512.555.054.025.0

X553.552.053.582.056.055.057.348.047.050.083.079.058.0

y49.6441.4635.81100.1467.2060.0058.0035.3944.9829.5194.6687.4262.00

108

数学理论与应用

3.1 主成分回归的建模

(1)采用多重回归分析,进行共线性诊断。(2)进行主成分分析确定所需主成分数。(3)主成分回归分析。

表2 主成分回归分析模型结果ANOVA(b)

oodelRegressionResidualTotal

SumofSquares6108.187298.5266406.713

df5712

MeanSquare1221.63742.647

F28.646

Sig.0.000(a)

aPredictors:(Constant),x5,x1,x2,x3,x4bDependentVariable:y

得到因变量y与x1x2x3x4x5的标准线性回归方程为:

y=58.951-2.683xc.877xc.741xc.505xc.784xc1+52+53+54+55

用主成分回归分析可以处理共线性,但它没有给出因变量的信息,较岭回归与Lasso回归解释模型效果不是很好。

3.2 岭回归的建模

从岭回归运行结果(略),可以看出变量x5的岭回归系数从负值迅速变为正值,x1,x2,x3,x4的回归系数则相对稳定。剔除x5后作岭回归,由于岭参数k在0.04-0.20之间基本稳定,选择k=0.08重新作岭回归。得到标准化的岭回归方程为:

y^=-0.1068x1+0.3410x2+0.3579x3+0.2658x4

从上面的建模过程可以看出岭回归可以处理共线性,但参数k的选择主观性太强。

4 几种回归分析的比较

4.1 主成分回归、岭回归、逐步回归和偏最小二乘法的比较

主成分回归具有降维的作用,核心思想就是通过降维把多个指标化为少数几个综合指标,而尽量不改变指标体系对因变量的解释程度,在一定程度上消除了共线性的危害,其偏差由保留主成分的个数决定。主成分回归成分或因子的提取来自于相关系数矩阵XcX,它追求的是自身方差的最大化,第一主成分反映的是自变量系统变异的最大方向,但它没有考虑因变量的信息。岭回归参数的选取原则和方法存在主观性,没有明确的含义,它的参数估计量始终是有偏估计;由于岭回归要保留所有变量,因此对变量的选择要特别谨慎,但灵活运用岭回归方法,可以对分析各变量之间的作用和关系带来独特而有效的帮助。逐步回归优于岭回归和主成分回归。偏最小二乘法与主成分回归法、岭回归法一样能达到消除共线性的目的,但它又与其它的有区别。偏最小二乘法集中了最小二乘法与主成分分析法的优点,克服了两种方法的缺点。,

基于多重共线性的处理方法

109

去寻找主成分,与因变量无关。偏最小二乘法则是从因变量出发,选择与因变量相关性较强而又能方便算得的自变量的线性组合。

4.2 岭回归与Lasso回归的比较

Lasso回归和岭回归分析是一种改进的最小二乘,是以放弃最小二乘的无偏性,放弃部分精确度为代价来寻求效果好且更符合实际的回归过程。Lasso是通过构造一个L1罚函数得到一个较为精练的模型,区别于岭回归使用的L2罚,使得它收缩一些系数,同时设定另一些系数为0,因此保留了子集收缩和岭回归的优点。它和岭回归一样,也是一种处理具有复共线性数据的有偏估计。虽然Lasso和岭回归所得残差平方和比最小二乘回归要大,但这样一来,它对病态数据的耐受性就远远强于最小二乘法。Lasso回归可以在参数估计的同时实现变量选择,较好的解决回归分析中的多重共线性问题,是预测性能较稳定和较好的模型。

5 小结

线性回归方程是处理数据的一种方法,很多时候不可避免的出现共线性,严重影响模型对数据的解释性,如何消除共线性很重要,因此为了有效的从数据中得到信息,就要选择合理的方法去除共线性。Lasso回归和岭回归都是有偏估计,但对共线性处理较好,主成分回归和偏最小二乘回归也可以解决共线性,对于建模的选择要针对不同的类型要选择不同的方法。

参考文献

[1]高辉.多重共线性的诊断方法[J].统计与信息论坛,2003,(1),73-76.[2]周青松.解决多重共线性问题的线性回归方法[J].山西统计,2001,(1),6-7.

[3]刘国旗.多重共线性的产生原因及其诊断处理[J].合肥工业大学学报,2001,(4),607-610.[4]Tibshitan,iR.Regressionshrinkageandselectionviathelasso[M].J.Roy.Statist.soc.ser,1996.

[5]Hoer,lA.Eandkennard,R.WRidgeRegression:BiasedEstimationforNon-orthogonalProblems[J].Techno-metrics,1970,12(1),55-67.

与《基于多重共线性的处理方法》相关的范文

01-02 长顺交警摩托车专项整治电视专题片策划方案

长顺交警摩托车专项整治电视专题片策划方案构思立足真人真事，展望交通干警在落实“文明交通行动计划实施”中，以“摩托车专项整治”开展工作为重点一、基本理念专题片的主题，是向社会宣传对摩托车整治管理，展示交通干警在专项整治过程中的辉煌成绩、人的精神风貌。专题片遵循新闻和传播规律，增强专题片的亲和力和传播效果。通过专题片，使广大群众，特别是摩托车消费群体，了解交通干警在施治过和中的方方面面，从而达 ...

10-10 下学期高二数学教学计划-

一、学生基本情况 261班共有学生75人，268班共有学生72人。268班学习数学的气氛较浓，但由于高一函数部分基础特别差，对高二乃至整个高中的数学学习有很大的影响，数学成绩尖子生多或少，但若能杂实复习好函数部分，加上学生又很努力，将来前途无量。若能好好的引导，进一步培养他们的学习兴趣，…… 二、教学要求（一）情意目标（1）通过分析问题的方法的教学、通过不等式的一题多解、多题一解、不等式的一题 ...

08-19 小学低年级语文教学观摩活动评课稿

小学低年级语文教学观摩活动评课稿就本次小学低年级语文教学观摩活动的阅读课作一简要的评述。纯属我个人参加本次活动的粗浅体会，有些观点主要是想引发同行的研究与思考，不当之处敬请批评指正。这次活动的总体印象（三句话）：新秀荟萃，名师辈出，每堂课都闪现出令人鼓舞的亮点；把握目标，设计精到，每堂课都凝聚着各地教研团队的智慧；童言童话，精彩纷呈，每堂课都展示了济南的孩子们活泼灵动的童真！具体表述为如 ...

12-24 在小学实习的实习总结

“洗手的时候，日子从水盆里过去；吃饭的时候，日子从饭碗里过去”时间总是那样没有声音，没有影子。大学三年就这样悄悄溜过。不知不觉就到了教育实习的时候。三年来持之不断地学习学科教育知识和一般性的教育学、心理学知识，除了了解“教育是什么、学生怎么学习”这些根本问题外还在有限的时间内尽力提高自身的师范技能。然而，这些来自文本阅读、个人思辨和微格培训的教育信条、意识取向和行为习惯，在面对真实的教学场景中能 ...

07-31 下学期高二数学教学计划

一、学生基本情况 118班共有学生66人，115班共有学生48人。118班学习数学的气氛较浓，但由于高一函数部分基础特别差，对高二乃至整个高中的数学学习有很大的影响，数学成绩尖子生多或少，但若能杂实复习好函数部分，加上学生又很努力，将来前途无量。若能好好的引导，进一步培养他们的学习兴趣，…… 二、教学要求（一）情意目标（1）通过分析问题的方法的教学、通过不等式的一题多解、多题一解、不等式的一题 ...

02-22 远程培训学习笔记:课程与教学理论发展的轨迹与启示

远程培训学习笔记：课程与教学理论发展的轨迹与启示科学化课程开发理论发展的里程碑（1-3-2）美国著名教育学家、课程理论专家、评价理论专家泰勒对科学化课程开发理论起里程碑作用。他所提出的泰勒原理被当作课程研究的范式。由于泰勒对教育评价理论、课程理论的卓越贡献，被誉为“现代评价理论之父”“现代课程理论之父”。 1934年，泰勒出版了《成绩测验的编制》，确立其评价原理；1949年，又出版了《课程与教 ...

03-02 国税信息技术交流材料

一、推进征管工作组织方式变革　　（一）加强对应用需求的统筹　　信息技术的持续快速发展，使得技术应用需求不断增长和扩充，而来自决策层、管理层和执行层的几乎每一个应用需求都需要征管资源的配套。面对应用需求快速增加、征管资源供给总量不足的现实，决策层必须建立健全识别应用需求的重要性、急迫性和可实现性的工作机制，改变过去分工组织、分别统筹、分散推动的领导模式，加强决策高层的内部协调，以及时、准确地确定 ...

12-25 师范生支教报告

师范生支教报告专业(本/专)：英语专科　　年级班级：英0554班　　学号：44 　　姓名：袁xx 　　指导教师：郭xx 　　时间：20XX年03月05日-20XX年6月18日回顾三个多月支教生涯，我是跟着师傅郭老师学习的。我师傅是个英语教学工作经验丰富，工作认真踏实，严于律己的老师。过去的三个多月，那是不平常的三个多月，因为期间有尝试，有拼搏，有坚持，有失落……更有收获。支教也像一面镜子， ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

随机推荐

猜你喜欢

基于多重共线性的处理方法

·业务受理员.收费员岗位职责

·高校女工工作总结

·售后维修协议书

·分部与分项工程及其区别

·论文查重怎么修改---论文查重平台

·合作利益分配方案

·共同性在感情生活中的重要性

·2015年下期高一生物期末考试试卷分析

·最新披露中国近代几件与余家垸的重大事件

·我好想快快长大

·关于建设效率型机关考核方案

·小学校纪校风整治工作的情况总结

·蓝藻的有益

·华润万家的家的特色

·行政公关工作手册

·我国实施战略性贸易政策的可行性分析

·洗碗工工作总结与计划范文

·高空作业吊篮安全技术交底.

·张海迪热爱生命的励志故事

·英语教案第二节