岭回归解决多重共线性

02-14

一、引言

回归分析是一种比较成熟的预测模型,也是在预测过程中使用较多的模型,在自然科学管理科学和社会经济中有着非常广泛的应用，但是经典的最小二乘估计，必需满足一些假设条件，多重共线性就是其中的一种。实际上，解释变量间完全不相关的情形是非常少见的，大多数变量都在某种程度上存在着一定的共线性，而存在着共线性会给模型带来许多不确定性的结果。

二、认识多重共线性

（一）多重共线性的定义

设回归模型y01x12x2pxp为零的数k0,k1,k2kp使得k0近似的多重共线性。

如果矩阵X的列向量存在一组不全

k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在完全共线性,如果k0k1xi1k2xi2kpxip0, i=1,2,„n,则称其存在

（二）多重共线性的后果

1.理论后果

对于多元线性回归来讲，大多数学者都关注其估计精度不高，但是多重共线性不可

能完全消除，而是要用一定的方法来减少变量之间的相关程度。多重共线性其实是由样本容量太小所造成的后果，在理论上称作“微数缺测性”，所以当样本容量n很小的时候，多重共线性才是非常严重的。

多重共线性的理论后果有以下几点：

（1）保持OLS估计量的BLUE性质；

(2) 戈德伯格提出了近似多重共线性其实是样本观测数刚好超过待估参数个数时出现的

情况。所以多重共线性并不是简单的自变量之间存在的相关性，也包括样本容量的大小问题。

（3）近似的多重共线性中，OLS估计仍然是无偏估计。无偏性是一种多维样本或重复抽样

的性质；如果X变量的取值固定情况下，反复对样本进行取样，并对每个样本计算OLS估计量，随着样本个数的增加，估计量的样本值的均值将收敛于真实值。

（4）多重共线性是由于样本引起的。即使总体中每一个X之间都没有线性关系，但在具体

取样时仍存在样本间的共线性。 2.现实后果

（1）虽然存在多重共线性的情况下，得到的OLS估计是BLUE的，但有较大的方差和协方差，

估计精度不高；

（2）置信区间比原本宽，使得接受H0假设的概率更大；

（3）t统计量不显著；

（4）拟合优度R的平方会很大；

（5）OLS估计量及其标准误对数据微小的变化也会很敏感。

（三）多重共线性产生的原因

1.模型参数的选用不当，在我们建立模型时如果变量之间存在着高度的相关性，我们又没有进行处理建立的模型就有可能存在着共线性。

2. 由于研究的经济变量随时间往往有共同的变化趋势,他们之间存在着共线性。例如当经济繁荣时，反映经济情况的指标有可能按着某种比例关系增长

3. 滞后变量。滞后变量的引入也会产生多重共线行，例如本期的消费水平除了受本期的收入影响之外，还有可能受前期的收入影响，建立模型时，本期的收入水平就有可能和前期的收入水平存在着共线性。

(四) 多重共线性的识别

1.直观的判断方法

（1）在自变量的相关系数矩阵中，有某些自变量的相关系数值比较大。（2）回归系数的符号与专业知识或一般经验相反

（3）对重要的自变量的回归系数进行t检验，其结果不显著，但是F检验确得到了显著的

通过

（4）如果增加一个变量或删除一个变量，回归系数的估计值发生了很大的变化（5）重要变量的回归系数置信区间明显过大 2.方差扩大因子法(VIF)

定义VIFj=(1Rj)其中R2j是以Xj为因变量时对其他自变量的复测定系数。一般认为如果最大的VIFj超过10，常常表示存在多重共线性。事实上VIFj=(1Rj)>10这说明

21R2j0.9。

21

3.特征根判定法

根据矩阵行列式的性质，矩阵行列式的值等于其特征根的连乘积。因此，当行列式|XX|≈0时，至少有一个特征根为零，反过来，可以证明矩阵至少有一个特征根近似为零时，X的列向量必存在多重共线性，同样也可证明XX有多少个特征根近似为零矩阵,X

m其中为最大的特征根,为其他的特就有多少个多重共线性。根据条件数miK

征根，通常认为010存在着多重共线性。

i

（五）多重共线性的处理方法

1．增加样本容量

当线性重合是由于测量误差引起的以及他仅是偶然存在于原始样本，而不存在于总体

时，通过增加样本容量可以减少或是避免线性重合，但是在现实的生活中，由于受到各种条件的限制增加样本容量有时又是不现实的。

2．剔除法

对于一些不重要的解释变量进行剔除，主要有向前法和后退法，逐步回归法。理论上这三种方法都是针对不相关的的数据而言的，在多重共线性很严重的情况下，结论的可靠性受到影响，在一些经济模型中，要求一些很重要变量必须包含在里面，这时如果贸然的删除就不符合现实的经济意义。

3．主成分法

当自变量间有较强的线性相关性时，利用p个变量的主成分，所具有的性质，如果他们是互不相关的，可由前m个主成Z1,Z2,Zm来建立回归模型。

由原始变量的观测数据计算前m个主成分的得分值，将其作为主成分的观测值，建立Y与主成分的回归模型即得回归方程。这时p元降为m元,这样既简化了回归方程的结构，且消除了变量间相关性带来的影响

4．PLS(偏最小二乘法)

H.Wold在1975年提出的偏最小二乘法近年来引起广泛的关注，在解决多重共线性方面，它与主成分回归法，岭回归法一样都能很好的达到目的，但偏最小二乘又与前者又有较大的区别，偏最小二乘法集中了最小二乘法、主成分分析法和典型相关分析的的优点克服了两种方法的缺点。偏最小二乘法吸取了主成分回归提取主成分的思想，但不同的是主成分回归只是从自变量中去寻找主成分与因变量无关，因而主成分与因变量在算法上关系不密切，从而导致最后主成分在实际应用中无法更好的进一步拟合因变量，偏最小二乘法则是从因变量出发，选择与因变量相关性较强而又能方便运算的自变量的线性组合。

5．岭回归法.

岭回归分析是1962年由Heer首先提出的，1970年后他与肯纳德合作，进一步发展了该方法，在多元线性回归模型的矩阵形式YX,参数的普通最小二乘估计为

=(X'X)1X'Y, 岭回归当自变量存在多重共线性|X'X|≈0时，给矩阵加上一个正常

系数矩阵kI,那么=(XXkI)

1

X'Y,当时就是普通最小二乘估计。

三、实际的应用

我们对于重庆市1987至2010年的统计数据做一个回归预测模型，选取工业总产值为因变量，固定投资总额、货物周转量、财政支出、能源消耗总量四个变量为自变量。

设模型为Y01X12X23X34X4 (3.1)

(一) 普通的最小二乘法

对模型进行最小二乘估计得到如下的结果：

调整的可决系数R为0.995，F=1198,在置信水平为95%，自由度4，方程通过了显著性的检验，从这里我们可以看出从整体上来说方程得到了很好的拟合, 但是各个系数的检验却并没有通过，而且能源消费的系数为负，这于经济学的原理相反,我们初步断定回归的方程可能存在着多重共线性。

根据方差扩大因子VIF1=455.510, VIF2=68.694, VIF3=224.271, VIF4=37.372.均大于10说明存在多重共线性。

此外我们还可以根据共线性的诊断,来判断多重共线性的存在。为此，利用SPSS软件进行相关处理可以得到下表：

从特征值我们可以看到有两个接近于零，条件数我们可以看到最大条件数为71.989，说明存在着共线性，以上的分析说明因变量间存在着多重共线性。

（二）运用岭回归解决多重共线性

用SPSS软件的岭回归功能的语法实现岭回归，做出的结果如下：

表3.5：岭参数K值表

K RSQ X1 X2 X3 X4 .00000 .99605 .486610 .187544 .349141 -.022974 .05000 .99450 .298761 .231025 .351029 .109212 .10000 .99286 .279395 .234139 .315824 .148780 .15000 .99135 .268288 .234093 .295846 .168122 .20000 .98984 .260456 .232912 .282446 .178951 .25000 .98824 .254302 .231210 .272489 .185418 .30000 .98652 .249140 .229240 .264570 .189368 .35000 .98466 .244625 .227127 .257967 .191744 .40000 .98265 .240562 .224938 .252270 .193079 .45000 .98050 .236833 .222713 .247230 .193695 .50000 .97822 .233363 .220477 .242684 .193798 .55000 .97581 .230101 .218244 .238524 .193528 .60000 .97327 .227009 .216026 .234672 .192980 .65000 .97062 .224062 .213829 .231075 .192222 .70000 .96786 .221240 .211658 .227690 .191305 .75000 .96501 .218527 .209517 .224485 .190265 .80000 .96206 .215912 .207406 .221437 .189132 .85000 .95903 .213385 .205328 .218526 .187927 .90000 .95591 .210938 .203284 .215736 .186667 .95000 .95273 .208564 .201273 .213056 .185366 1.0000 .94948 .206258 .199296 .210473 .184034

图3.1 岭迹图

从岭迹图上看，最小二乘的稳定性很差，当k稍微增大时，系数有较大的变化。对各个

变量分别来看，当k=0, X1、X2和X3对于变量有显著性正的影响，X4对于变量有负的影响，从岭回归的角度来看，变量X1和X3随着k的增大其系数值迅速减小最终趋于稳定，

X2随着k的增加变化不大，对于X4讲，当k逐渐增大时，由负的影响变为正的影响。

由于X1和X4的岭参数都迅速减少，两者之和比较稳定。从岭回归的角度看，X1和X4

只要保留一个就可以了。X2和X3的岭回归系数相对稳定。通过分析，决定剔除X4，对剩下的三个变量进行岭回归。把岭参数步长改为0.02，范围缩小到0.2，在SPSS中用命令生成得到如下结果：

表3.6 ：步长为0.02时的岭参数值表

K RSQ X1 X2 X3 .00000 .99604 .436166 .179183 .385799 .02000 .99584 .351867 .262568 .380494 .04000 .99560 .342222 .282832 .363342 .06000 .99531 .336854 .291961 .353101 .08000 .99497 .332900 .296644 .345962 .10000 .99457 .329612 .299105 .340458 .12000 .99410 .326701 .300300 .335921 .14000 .99357 .324028 .300709 .332010 .16000 .99297 .321521 .300600 .328527 .18000 .99231 .319135 .300137 .325355 .20000 .99159 .316844 .299420 .322417

由上表可以看到，剔除了X4后岭回归系数变化幅度减小，从岭迹图看岭参数在0.12到0.20之间时，岭参数已基本稳定，当k=0.16时，R0.99297仍然很大，因而可以选取k=0.16

岭参数。然后给定，重新作岭回归，计算结果如下：

表3.7： k = 0.16时的岭回归

Mult R .9964780 RSquare .9929685 Adj RSqu .9919137 SE 210.6252025:

表3.8：方差分析表

df SS MS F value Sin F Regress 3.000 125295417 41765139 941.44 .000000 Residual 20.000 887259.52 44362.976

表3.9：方程中的变量

B SE(B) Beta B/SE(B) X1 .4110191 .0098800 .3215208 41.6010169 X2 .0399873 .0017557 .3006004 22.7755604 X3 1.1311326 .0405681 .3285272 27.8823490 Constant -451.7066055 69.6480613 .0000000 -6.4855589

得到对Y对X1,X2和X3的标准化岭回归方程为：

ˆ0.3215X0.3006X0.3285X (3.2) Y123

(41.601) (22.776) (27.882 )

R20.993 F=941.44

普通最小二乘法得到的回归方程为

ˆ0.487X0.188X0.349X0.023X (3.3) Y1234

(1.582 ) (1.570) (1.617) ( -0.261)

标准化岭回归得到的T统计量都比OLS估计显著，因此岭回归得到预期的效果。

（三）主成分分析法

同样利用SPSS软件中的Analyze下拉菜单进行主成分分析。可以得到如下结果：

由上表可以知道，四个主成分的特征值的最大值为3.927，最小值为0.001；前两个因子的累积贡献率已经达到99.657%，故只需要保留前两个主成分。

利用SPSS的主成分分析进入变量计算。对前两主成分作普通最小二乘法：第一主成分T10.254X10.253X20.252X30.250X4 (3.4) 第二主成分T21.014X10.315X22.408X33.137X4 (3.5)

用Y对T1、T2做普通最小二乘法，得如下回归方程为

ˆ0.995T0.08T (3.6) Y12

因此，可以得出主成分回归方程为

ˆ0.3339X0.2769X0.4434X0.012X (3.7) Y1234

回归方程的的修正的可决系数为 0.996。

由上面的分析我们看到岭回归和主成分的所得到的结果比较接近，各个系数解释也更加的合理，符合现实意义。

五、结论

主成分法和岭回归所估计的参数，都已经不是无偏的估计，主成分分析法作为多元统计分析的一种常用方法在处理多变量问题时具有其一定的优越性，其降维的优势是明显的，主成分回归方法对于一般的多重共线性问题还是适用的，尤其是对共线性较强的变量之间.岭回归估计是通过最小二乘法的改进允许回归系数的有偏估计量存在而补救多重共线性的方法，采用它可以通过允许小的误差而换取高于无偏估计量的精度, 因此它接近真实值的可能性较大。灵活运用岭回归法, 可以对分析各变量之间的作用和关系带来独特而有效的帮助。作为统计方法，每种方法都有其适用范围，我们应该比较其效果而选用而不是断然否定一种方法。

参考文献

[1] 何晓群.应用回归分析[M].中国人民统计大学出版社:2007,(13). [2] 钱晓莉. 基于特征值的多重共线性处理方法[J]. 统计与决策:2004,(10). [3] 白雪梅, 赵松山. 更深入地认识多重共线性[J]. 东北财经大学学报:2005,(02).

[4] 赵松山, 白雪梅. 关于多重共线性检验方法的研究[J]. 中国煤炭经济学院学报:2001,(04).[5] 高辉. 多重共线性的诊断方法[J]. 统计与信息论坛:2003,(01).

[6] 达摩达尔.N.古扎拉蒂.计量经济学[M].中国人民大学出版社：2004,（6）. [ 7] 薛薇.SPSS统计分析方法及应用[M].电子工业出版社：2009,（1）.

[8] 秦红兵. 多元回归分析中多重共线性的探讨与实证[J]. 科技信息：2007,(31). [9] 柳丽，魏庆钲.回归分析中多重共线性的诊断与处理[J].中国卫生统计：1994,(11). [10] John S. Y. Chiu . A Simulation Study of Effects of Multicollinearity and Autocorrelation on

Estimates of Parameters[J]. The Journal of Financial and Quantitative Analysis:1996,(6).

[11] Mark Z. Fabrycy.Multicollinearity caused by Specification Errors[J]. Applied

Statistics:1975,(4).

[12] Nityananda sarkar.Mean square error matrix comparision of some estmators in linear

regressions with muillinearity[J].Statistics and Probability letters:1996,(10).

与《岭回归解决多重共线性》相关的范文

01-02 长顺交警摩托车专项整治电视专题片策划方案

长顺交警摩托车专项整治电视专题片策划方案构思立足真人真事，展望交通干警在落实“文明交通行动计划实施”中，以“摩托车专项整治”开展工作为重点一、基本理念专题片的主题，是向社会宣传对摩托车整治管理，展示交通干警在专项整治过程中的辉煌成绩、人的精神风貌。专题片遵循新闻和传播规律，增强专题片的亲和力和传播效果。通过专题片，使广大群众，特别是摩托车消费群体，了解交通干警在施治过和中的方方面面，从而达 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

04-10 高二数学下学期备课组教学计划

教学目标、教材的重点通过推理与证明的教学，进一步体会合情推理、演绎推理以及二者之间的联系与差异；体会数学证明的特点，了解数学证明的基本方法，包括直接证明的方法和间接证明的方法；感受逻辑证明在数学以及日常生活中的作用，养成言之有理、论证有据的习惯。通过计数原理的教学，使学生掌握两个基本计数原理、排列、组合、二项式定理及应用，会解决简单的计数问题；体验计数与现实生活的联系，充分体会两个基本计数原理 ...

12-25 师范生支教报告

师范生支教报告专业(本/专)：英语专科　　年级班级：英0554班　　学号：44 　　姓名：袁xx 　　指导教师：郭xx 　　时间：20XX年03月05日-20XX年6月18日回顾三个多月支教生涯，我是跟着师傅郭老师学习的。我师傅是个英语教学工作经验丰富，工作认真踏实，严于律己的老师。过去的三个多月，那是不平常的三个多月，因为期间有尝试，有拼搏，有坚持，有失落……更有收获。支教也像一面镜子， ...

08-05 第二学期高一数学学科教学计划

一、教材分析（结构系统、单元内容、重难点）必修5第一章：解三角形；重点是正弦定理与余弦定理；难点是正弦定理与余弦定理的应用；第二章：数列；重点是等差数列与等比数列的前n项的和；难点是等差数列与等比数列前n项的和与应用；第三章：不等式；重点是一元二次不等式及其解法、二元一次不等式（组）与简单的线性规划问题、基本不等式；难点是二元一次不等式（组）与简单的线性规划问题及应用；必修2第一章：空间几何体 ...

03-07 车间工艺技术员先进事迹

　　“三十而立”是孔老夫子流行千年不衰的名言，男人到了三十岁似乎应该发一点儿庄严的感慨，抗金英雄如岳飞不禁也感叹“三十功名尘与土”！问问现今已至三十的郭常辉，而立宣言是什么，他说：“功名和欲望人人都有，但是我最大的愿望就是在我的岗位上，脚踏实地做好本职工作。” 　　这就是不善言谈的塑料厂线性车间工艺技术员郭常辉。1996年毕业于哈尔滨工程大学，分配到塑料厂低压车间。初入工厂，他的心情激动中透着一丝 ...

12-24 在小学实习的实习总结

“洗手的时候，日子从水盆里过去；吃饭的时候，日子从饭碗里过去”时间总是那样没有声音，没有影子。大学三年就这样悄悄溜过。不知不觉就到了教育实习的时候。三年来持之不断地学习学科教育知识和一般性的教育学、心理学知识，除了了解“教育是什么、学生怎么学习”这些根本问题外还在有限的时间内尽力提高自身的师范技能。然而，这些来自文本阅读、个人思辨和微格培训的教育信条、意识取向和行为习惯，在面对真实的教学场景中能 ...

08-16 引用如何设计公关活动实施方案

引用安之的如何设计公关活动实施方案从一项公共关系活动方案的制定到预期目标的完成之间，还存在着一段相当长的距离，中间尚须投入大量精力，公共关系人员必须设计切实可行的实施方案，根据开展活动的具体情境分解活动项目、明确实施方法、制定实施流程、分配预算经费、组建实施机构、培训实施人员等。（一）分解活动项目如前所述，公关活动项目是围绕公关目标开展的一系列具体活动。一个公关目标的实现，往往要开展多个具 ...

08-19 七一演讲稿-党旗生命因你而精彩

　　记得一位哲人曾说过：一个人，一个民族，他所信仰的不应该是束缚自己手脚的桎梏，更不应该是绞杀自己的绳索，而应当是一面催你挺进、催你跋涉、催你奋斗的旗帜。　　回顾历史的长河，我们这个拥有几千年悠久历史的文明古国，几度兴衰。从“九．一八”的战火，到卢沟桥事变，从南京大屠杀，到皇姑屯事件，“夜漫漫，路漫漫，长夜难明赤县天”。在这民族危亡的紧急关头，是中国共产党挥动着民族兴亡匹夫有责的大旗，领导着千百 ...

随机推荐

猜你喜欢

岭回归解决多重共线性

·校运会开幕词两篇

·在XX市高中教育教学工作研讨会上的总结讲话

·"保护自然环境.共建绿色校园"倡议书

·怎样写销售工作总结

·济困扶危倡议书

·文艺汇演主持词串词

·庆祝建党90周年演讲稿

·血脂高头疼怎么办

·[桃花源记]作者及写作背景

·汽车广告投放方案

·大学生暑假都市报体育部新闻实习总结

·弥月之喜主持词

·细水雾与水喷雾灭火系统应用于油浸式变压器火灾的比较

·副斜井提升机的提升能力计算

·(15483)(223243)莱赛尔纤维纺纱工艺探讨

·[人类的居住地――聚落]教学反思

·会计单选题

·市场调查与预测实训报告

·明式家具与清式家具对比

·法律风险和对策