多重共线性问题
第八章 多重共线性问题
一、问题的种类和原因 二、多重共线性的危害 三、多重共线性的测定
四、多重共线性的克服和处理
1
8.1 问题的种类和原因
1、完全多重共线性
一个自变量刚好是其他自变量的线性组合 如果存在 c1X1i+c2X2i+…+ckXki=0 i=1,2,…,n
其中: ci不全为0,则称为解释变量间存在完全共线性 ( perfect multicollinearity)。矩阵 X 至少有一列向量 可由其他列向量(不包括第一列)线性表出,它是非 满秩的。 模型设定问题 识别问题
2
8.1 问题的种类和原因
2、近似多重共线性
如果存在 c1X1i+c2X2i+…+ckXki+vi=0 ( approximate (intercorrelated)。 主要是数据问题,也有模型设定问题 i=1,2,…,n
其中 ci 不全为 0 , vi 为随机误差项,则称为 近似共线性 multicollinearity) 或 交 互 相 关
3
8.1 问题的种类和原因
3、实际经济问题中的多重共线性
一般地,产生多重共线性的主要原因有以下三个方面:
(1)经济变量相关的共同趋势
时间序列样本:经济繁荣时期,各基本经济变量(收入、 消费、投资、价格)都趋于增长;衰退时期,又同时趋
于下降。
横截面数据:生产函数中,资本投入与劳动力投入往往 出现高度相关情况,大企业二者都大,小企业都小。
4
8.1 问题的种类和原因
(2)滞后变量的引入
在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济 关系。 例如,消费=f(当期收入, 前期收入)
显然,两期收入间有较强的线性相关性。
(3)样本资料的限制
由于完全符合理论模型所要求的样本数据较难收集,特定样本可能 存在某种程度的多重共线性。 一般经验: 时间序列数据样本:简单线性模型,往往存在多重共线性。 截面数据样本:问题不那么严重,但多重共线性仍然是存在的。
5
8.2(近似)多重共线性的危害
1、普通最小二乘法估计量的方差和标准差变大,即精确
度下降;
2、置信区间变宽; 3、t值不显著; 4、R平方值较高,但t值并不都显著; 5、OLS估计量及其标准差对数据的微小变化非常敏感, 即它们趋于不稳定;
6
以二元线性模型 y=1x1+2x2+ 为例:
ˆ ) 2 ( X X ) 1 var( 1 11
x x
2 1i
2 2 x2 i 2 2i
( x1i x 2i )
2
1 ( x1i x 2i ) 2
2 / x12i
x x
2 1i
2 2i
2 2 x x 1i 2i
( x1i x 2i ) 2
2 x 1i
2
1 1 r2
恰为X1与X2的线性相关系数的平方r2,即X1 对X2回归的拟合优度。
由于 r2 1,故 1/(1- r2 )1
7
当完全不共线时,
r2
=0
当近似共线时, 0
多重共线性使参数估计值的方差增大,1/(1-r2)为方差扩 大因子(Variance Inflation Factor, VIF)
方差膨胀因子表
相关系数平方 方差膨胀因
子 0 1 0.5 2 0.8 5 0.9 10 0.95 20 0.96 25 0.97 33 0.98 50 0.99 100 0.999 1000
2 1 ˆ ) var( 1 2 2 2 x 1 r x 1i 1i
ˆ ) 2 / x2 var( 1i 1
2
ˆ ) 当完全共线时, r2=1, var( 1
8
8.2 (近似)多重共线性的危害
6、回归系数符号有误;
7、难以衡量各个解释变量对回归平方和(ESS)或者R2
的贡献。 总之,随着多重共线性程度的提高,参数方差会 急剧上升到很大的水平,理论上使最小二乘法估计的 有效性、可靠性和价值都受到影响,实践中参数估计 的稳定性和可靠程度下降。
9
8.3 多重共线性的测定
1、R2较高、F检验通过但有些系数不能通过t检验;
2、解释变量两两高度相关:检验解释变量相互之间的样 本相关系数;
3、方差扩大(膨胀)因子检验;
4、状态数检验。
注意:没有一种检验方法能够使我们彻底解决多重共线 性问题。多重共线性是一个程度问题。
10
方差扩大因子检验
分析已知
σ2 σ2 Varbk 1 x x k M k xk k x k x k X k X k X k X k x k σ2
1 x X X X X k k k k k xk x x 1 k k x k xk
记 xk x k 为 SSTk ,xk Xk Xk Xk 1 Xk xk 为 SSRk 。
σ2 Varbk 2 SSRk SSTk 1 Rk SSTk 1 SST k σ2
11
当 R 0 时, 2 当 0 Rk 1 时,
2 k
σ2 Varbk SSTk
σ2 1 σ2 Varbk 2 SSTk 1 Rk SSTk
自变量xj的方差扩大因子(Variance Inflation Factor) 定义为矩阵(X’X)-1中第k个对角元素,即
1 VIF bk 1 Rk2
12
上式中 Rk2 表示把xk作为因变量,其余自变量作为自变量
进行回归得到的决定系数。这个值越大,表示该变量与
其余自变量的线性依存程度越强,则自变量的共线性越 严重。常以方差扩大因子是否大于10来判断第 k个解释
变量是否存在较强的、必须加以处理的多重共线性。还
可以用所有自变量所对应的方差扩大因子的平均数,当 其大于10时,表示变量间存在严重的共线性。
13
VIF的EViews计算
首先建立以某个自变量为因变量、其余自变量为自变量 的多元回归方程. 然后计算VIF,命令如下: scalar vif=1/(1-equation_name.@R2) 其中R2是R2,调用系数格式为 equation_name.@coefs(n)
14
实例一:美国机动车汽油消费的影响因素分析
给出1950-1987年间美国机动车汽油消费量和影响消费量
的变量数值。其中格变量表示:QMG为机动车汽油消
费量(单位:千加仑);CAR为汽车保有量;PMG为 机动车汽油零售价格;POP为人数;RGNP为按1982年
美元计算的GNP(单位:十亿美元);PGNP为GNP指
数(以1982年为100)。以汽油消费量为因变量,其他 变量
为自变量,建立回归模型。变量CAR与POP、
RGNP之间相关系数较大,存在多重共线性。
15
实例二:
1960至1982年期间美国的鸡肉需求:
有关变量:平均每人鸡肉消费量(Y),每人实际可支 配收入(X2),鸡肉的实际零售价格( X3),猪肉的 实际零售价格( X4),牛肉的实际零售价格( X5) 初步回归 相关矩阵 辅助回归
16
状态数检验
状态指数
将X矩阵的每一列xk用其模 X Xk Xk 相除以实现标准 化,然后再求X’X矩阵的特征值,取其中最大的除以 最小的后再求平方根,得到该矩阵的“状态数”,记 为: max
min
通常当 大于20或30时,认为存在较明显的多重共线性。
17
确定哪些解释变量的系数受到多重共线性的影响: 先计算各个特征值的“状态指数”
i min
这些状态指数的水平在1到 max 之间,很可能有好几 min 个超过20-30的“危险”水平。
18
8.4 多重共线性的克服和处理
1、增加样本容量
样本容量越大,变量相关性越小,相关越难。但有局 限性,不一定解决问题
2、差分方程
3、模型修正 4、岭回归方法、主成分分析方法等
19
差分方程
线性回归模型为 作如下变换:
Yi 0 1 X 1i 2 X 2i i
Yi Yi Yi 1 X 1i X 1i X 1i 1
X 2i X 2i X 2i 1
Yi 1X 1i 2 X 2i 1 i
且已知X1和X2之间存在多重共线性问题。
改用差分方程
进行回归,受多重共线性的影响比较小。
20
模型修正
(1)删减解释变量(利用检验结论、经验等),但从模型 中删减解释变量可能导致“模型设定误差”。 (2)重新考虑模型(利用原模型回归信息、经验等)
(3)变量变换
(4)先验信息参数约束
21
先验信息参数约束
例:生产函数 Y AL K ,经对数变换为: log Y log A log L log K
如果预先知道所研究的经济有规模报酬不变的性质, 即函数中的参数满足 就可以克服多重共线 1 性。 log Y log A log L 1 log K
log Y log K log A log L log K Y L log log A log K K
22
岭回归方法
设一个多元线性回归模型为 Y Xβ ε
普通最小二乘估计的公式为 B XX 1 XY 当解释变量间存在严重的多重共线性时,XX矩阵接近于 奇异。 用 XX λD代替 XX 代入最小二乘估计的公式,得到:
ˆ XX D 1 XY β
XX 0 1 D 其中 称为“岭回归参数”,一般 , 是用 2 d 02 n 和 矩阵对角线上元素 k 1,2,, K 构 d k2 X ki
成的对角线矩阵 。
i
23
2 d 0 D
d12
2 dk
估计量的数学期望为:
ˆ XX D1 XE Y Eβ
1 X X D XXβ 1 XX D XX D Dβ 1 β - XX D Dβ
24
8.5 案例——中国粮食生产函数
根据理论和经验分析,影响粮食生产(Y)的主要因素有: 农业化肥施用量(X1, 万吨);粮食播种面积(X2,万公斤) 成灾面积(X3 ,千公顷); 农业机械总动力(X4 ,公顷);
农业劳动力(X5 ,万人)
已知中国粮食生产的相关数据,建立中国粮食生产函数: Y=0+1 X1 +2 X2 +3 X3 +4 X4 +4 X5 +
25
1、用OLS法估计上述模型:
ˆ 12816 .44 6.213 X 0.421 X 0.166 X 0.098 X 0.028 X Y 1 2 3 4 5
(-0.91)
(8.39)
(3.32)
(-2.81)
(-1.45)
(-0.14)
R2接近于1; 给定=5%,得F临界值 F0.05(5,12)=3.11 F=638.4 > 15.19, 故认上述粮食生产的总体线性关系显著成立。 但X4 、X5 的参数未通过t检验,且符号不正确, 故解释变量间可能存在多重共线性。
26
2、检验简单相关系数
列出X1,X2,X3,X4,X5的相关系数矩阵:
X1 X2 X3 X4 X5
X1 1.00 0.01 0.64 0.96 0.55
X2 0.01 1.00 -0.45 -0.04 0.18
X3 0.64 -0.45 1.00 0.69 0.36
X4 0.96 -0.04 0.69 1.00 0.45
X5 0.55 0.18 0.36 0.45 1.00
发现: X1与X4间存在高度相关性。
27
3、找出最简单的回归形式
分别作Y与X1,X2,X4,X5间的回归:
(25.58) (11.49) R2=0.8919 F=132.1 DW=1.56
ˆ 30867 .64 4.576 X Y 1
ˆ 33821 .18 0.699 X Y 2 (-0.49) (1.14) R2=0.075 F=1.30 DW=0.12
ˆ 31919 .0 0.380 X Y 4
(17.45) (6.68) R2=0.7527 F=48.7 DW=1.11
ˆ 28259 .19 2.240 X Y 5 (-1.04) (2.66) R2=0.3064 F=7.07 DW=0.36
可见,应选第1个式子为初始的回归模型。
28
4、逐步回归
将其他解释变量分别导入上述初始回归模型,寻找最佳回 归方程。
Y=f(X1) t值 Y=f(X1,X2) t值 Y=f(X1,X2,X3) t值 Y=f(X1,X2,X3,X4) t值 Y=f(X1,X3,X4,X5) t值 C 30868 25.58 -43871 -3.02 -11978 0.85 -13056 -0.97 -12690 -0.87 X1 4.23 11.49 4.65 18.47 5.26 19.6 6.17 9.61 5.22 17.85 X2 X3 X4 X5
R2
0.8852 0.9558
DW 1.56 2.01 1.53 1.80 1.55
0.67 5.16 0.41 3.35 0.42 3.57 0.40 3.02
-0.19 -3.57 -0.17 -3.09 -0.20 -3.47
0.9752 -0.09 -1.55 0.07 0.37 0.9775 0.9798
29
5、结论
回归方程以Y=f(X1,X2,X3)为最优:
Y 11978 5.26 X 1 0.41 X 2 0.19 X 3
30