第七章设定误差与数据问题(计量)
第七章 设定误差与数据问题
设定误差(specification error)指的是模型本身的设定就存在误差,如解释变量选择不当、测量误差、函数形式不妥等。
7.1遗漏变量 (Omitted variables)
由于某些数据难以获得,遗漏变量现象几乎是难以避免的。假设真实的模型为:
y i =x i ′1β1+x i ′2β2+εi ,其中x 1, x 2可以是向量。
而估计的模型为:y i =x i ′1β1+u i ,即遗漏变量x i ′2β2被归入扰动项u i 中去了。
考虑以下的两种情形:
(1)遗漏变量x i 2与包含的解释变量x i 1不相关,即cov (x i 1, x i 2)=0。在这种情况下,根据大样本理论,最小二乘法依然是一致的。但由于遗漏变量x i ′2β2被归入扰动项u i 中,可能会增大扰动项的方差,从而影响最小二乘法估计的精确度。
(2)遗漏变量x i 2与包含的解释变量x i 1相关,即cov (x i 1, x i 2)≠0。在这种情况下,根据大样本理论,最小二乘法不再是一致的,其偏差被称为“遗漏变量偏差”(omitted variable bias)。这种偏差在经济计量的实践中比较常见,成为某些计量研究的致命伤。比如,在研究教育投资的回报率时,个体的先天能力差异是不可观测的,但能力与受教育年限很可能存在正相关。
解决“遗漏变量偏差”的方法主要有加入尽可能多的控制变量、使用代理变量(proxy variable)、工具变量法(第八章),使用面板数据(第九章)、以及随机实验等。这里主要介绍代理变量法。比如,在教育投资回归中,可以使用智商(IQ )来作为个体能力的代理变量。一个理想的代理变量要满足以下两个条件:
(1)多余性(redundancy ):即代理变量仅通过影响遗漏变量来作用于被解释变量。比如,“智商”仅通过对“能力”的影响来影响收入。换言之,假如有“能力”的数据,那么再引入“智商”来作为解释变量就是多余的。
(2)将遗漏变量剔除代理变量影响后的剩余部分与解释变量不相关。
命题:如果上述两个条件满足,则使用代理变量就能获得一致的估计量。
证明:假设真实模型为:y =β0+β1x 1+... +βK x K +γq +ε,其中q 为不可观测的遗漏变量。假定cov (x i , ε)=0,但遗漏变量q 与某解释变量x i 相关(1≤i ≤K ),
即cov (x i , q )≠0,故最小二乘法不是一致的。假设找到了一个代理变量z ,满足
q =δ0+δ1z +v ,其中cov (z , v )=0。
根据第一个条件(多余性),代理变量z 只通过q 对y 发生作用,因此与y 的扰动项ε不相关,即cov (z , ε)=0。根据第二个条件,q 的扰动项v 与所有的解释变量均不相关,即cov (x i , v )=0,∀i =1,..., K 。
将q 的表达式代入原模型可得,
y =(β0+γδ0)+β1x 1+... +βK x K +γδ1z +(γv +ε),其中γv +ε为新的扰动项。容易证明新扰动项与所有解释变量均不相关:
cov (x i , γv +ε)=γcov (x i , v )+cov (x i , ε)=0+0=0
cov (z , γv +ε)=γcov (z , v )+cov (z , ε)=0+0=0
因此,使用代理变量后,最小二乘法是一致的。 ■
在实际操作上,对于代理变量是否满足以上两个条件,也只能做定性的讨论,无法严格检验。如果使用不满足这两个条件的不完美代理变量(imperfect proxy),则仍会导致不一致的估计。
7.2无关变量(Irrelevant variables)
假设真实的模型为:y i =x i ′1β1+εi
而估计的模型为:y i =x i ′1β1+x i ′2β2+εi ,即加入了与y 无关的解释变量x i ′2。由于
x 2与y 无关,故根据定义,x 2也与y 的扰动项ε无关,即cov (x i 2, εi )=0。因此,
ˆ=β,p lim βˆ=0。但是,引入无关变量最小二乘法仍然是一致的,即p lim β112
n →∞
n →∞
ˆ的方差增大了。总之,对于解释变量后,由于受到无关变量的干扰,估计量β1
的选择最好要遵循经济理论的指导。
7.3 建模的策略:“由小到大”还是“有大到小”
“由小到大”(specific to general)的建模方式首先从小模型开始,然后再逐渐增加解释变量。从理论上来说,这种方法的缺点是,小模型很可能存在遗漏变量,这样系数估计量就不一致,t 检验、F 检验都可能失效,因此很难确定该如何取
舍变量。
与此相反,“有大到小”(general to specific)的建模方式从一个尽可能大的模型开始,收集所有可能的解释变量,然后再逐步剔除不显著的解释变量。这样做虽然冒着包含“无关变量”的危险,但其危害性毕竟没有“遗漏变量”严重。然而,在实际操作上,常常很难找到所有与被解释变量相关的解释变量。
因此,在计量的实证研究上,常常是采用以上两种策略的折衷方案。
7.4 解释变量个数的选择
好的经济理论应该用尽可能简洁的模型来尽可能好地描述复杂的现实世界。但这两个目标常常是矛盾的。在计量模型的设定上,增加更多的解释变量虽然可以提供模型的解释力(拟合优度),但也牺牲了模型的简洁性(parsimony )。我们需要在模型的解释力与简洁性之间找到一个最佳的平衡。在时间序列模型里,常常要选择包括多少期的滞后变量。可供选择的指标包括:
(1)校正的可决系数2:选择解释变量的个数以最大化2。
(2)赤池信息准则(Akaike Information Criterion,即AIC )
⎛e ′e ⎞2
min AIC ≡log ⎜⎟+K K
⎝n ⎠n
其中第一项为对模型拟合度的奖励,而第二项则为对解释变量过多的惩罚。当K 上升时,第一项下降而第二项上升。
(2)贝叶斯信息准则(Bayesian Information Criterion,即BIC )或施瓦兹信息准则(Schwarz Information Criterion,即SIC )
⎛e ′e ⎞log n
min AIC ≡log ⎜⎟+K K n n ⎝⎠
一般来说,log n >2(除非样本容量很小)。因此,BIC 对于解释变量过多的惩罚比AIC 严厉。
Stata 命令:
reg y x1 x2 x3
estat ic (ic 表示information criterion)
7.5 对函数形式的检验
显然,很多经济关系是非线性的。因此,多元线性回归只能被看作是一种一阶线性近似。但是,二阶乃至高阶的非线性部分真的不重要吗?为此,常使用Ramsey’s RESET (Regression Equation Specification Error Test)检验。其基本思想是:如果你怀疑非线性项被遗漏了,那么就引入非线性项来检验它们的系数是否显著。 假设线性回归模型为:y =x ′β+ε
ˆ2就包含了ˆ是解释变量x 的一个线性组合,y ˆ=x ′b 。既然y 回归后可得拟合值y
ˆ4就包含了中中各解释变量二次项(含平方项与交叉项)的信息,以此类推,y 各解释变量四次项的信息。考虑一个新的回归:
ˆ2+δ3y ˆ3+δ4y ˆ4+ε y =x ′β+δ2y
对原假设H 0:δ2=δ3=δ4=0做F 检验。如果拒绝H 0,则说明模型中应该有高次项;如果接受H 0,就说明可以使用线性模型。RESET 检验的缺点是在拒绝H 0的情况下,它并不提供具体需要将哪些高次项加入模型的信息。
Stata 命令:
reg y x1 x2 x3
ˆ2,y ˆ3,y ˆ4) estat ovtest (使用y
ˆ的幂) estat ovtest,rhs(使用解释变量的幂来代替y
其中,ovtest 代表omitted variable test,因为遗漏高次项的后果类似于遗漏解释变量。比如,假设真实模型为y =α+βx +γx 2+ε,但γx 2被遗漏。显然,
()
cov x , γx 2+ε=γcov x , x 2+cov (x , ε)=γcov x , x 2≠0。因此,遗漏高次项也会导致遗漏变量偏差。
对于如何确定回归方程的函数形式,最好是从经济理论出发,即通过经济模型的推导来得到回归方程的具体形式。比如,通过对人力资本模型的研究可知,教育投资回报率方程应该采用单对数形式。
7.6 多重共线性(Multicollinearity 或collinearity )
如果数据矩阵X 不满列秩,即某一解释变量可以由其他解释变量线性表出,则
−1
存在“严格多重共线性”。此时,(X ′X )不存在,最小二乘法无法定义,总体参
()()()
数β不可识别。“严格多重共线性”在现实数据中很少出现,即使出现Stata 也会自动识别并删去多余解释变量。
较为常见的是近似的多重共线性,表现为如果将第k 个解释变量对其余的解释变量x 1,..., x k −1, x k +1,..., x K 回归,所得到的可绝系数R k 2较高。在存在多重共线性的情况下,OLS 仍然是最佳线性无偏估计(BLUE ),即在所有线性无偏估计中具有最小的方差。但这并不意味着OLS 估计量方差在绝对意义上小。由于存在多重
−1
共线性,X ′X 变得几乎不可逆,故从某种意义上来说,(X ′X )变得很“大”,致
使方差var (b |X )=σ2(X ′X )增大。在这种情况下,只要X 矩阵中元素轻微地变
−1
化,就可能引起(X ′X )极大的变化,进而导致OLS 估计值b 发生很大变化。通
−1
常的症状是虽然整个回归方程的R 2较大、F 检验也很显著,但单个系数的t 检验却不显著,或者系数估计值大小不合理、甚至符号与理论预期相反。
可以证明,协方差矩阵主对角线上第k 个元素可以表示为:
var (b k |X )=
1−R S
2k
σ2
kk
,其中S kk ≡∑(x ik −k )为x k 的离差平方和。
2
i =1
n
定义方差膨胀因子(Variance Inflation Factor)为VIF k ≡var (b k |X )=VIF k
1
,则 2
1−R k
σ2
S kk
。VIF 越大则说明多重共线性问题越严重。一个经验规则是
VIF 1,..., VIF K }不超过10。 最大的VIF =max {
Stata 命令:estat vif(将列出所有解释变量的VIF 值)
解决多重共线性的方法:
(1)如果多重共线性并不影响你所关心变量的显著性,那么可以不必理会(do nothing )。在有“方差膨胀”的情况下,你所关心的系数依然显著;如果没有多重共线性,则这些系数将更加显著。
(2)如果多重共线性影响到你所关心变量的显著性了,则需要增大样本容量,剔除严重共线性的变量,或对模型进行重新设定。
7.7 极端数据(Outliers, influential data)
回归系数可能受个别极端观测值的很大影响,见图。
第i 个观测数据对回归系数的影响力(leverage )可以通过投影矩阵
P ≡X (X ′X )X ′对应的主对角线元素来表示,即
−1
lev i ≡x i ′(X ′X )x i
−1
所有观测数据的影响力lev i 满足:
0≤lev i ≤1,∀i =1,..., n
∑lev
i =1
n
i
=K
因此,影响力lev i 的平均值为可以证明:
K
。记b (i )为去掉第i 个观测数据后的参数估计值,n
⎛1⎞−1
′⎟()b −b =−⎜X X x i e i ⎜1−lev ⎟i ⎠⎝
(i )
K
高很多,n
则可能为对回归系数有很大影响的极端值。此时,首先要仔细检查是否数据输入有误,其次检查是否由于某种与研究课题无关的特殊现象所导致。必要时可以删除极端数据。
Stata 命令:
reg y x1 x2 x3
predict lev, leverage(列出所有解释变量的leverage 值) gsort –lev(将所有观测数据按lev 的降序排列) sum lev (看到lev 的最大值与平均值) list in 1/10(列出从第1到第10个数据)
注:如果用命令“sort ”,则只能按升序排列。
因此,lev i 越大则b (i )−b 的变化越大。如果某些数据的lev i 比平均值