第七章设定误差与数据问题(计量)

01-01

第七章设定误差与数据问题

设定误差（specification error）指的是模型本身的设定就存在误差，如解释变量选择不当、测量误差、函数形式不妥等。

7.1遗漏变量（Omitted variables）

由于某些数据难以获得，遗漏变量现象几乎是难以避免的。假设真实的模型为：

y i =x i ′1β1+x i ′2β2+εi ，其中x 1, x 2可以是向量。

而估计的模型为：y i =x i ′1β1+u i ，即遗漏变量x i ′2β2被归入扰动项u i 中去了。

考虑以下的两种情形：

（1）遗漏变量x i 2与包含的解释变量x i 1不相关，即cov (x i 1, x i 2)=0。在这种情况下，根据大样本理论，最小二乘法依然是一致的。但由于遗漏变量x i ′2β2被归入扰动项u i 中，可能会增大扰动项的方差，从而影响最小二乘法估计的精确度。

（2）遗漏变量x i 2与包含的解释变量x i 1相关，即cov (x i 1, x i 2)≠0。在这种情况下，根据大样本理论，最小二乘法不再是一致的，其偏差被称为“遗漏变量偏差”（omitted variable bias）。这种偏差在经济计量的实践中比较常见，成为某些计量研究的致命伤。比如，在研究教育投资的回报率时，个体的先天能力差异是不可观测的，但能力与受教育年限很可能存在正相关。

解决“遗漏变量偏差”的方法主要有加入尽可能多的控制变量、使用代理变量（proxy variable）、工具变量法（第八章），使用面板数据（第九章）、以及随机实验等。这里主要介绍代理变量法。比如，在教育投资回归中，可以使用智商（IQ ）来作为个体能力的代理变量。一个理想的代理变量要满足以下两个条件：

（1）多余性（redundancy ）：即代理变量仅通过影响遗漏变量来作用于被解释变量。比如，“智商”仅通过对“能力”的影响来影响收入。换言之，假如有“能力”的数据，那么再引入“智商”来作为解释变量就是多余的。

（2）将遗漏变量剔除代理变量影响后的剩余部分与解释变量不相关。

命题：如果上述两个条件满足，则使用代理变量就能获得一致的估计量。

证明：假设真实模型为：y =β0+β1x 1+... +βK x K +γq +ε，其中q 为不可观测的遗漏变量。假定cov (x i , ε)=0，但遗漏变量q 与某解释变量x i 相关（1≤i ≤K ），

即cov (x i , q )≠0，故最小二乘法不是一致的。假设找到了一个代理变量z ，满足

q =δ0+δ1z +v ，其中cov (z , v )=0。

根据第一个条件（多余性），代理变量z 只通过q 对y 发生作用，因此与y 的扰动项ε不相关，即cov (z , ε)=0。根据第二个条件，q 的扰动项v 与所有的解释变量均不相关，即cov (x i , v )=0，∀i =1,..., K 。

将q 的表达式代入原模型可得，

y =(β0+γδ0)+β1x 1+... +βK x K +γδ1z +(γv +ε)，其中γv +ε为新的扰动项。容易证明新扰动项与所有解释变量均不相关：

cov (x i , γv +ε)=γcov (x i , v )+cov (x i , ε)=0+0=0

cov (z , γv +ε)=γcov (z , v )+cov (z , ε)=0+0=0

因此，使用代理变量后，最小二乘法是一致的。 ■

在实际操作上，对于代理变量是否满足以上两个条件，也只能做定性的讨论，无法严格检验。如果使用不满足这两个条件的不完美代理变量（imperfect proxy），则仍会导致不一致的估计。

7.2无关变量（Irrelevant variables）

假设真实的模型为：y i =x i ′1β1+εi

而估计的模型为：y i =x i ′1β1+x i ′2β2+εi ，即加入了与y 无关的解释变量x i ′2。由于

x 2与y 无关，故根据定义，x 2也与y 的扰动项ε无关，即cov (x i 2, εi )=0。因此，

ˆ=β，p lim βˆ=0。但是，引入无关变量最小二乘法仍然是一致的，即p lim β112

n →∞

ˆ的方差增大了。总之，对于解释变量后，由于受到无关变量的干扰，估计量β1

的选择最好要遵循经济理论的指导。

7.3 建模的策略：“由小到大”还是“有大到小”

“由小到大”（specific to general）的建模方式首先从小模型开始，然后再逐渐增加解释变量。从理论上来说，这种方法的缺点是，小模型很可能存在遗漏变量，这样系数估计量就不一致，t 检验、F 检验都可能失效，因此很难确定该如何取

舍变量。

与此相反，“有大到小”（general to specific）的建模方式从一个尽可能大的模型开始，收集所有可能的解释变量，然后再逐步剔除不显著的解释变量。这样做虽然冒着包含“无关变量”的危险，但其危害性毕竟没有“遗漏变量”严重。然而，在实际操作上，常常很难找到所有与被解释变量相关的解释变量。

因此，在计量的实证研究上，常常是采用以上两种策略的折衷方案。

7.4 解释变量个数的选择

好的经济理论应该用尽可能简洁的模型来尽可能好地描述复杂的现实世界。但这两个目标常常是矛盾的。在计量模型的设定上，增加更多的解释变量虽然可以提供模型的解释力（拟合优度），但也牺牲了模型的简洁性（parsimony ）。我们需要在模型的解释力与简洁性之间找到一个最佳的平衡。在时间序列模型里，常常要选择包括多少期的滞后变量。可供选择的指标包括：

（1）校正的可决系数2：选择解释变量的个数以最大化2。

（2）赤池信息准则（Akaike Information Criterion，即AIC ）

⎛e ′e ⎞2

min AIC ≡log ⎜⎟+K K

⎝n ⎠n

其中第一项为对模型拟合度的奖励，而第二项则为对解释变量过多的惩罚。当K 上升时，第一项下降而第二项上升。

（2）贝叶斯信息准则（Bayesian Information Criterion，即BIC ）或施瓦兹信息准则（Schwarz Information Criterion，即SIC ）

⎛e ′e ⎞log n

min AIC ≡log ⎜⎟+K K n n ⎝⎠

一般来说，log n >2（除非样本容量很小）。因此，BIC 对于解释变量过多的惩罚比AIC 严厉。

Stata 命令：

reg y x1 x2 x3

estat ic （ic 表示information criterion）

7.5 对函数形式的检验

显然，很多经济关系是非线性的。因此，多元线性回归只能被看作是一种一阶线性近似。但是，二阶乃至高阶的非线性部分真的不重要吗？为此，常使用Ramsey’s RESET （Regression Equation Specification Error Test）检验。其基本思想是：如果你怀疑非线性项被遗漏了，那么就引入非线性项来检验它们的系数是否显著。假设线性回归模型为：y =x ′β+ε

ˆ2就包含了ˆ是解释变量x 的一个线性组合，y ˆ=x ′b 。既然y 回归后可得拟合值y

ˆ4就包含了中中各解释变量二次项（含平方项与交叉项）的信息，以此类推，y 各解释变量四次项的信息。考虑一个新的回归：

ˆ2+δ3y ˆ3+δ4y ˆ4+ε y =x ′β+δ2y

对原假设H 0:δ2=δ3=δ4=0做F 检验。如果拒绝H 0，则说明模型中应该有高次项；如果接受H 0，就说明可以使用线性模型。RESET 检验的缺点是在拒绝H 0的情况下，它并不提供具体需要将哪些高次项加入模型的信息。

Stata 命令：

reg y x1 x2 x3

ˆ2，y ˆ3，y ˆ4） estat ovtest （使用y

ˆ的幂） estat ovtest,rhs（使用解释变量的幂来代替y

其中，ovtest 代表omitted variable test，因为遗漏高次项的后果类似于遗漏解释变量。比如，假设真实模型为y =α+βx +γx 2+ε，但γx 2被遗漏。显然，

()

cov x , γx 2+ε=γcov x , x 2+cov (x , ε)=γcov x , x 2≠0。因此，遗漏高次项也会导致遗漏变量偏差。

对于如何确定回归方程的函数形式，最好是从经济理论出发，即通过经济模型的推导来得到回归方程的具体形式。比如，通过对人力资本模型的研究可知，教育投资回报率方程应该采用单对数形式。

7.6 多重共线性（Multicollinearity 或collinearity ）

如果数据矩阵X 不满列秩，即某一解释变量可以由其他解释变量线性表出，则

−1

存在“严格多重共线性”。此时，(X ′X )不存在，最小二乘法无法定义，总体参

()()()

数β不可识别。“严格多重共线性”在现实数据中很少出现，即使出现Stata 也会自动识别并删去多余解释变量。

较为常见的是近似的多重共线性，表现为如果将第k 个解释变量对其余的解释变量x 1,..., x k −1, x k +1,..., x K 回归，所得到的可绝系数R k 2较高。在存在多重共线性的情况下，OLS 仍然是最佳线性无偏估计（BLUE ），即在所有线性无偏估计中具有最小的方差。但这并不意味着OLS 估计量方差在绝对意义上小。由于存在多重

−1

共线性，X ′X 变得几乎不可逆，故从某种意义上来说，(X ′X )变得很“大”，致

使方差var (b |X )=σ2(X ′X )增大。在这种情况下，只要X 矩阵中元素轻微地变

−1

化，就可能引起(X ′X )极大的变化，进而导致OLS 估计值b 发生很大变化。通

−1

常的症状是虽然整个回归方程的R 2较大、F 检验也很显著，但单个系数的t 检验却不显著，或者系数估计值大小不合理、甚至符号与理论预期相反。

可以证明，协方差矩阵主对角线上第k 个元素可以表示为：

var (b k |X )=

1−R S

σ2

，其中S kk ≡∑(x ik −k )为x k 的离差平方和。

i =1

定义方差膨胀因子（Variance Inflation Factor）为VIF k ≡var (b k |X )=VIF k

，则 2

1−R k

σ2

S kk

。VIF 越大则说明多重共线性问题越严重。一个经验规则是

VIF 1,..., VIF K }不超过10。最大的VIF =max {

Stata 命令：estat vif（将列出所有解释变量的VIF 值）

解决多重共线性的方法：

（1）如果多重共线性并不影响你所关心变量的显著性，那么可以不必理会（do nothing ）。在有“方差膨胀”的情况下，你所关心的系数依然显著；如果没有多重共线性，则这些系数将更加显著。

（2）如果多重共线性影响到你所关心变量的显著性了，则需要增大样本容量，剔除严重共线性的变量，或对模型进行重新设定。

7.7 极端数据（Outliers, influential data）

回归系数可能受个别极端观测值的很大影响，见图。

第i 个观测数据对回归系数的影响力（leverage ）可以通过投影矩阵

P ≡X (X ′X )X ′对应的主对角线元素来表示，即

−1

lev i ≡x i ′(X ′X )x i

−1

所有观测数据的影响力lev i 满足：

0≤lev i ≤1，∀i =1,..., n

∑lev

i =1

因此，影响力lev i 的平均值为可以证明：

。记b (i )为去掉第i 个观测数据后的参数估计值，n

⎛1⎞−1

′⎟()b −b =−⎜X X x i e i ⎜1−lev ⎟i ⎠⎝

(i )

高很多，n

则可能为对回归系数有很大影响的极端值。此时，首先要仔细检查是否数据输入有误，其次检查是否由于某种与研究课题无关的特殊现象所导致。必要时可以删除极端数据。

Stata 命令：

reg y x1 x2 x3

predict lev, leverage（列出所有解释变量的leverage 值） gsort –lev（将所有观测数据按lev 的降序排列） sum lev （看到lev 的最大值与平均值） list in 1/10（列出从第1到第10个数据）

注：如果用命令“sort ”，则只能按升序排列。

因此，lev i 越大则b (i )−b 的变化越大。如果某些数据的lev i 比平均值

与《第七章设定误差与数据问题(计量)》相关的范文

05-03 便携式瓦斯报警仪检修工操作规程

便携式瓦斯报警仪检修工操作规程一、正常操作：（一）便携式瓦斯报警仪的发放 1、发放前，先打开开关预热15分钟后，显示器为零，若有偏差，可以调整电位器给予校正，使其显示为零。 2、发放前必须进行电压检查。如显示欠压或电池电压不足，要重新充电。电池电压不足时，不准投入使用。 3、对维修的仪器各部分的检查，应按照“便携式瓦斯报警仪检查维修”部分进行操作。 4、按照《煤矿安全规程》规定的必须配带便携式 ...

12-04 高效液相色谱仪验证方案

高效液相色谱仪验证方案验证文件类别：技术标准编号：V-A-c-004-0 部门：验证委员会页码：共1页，第1页高效液相色谱仪验证方案版次：¨ 新订 ¨替代：起草：年月日部门审核：年月日审阅会签：（验证委员会）批准：年月日实施日期：年月日复印数：批准：分发至：目录 1.设备基本情况 1.1概述 1.2基本情况 3职责 3.1验证委员会 ...

02-22 用户稽查.气费追缴管理办法

用户稽查、气费追缴管理办法第一条为了规范用户稽查和气费追缴管理，明确欠费计算原则，堵塞计量漏洞，制定本办法。第二条本办法适用于城市居民用户、商业用户的收费管理，执行照付不议合同的用户按合同有关条款办理。第三条用户稽查和气费追缴由市场部抄表人员和安全检查监督部相关人员实施，并列入部门绩效考核内容。第四条对一些长期不购气的居民用户和用气量波动较大的工商用户作为稽查的重点对象，每个月由市场部根据 ...

06-07 某煤矿原煤生产计量管理规定

一、三井原煤产量计量规定　　（一）三井原煤产量全部采用核子秤计量，主井提升勾数作为原煤产量的辅助计量。　　（二）计量工具的管理　　1、主计量工具（核子秤）的管理　　⑴零点检测　　①质管中心每旬要对核子秤进行一次零点检测，三井皮带工区要及时主动地配合测试，皮带工区若不配合零点检测,一次罚皮带工区500元。　　②当装有核子秤的皮带出现截短、更换、断带、大修等情况时，三井皮带工区应及时向矿总 ...

10-18 主机操作员岗位职责

主机操作员岗位职责 1．加强安全意识，熟悉生产设备各部位功能，严格按操作规章进行生产，做到安全文明生产。 2．严格按照“生产用混凝土配合比调整通知单”数据设定计量值，按质检员的要求调整生产配合比，不得任意更/套用配合比。 3．坚守工作岗位，随时做好生产准备，接到具体生产任务后你，每一单位工程不同等级的混凝土应通知质检人员重新确认配合比，否则不得开盘，并按技术人员的要求设定搅拌时间。 4．当设备在运 ...

06-26 计量岗位党员先进事迹

　　我叫xxx，今年33岁，中共党员。1983年从事原油计量工作，参加工作以来,我当过化验员、副队长，20XX年5月担任计量站第一计量站站长。几年来,我始终把企业的利益放在首位，将领导的重托挂在心上。诚实守信，树立企业形象，科学计量，严格把关。团结和带领全体员工，圆满的完成了原油外输计量任务。20XX年，我站被评为公司先进集体，我本人也被评为油田公司优秀共产党员。　　第一计量站是公司的终端销售单 ...

10-18 不织布针轧车间开包机职责

不织布针轧车间开包机职责 1:负责对即将使用的原物料进行认真确认，对包装、包装的标签不符合或不清楚的棉包应暂放一边再向当班班长反映其情况，并让班长进行处理或决定使不使用其棉包。对使用的棉包要清楚记录其规格、重量。 2：棉包打开之后，要用手把包装棉花的袋子往下剥开，让整个棉包外露，细心查看棉包周边有无脏棉，如有脏棉要用手小心剥掉。棉花开包后，再进行对品质的确认，如会直接影响生产的异常，应及时向当班班 ...

03-24 测量实习报告

测量实习报告第一部分：前言一、实习目的与要求： 1．掌握水准仪的安置、整平、瞄准与读数和测定地面两点间的高差； 2．掌握全站仪对中、整平、瞄准与读数等基本操作要领； 3．掌握小地区碎布测量布点方式； 4.掌握测绘学的水准测量和导线测量的一般方法； 5.了解和掌握测绘有关内业处理软件的基本使用； 6.培养同学们的基本功，充分锻炼同学们在测，记，算绘各个方面的能力； 7.帮助同学们形成良好的团队协 ...

05-19 城市燃气安全管理制度

第一章总则　　第一条为保障人民生命财产和社会公共安全，加强燃气安全管理，根据有关法律、法规的规定，结合本市实际，制定本条例。　　第二条本市行政区域内燃气经营、使用及燃气设施的安全管理适用本条例。　　第三条　市市政公用事业局负责本市燃气安全工作的统一管理和监督。县(市、区)建设(公用事业)行政管理部门具体负责本辖区的燃气安全管理工作。　　安全生产监督、质量技术监督、城市管理行政执法、公安消防 ...

03-11 工程测量实习报告

一．实习时间：。。。。。。。。。。二．实习地点：。。。。。。。。。三．小组成员：组长：。。。。；组员：。。。。。。。。四．指导教师：。。。。。。。。。。五．实习目的：实习是工程测量教学的重要组成部分，除验证课堂理论外，还是巩固和深化课堂所学知识的环节，更是培养学生动手能力和训练严格的科学态度和作风的手段。通过控制网的建立、地形点的测绘、手绘成图等，可以增强测绘地面点的概念，提高解 ...

随机推荐

猜你喜欢

第七章设定误差与数据问题(计量)

·培训合作合同

·仁爱英语七下unit7知识点

·浅谈机动车辆保险产品的创新与完善

·朗诵 | 安静一种修养,沉默一种历练

·农家乐休闲垂钓投资项目可行性分析报告

·贵州省中等职业学校学生学籍管理实施细则

·公园内道路设计问题

·关于新建敬老院的请示汇报

·2017年浙江高考改革方案

·2014中国周边外交政策:向"强势中国"演变

·酒店服务员寒假社会实践报告

·专业技术工作总结(个人通用版)

·爱国卫生月活动工作总结

·"开卷有益"小议

·中国平安人寿保险股份有限公司工作通知书

·浅谈企业业务流程再造

·中国人在自己国家受的最大歧视是什么

·人教版五年级语文下册第一单元过关测试密卷

·自变量的取值范围

·2015北京高考英语3050单词-Word版-打印版