第2章 双变量回归分析:一些基本概念
2章双变量回归分析:第
一些基本概念
回忆:回归分析是要根据解释变量的已知或给定值,去估计或预测被解释变量的总体均值
21一个假设的例子2.1个假设的例子
研究每周家庭消费支出Y 与每周可支配的家庭收入X 之间的关系
假设这个国家的总体由60户家庭组成。可以按收入的高低把这60户家庭分组,每一组的组内收入相差户家庭分组每组的组内收入相差不大。假定我们得到的观察值如表2.1所示
表2.1 X:每周家庭收入($)
x
y [***********][1**********]
[***********]35137150
每
周
家
庭
消
费
支
出[***********][***********][***********][***********][***********][**************]0
—88—113125140—160189185
———115———162—191
共计[***********][1**********]11
可以由表2.121绘制如右图的散点图
散点图表明对应于各个X 值的Y 的条件分布,它表明随着收入的增加消费支出平均地说也在增加随着收入的增加,消费支出平均地说也在增加。
Y 的条件均值随X 增加而增加。图中的粗圆点(大的黑点)表示Y 的各个条件均值
将条件均值连起来得到总体回归线(population regression line, PRL )或更一般地称为或更般地称为总体回归曲线(population regression curve ),更简单地说,就是Y 对X 的回归。的回归
从几何意义上讲,总体回归曲线就是,当解释变量取给定值时因变量的条件均值或条件期望的轨迹取给定值时,因变量的条件均值或条件期望的轨迹
图2.121可以画成图2.222的形式
可见,对应于每一个X i 都有一个Y 值的总体和一个
相应的条件均值,而回归直线(曲线)正好穿过这些条件均值。
2.2总体回归函数(PRF ,population regression function)
X i 的一个函数,由图2.1和图2.2可见,每一个条件均值都是
即:
E (Y |X i ) =f (X i ) (2.2.1)
这个方程就叫做(双变量的)总体回归函数(PRF )或简称总体回归(population regression, PR),它表明Y 的均值或平均响应(average responseg p )是如何随X 而不同
E (Y |X i ) 是X i 的线性函数:济理论可以给我们一些指导。假如,济理论可以给我们些指导。假如,f (X i ) 的具体函数形式如何确定是一个经验问题,已知的经
E (Y |X i ) =β1+β2X i (2.2.2)
β1和β2为回归系数(regression coefficients ),(2.2.2)称为线性总体回归函数,或简称线性总体回归。
2.3“线性”一词的含义
(2.2.2)式被称为“线性”总体回归,其中的“线性”的含义是什么?
它可以作两种解释:
(1)对变量为线性
即:Y 的条件期望值是X i 的线性函数,从几何意义上看这样的回归曲线是条直线义上看,这样的回归曲线是一条直线。
诸如:E (Y |X i ) =β1+β2X i 2
这样的回归函数,就不是线性的。
2.4 PRF的随机设定
我们现在再回到表2.1和图2.1,可见,随着家庭收入↑,家庭消费支出平均地看也会↑;但是对具体的某;但是对具体的某一个家庭的消费个家庭的消费支出却不一定随收水平↑而↑
给定收入水平X i 的个别家庭的消费支出,聚集在收入为的个别家庭的消费支出聚集在收入为X i
的所有家庭的平均消费支出的周围,也就是围绕着它的条件均值
个别的Y i 围绕它的期望值的离差(deviation )可以表示如下:
u i =Y i −E (Y |X i ) 或
Y i =E (Y |X i ) +u i (2.4.1)
离差u i 是一个不可观测的随机变量,称之为随机干扰(stochastic disturbance )或随机误差项(stochastic error )
从计量经济学上看,对于给定的从计量经济学上看对于给定的X 水平,个别家庭的支出可以水平个别家庭的支出可以分解为两个部分:
①表示收入相同的所有家庭的平均消费支出,称为①表示收入相同的所有家庭的平均消费支出称为系统性(systematic )或确定性(deterministic )成分(component )。②u i 为随机的或非系统性成分(成分nonsystematic component)。它是代表所有可能影响Y 的,但又没有包括到回归模型中的替代(surrogate )或代理(proxy )变量
假定E (Y |X i ) 对X i 是线性的,(2.4.1)式便可以写为:
(2.4.2)
Y i =β1+β2X i +u i
它表示消费支出Y 线性地依赖于相应的收入X i 和随机扰动项项。
Y i =β1+β2X i +u i
由(2.4.1241)式:)式两边取期望值得:E (Y i |X i ) =E [E (Y |X i )]+E (u i |X i )
↓
常数的期望是它本身
=E (Y |X i ) +E (u i |X i )
而
所以有:E (Y i |X i ) 也就是E (Y |X i ) ,所以有:
E (u i |X i ) =0
(2.4.5)
这就是说,给定X i ,u i 的条件均值等于零。
2.5 随机干扰项的意义2.5
干扰项是模型中省略掉的,又集体地影响Y 的全部因素(变量)的替代物(surrogate )
那么,为什么不构造一个含有尽可能多的解释变量的复回归模型呢?原因如下:原因如下
理论的含糊性
现有的理论往往是不完全的物理学上有个“测不准定现有的理论往往是不完全的。物理学上有个“测不准定理”:我们永远不可能接近真实的世界,因为我们的观测总是要借助于工具和环境。
数据的欠缺
比如在分析影响家庭消费支出的例子中应该加进“比如,在分析影响家庭消费支出的例子中,应该加进财富”变量,然而,人们总是怕“露富”,有些人“装富”,所以,一般很难得到有关家庭财富的确切数据。
核心变量与周边变量(Core C variables i bl vs. peripheral i h l variables )
在消费——收入的例子中,除了收入的例子中除了X 1(家庭收入)外,家(家庭收入)外家庭的儿童数X 2,性别X 3,宗教X 4,教育X 5和地区X 6也影响支出但这些变量的影响可能很小以至于可以忽略不计出。但这些变量的影响可能很小,以至于可以忽略不计,因此称它们为周边变量(peripheral variables )还有一个原因:性别、教育、宗教等变量难以数量化(性别教育宗教等变难以数化difficult to q quantify y )。 人类行为的内在随机性
社会科学研究的是人类的行为。人为什么如此行动,有社会科学研究的是人类的行为人为什么如此行动有时连他自己都说不清楚。
糟糕的替代变量(poor proxy variables )
举个例子Milton Friedman (弗里德曼)的消费函数理论把永久消费(Y P )(permanent t consumption ti )看作是永久收入(X P )(permanent income )的函数。
“永久消费”和“永久收入”是两个抽象的概念,不“永久消费”和“永久收入”是两个抽象的概念不可以观测,实际上,只能用可以观测到的当前消费Y (current consumption )和当前收入X (current income ),)或者n 个时期的平均值去替代。这便有个测量误差。∴干扰项u i 也用来代表测量误差。 节省原则
做回归模型,在许可的范围内尽量节省做回归模型在许可的范围内尽量节省——减少变量的个数。这也有个“投入产出”的问题。当然,不能为了简单而省去有关的和重要的变量。简单而省去有关的和重要的变量
错误的函数形式比如:
Y i =β1+β2X i +u i
ln Y i =β1+β2ln X i +u i
Y 2
i =β1+β2X i +β3X i +u i
Y i =β1+β2ln X i +u i
到底是哪一种,可能我们并不是十分清楚,借助于经济理论,散点图会有助于我们的分析。
2.6 样本回归函数(SRF ,The Sample Regression Function)表2.121是一个总体,这是一个假定的总体,在现实的经济生是个总体这是个假定的总体在现实的经济生活中总体的所有观测值往往是不能够全部获得的。在大多数情况下,我们只有对应于某些固定的在大多数情下我们只有对应于某些固定的X 的Y 值的一值的个样本。比如,对于表2.1的总体我们只知道如下的抽取的样本:
表2.4 表2.1总体的一个随机样本
Y [***********]40155150
X [***********][1**********]
表2.5 表2.1总体的另一个随机样本
Y [***********]35145175
X [***********][1**********]
那么,我们能否从上表的样本数据预测整个总体中对应于选定X 的平均的消费支出Y 呢?或者说,能否呢?或者说能否估计出PRF ?
根据表2.424和表2.525可以得到如下的散点图。可以得到如下的散点图
SRF 1是根据第一个样本画的;而SRF 2是根据第二个样本画的。图中的回归线叫样本回归线(sample regression lines)
对应于样本回归线的方程叫样本回归函数(sample regression i function f ti ,简记简记SRF ):)
ˆ+βˆX ˆ=βY i 12i (2.6.1)
ˆ表示E (Y |X i ) 的估计量Y
ˆ表示β的估计量β11
ˆ表示β的估计量β22
估计量(estimator ),也称样本的统计量(statistic )是总体参数的一个估计。由估计量算出的一个具体的数值,称之为估计值(estimate i )
SRF (2.6.1)式可以写成相应的随机形式:
ˆ+βˆX +u ˆi Y i =β12i
)u ˆi 表示样本残差或剩余项(residual ),ˆi 是u i 的估u 计量。
回归分析的主要任务是根据SRF
:
ˆ+βˆX +u ˆi Y i =β12i (2.6.2)
估计PRF :Y i =β1+β2X i +u i
由于抽样有波动,根据SRF 来估计PRF ,最多只能是一个近似的估算是个近似的估算。见下图:见下图:
ˆ+βˆX ˆ=βSRF :Y i 12i
PRF :E (Y |X i ) =β1+β2X i
对于给定的X i (X =X i ) ,有一个观测值有个观测值Y =Y i 利用SRF 可以将所观测到的Y i 表示为:
ˆ+u ˆY i =Y i (2.6.3)
利用PRF 可以将所观测到的Y i 表示为:
Y i =E (Y |X i ) +u i (2.6.4)ˆ高估了那里的真值E (Y |X i ) 。对对A 点以左的任何Y i X i ,SRF 低估了PRF 。这种高估或低估是由抽样误差引起的。
用什么方法或规则,可以使SRF 可以尽可能地接ˆ尽可能接近β,近PRF ?或者说,怎样构造?或者说怎样构造SRF 使β11
ˆ尽可能接近β呢?β22