第2章双变量回归分析:一些基本概念

12-16

2章双变量回归分析：第

一些基本概念

回忆：回归分析是要根据解释变量的已知或给定值，去估计或预测被解释变量的总体均值

21一个假设的例子2.1个假设的例子

研究每周家庭消费支出Y 与每周可支配的家庭收入X 之间的关系

假设这个国家的总体由60户家庭组成。可以按收入的高低把这60户家庭分组，每一组的组内收入相差户家庭分组每组的组内收入相差不大。假定我们得到的观察值如表2.1所示

表2.1 X：每周家庭收入（$）

y [***********][1**********]

[***********]35137150

每

周

家

庭

消

费

支

出[***********][***********][***********][***********][***********][**************]0

—88—113125140—160189185

———115———162—191

共计[***********][1**********]11

可以由表2.121绘制如右图的散点图

散点图表明对应于各个X 值的Y 的条件分布，它表明随着收入的增加消费支出平均地说也在增加随着收入的增加，消费支出平均地说也在增加。

Y 的条件均值随X 增加而增加。图中的粗圆点（大的黑点）表示Y 的各个条件均值

将条件均值连起来得到总体回归线（population regression line, PRL ）或更一般地称为或更般地称为总体回归曲线（population regression curve ），更简单地说，就是Y 对X 的回归。的回归

从几何意义上讲，总体回归曲线就是，当解释变量取给定值时因变量的条件均值或条件期望的轨迹取给定值时，因变量的条件均值或条件期望的轨迹

图2.121可以画成图2.222的形式

可见，对应于每一个X i 都有一个Y 值的总体和一个

相应的条件均值，而回归直线（曲线）正好穿过这些条件均值。

2.2总体回归函数（PRF ，population regression function）

X i 的一个函数，由图2.1和图2.2可见，每一个条件均值都是

即：

E (Y |X i ) =f (X i ) （2.2.1）

这个方程就叫做（双变量的）总体回归函数（PRF ）或简称总体回归（population regression, PR），它表明Y 的均值或平均响应（average responseg p ）是如何随X 而不同

E (Y |X i ) 是X i 的线性函数：济理论可以给我们一些指导。假如，济理论可以给我们些指导。假如，f (X i ) 的具体函数形式如何确定是一个经验问题，已知的经

E (Y |X i ) =β1+β2X i （2.2.2）

β1和β2为回归系数（regression coefficients ），（2.2.2）称为线性总体回归函数，或简称线性总体回归。

2.3“线性”一词的含义

（2.2.2）式被称为“线性”总体回归，其中的“线性”的含义是什么？

它可以作两种解释：

（1）对变量为线性

即：Y 的条件期望值是X i 的线性函数，从几何意义上看这样的回归曲线是条直线义上看，这样的回归曲线是一条直线。

诸如：E (Y |X i ) =β1+β2X i 2

这样的回归函数，就不是线性的。

2.4 PRF的随机设定

我们现在再回到表2.1和图2.1，可见，随着家庭收入↑，家庭消费支出平均地看也会↑；但是对具体的某；但是对具体的某一个家庭的消费个家庭的消费支出却不一定随收水平↑而↑

给定收入水平X i 的个别家庭的消费支出，聚集在收入为的个别家庭的消费支出聚集在收入为X i

的所有家庭的平均消费支出的周围，也就是围绕着它的条件均值

个别的Y i 围绕它的期望值的离差（deviation ）可以表示如下：

u i =Y i −E (Y |X i ) 或

Y i =E (Y |X i ) +u i （2.4.1）

离差u i 是一个不可观测的随机变量，称之为随机干扰（stochastic disturbance ）或随机误差项（stochastic error ）

从计量经济学上看，对于给定的从计量经济学上看对于给定的X 水平，个别家庭的支出可以水平个别家庭的支出可以分解为两个部分：

①表示收入相同的所有家庭的平均消费支出，称为①表示收入相同的所有家庭的平均消费支出称为系统性（systematic ）或确定性（deterministic ）成分（component ）。②u i 为随机的或非系统性成分（成分nonsystematic component）。它是代表所有可能影响Y 的，但又没有包括到回归模型中的替代（surrogate ）或代理（proxy ）变量

假定E (Y |X i ) 对X i 是线性的，（2.4.1）式便可以写为：

（2.4.2）

Y i =β1+β2X i +u i

它表示消费支出Y 线性地依赖于相应的收入X i 和随机扰动项项。

Y i =β1+β2X i +u i

由（2.4.1241）式：）式两边取期望值得：E (Y i |X i ) =E [E (Y |X i )]+E (u i |X i )

↓

常数的期望是它本身

=E (Y |X i ) +E (u i |X i )

而

所以有：E (Y i |X i ) 也就是E (Y |X i ) ，所以有：

E (u i |X i ) =0

（2.4.5）

这就是说，给定X i ，u i 的条件均值等于零。

2.5 随机干扰项的意义2.5

干扰项是模型中省略掉的，又集体地影响Y 的全部因素（变量）的替代物（surrogate ）

那么，为什么不构造一个含有尽可能多的解释变量的复回归模型呢？原因如下：原因如下

理论的含糊性

现有的理论往往是不完全的物理学上有个“测不准定现有的理论往往是不完全的。物理学上有个“测不准定理”：我们永远不可能接近真实的世界，因为我们的观测总是要借助于工具和环境。

数据的欠缺

比如在分析影响家庭消费支出的例子中应该加进“比如，在分析影响家庭消费支出的例子中，应该加进财富”变量，然而，人们总是怕“露富”，有些人“装富”，所以，一般很难得到有关家庭财富的确切数据。

核心变量与周边变量（Core C variables i bl vs. peripheral i h l variables ）

在消费——收入的例子中，除了收入的例子中除了X 1（家庭收入）外，家（家庭收入）外家庭的儿童数X 2，性别X 3，宗教X 4，教育X 5和地区X 6也影响支出但这些变量的影响可能很小以至于可以忽略不计出。但这些变量的影响可能很小，以至于可以忽略不计，因此称它们为周边变量（peripheral variables ）还有一个原因：性别、教育、宗教等变量难以数量化（性别教育宗教等变难以数化difficult to q quantify y ）。人类行为的内在随机性

社会科学研究的是人类的行为。人为什么如此行动，有社会科学研究的是人类的行为人为什么如此行动有时连他自己都说不清楚。

糟糕的替代变量（poor proxy variables ）

举个例子Milton Friedman （弗里德曼）的消费函数理论把永久消费（Y P ）（permanent t consumption ti ）看作是永久收入（X P ）（permanent income ）的函数。

“永久消费”和“永久收入”是两个抽象的概念，不“永久消费”和“永久收入”是两个抽象的概念不可以观测，实际上，只能用可以观测到的当前消费Y （current consumption ）和当前收入X （current income ），）或者n 个时期的平均值去替代。这便有个测量误差。∴干扰项u i 也用来代表测量误差。节省原则

做回归模型，在许可的范围内尽量节省做回归模型在许可的范围内尽量节省——减少变量的个数。这也有个“投入产出”的问题。当然，不能为了简单而省去有关的和重要的变量。简单而省去有关的和重要的变量

错误的函数形式比如：

Y i =β1+β2X i +u i

ln Y i =β1+β2ln X i +u i

Y 2

i =β1+β2X i +β3X i +u i

Y i =β1+β2ln X i +u i

到底是哪一种，可能我们并不是十分清楚，借助于经济理论，散点图会有助于我们的分析。

2.6 样本回归函数（SRF ，The Sample Regression Function）表2.121是一个总体，这是一个假定的总体，在现实的经济生是个总体这是个假定的总体在现实的经济生活中总体的所有观测值往往是不能够全部获得的。在大多数情况下，我们只有对应于某些固定的在大多数情下我们只有对应于某些固定的X 的Y 值的一值的个样本。比如，对于表2.1的总体我们只知道如下的抽取的样本:

表2.4 表2.1总体的一个随机样本

Y [***********]40155150

X [***********][1**********]

表2.5 表2.1总体的另一个随机样本

Y [***********]35145175

X [***********][1**********]

那么，我们能否从上表的样本数据预测整个总体中对应于选定X 的平均的消费支出Y 呢？或者说，能否呢？或者说能否估计出PRF ？

根据表2.424和表2.525可以得到如下的散点图。可以得到如下的散点图

SRF 1是根据第一个样本画的；而SRF 2是根据第二个样本画的。图中的回归线叫样本回归线（sample regression lines）

对应于样本回归线的方程叫样本回归函数（sample regression i function f ti ，简记简记SRF ）：）

ˆ+βˆX ˆ=βY i 12i （2.6.1）

ˆ表示E (Y |X i ) 的估计量Y

ˆ表示β的估计量β11

ˆ表示β的估计量β22

估计量（estimator ），也称样本的统计量（statistic ）是总体参数的一个估计。由估计量算出的一个具体的数值，称之为估计值（estimate i ）

SRF （2.6.1）式可以写成相应的随机形式：

ˆ+βˆX +u ˆi Y i =β12i

）u ˆi 表示样本残差或剩余项（residual ），ˆi 是u i 的估u 计量。

回归分析的主要任务是根据SRF

：

ˆ+βˆX +u ˆi Y i =β12i （2.6.2）

估计PRF ：Y i =β1+β2X i +u i

由于抽样有波动，根据SRF 来估计PRF ，最多只能是一个近似的估算是个近似的估算。见下图：见下图：

ˆ+βˆX ˆ=βSRF :Y i 12i

PRF :E (Y |X i ) =β1+β2X i

对于给定的X i (X =X i ) ，有一个观测值有个观测值Y =Y i 利用SRF 可以将所观测到的Y i 表示为：

ˆ+u ˆY i =Y i （2.6.3）

利用PRF 可以将所观测到的Y i 表示为：

Y i =E (Y |X i ) +u i （2.6.4）ˆ高估了那里的真值E (Y |X i ) 。对对A 点以左的任何Y i X i ，SRF 低估了PRF 。这种高估或低估是由抽样误差引起的。

用什么方法或规则，可以使SRF 可以尽可能地接ˆ尽可能接近β，近PRF ？或者说，怎样构造？或者说怎样构造SRF 使β11

ˆ尽可能接近β呢？β22

与《第2章双变量回归分析:一些基本概念》相关的范文

04-10 高二数学下学期备课组教学计划

教学目标、教材的重点通过推理与证明的教学，进一步体会合情推理、演绎推理以及二者之间的联系与差异；体会数学证明的特点，了解数学证明的基本方法，包括直接证明的方法和间接证明的方法；感受逻辑证明在数学以及日常生活中的作用，养成言之有理、论证有据的习惯。通过计数原理的教学，使学生掌握两个基本计数原理、排列、组合、二项式定理及应用，会解决简单的计数问题；体验计数与现实生活的联系，充分体会两个基本计数原理 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

04-29 2014年中考英语复习计划

　　九年级的这一学期是初中学习的最一个学习，也是初中阶段最为关键的一个学期，我们除了要继续学习英语知识外，还要对已学习过的知识进行系统性的总复习，并参加初中毕业、升学统一考试。　　而近几年来，各地区在致力于中考英语试题的改革，从这几年的中考试题来看，其试题容量大、覆盖面广，要求也愈来愈高，不仅加强了对英语基础知识的考查，更突出了对运用知识的能力的考查。根据近几年中考试题特点，英语的学习规律及学生 ...

07-23 武汉市2014初中数学考试试卷分析

武汉市20xx初中数学考试试卷分析本次考试是初中毕业学生的一次测试，又是对初中三年数学教学的一次终结性评价. 今年的试卷，试题既有亲和力，又新颖脱俗；既似曾相识，又改革创新；既注重基础，又突出能力；既背景新颖，又根植于课本；重视数学应用的考查，稳中求变，变中求新，导向明确。充分体现了义务教育的普及性、基础性和发展性，贯彻了《数学课程标准》提出“人人学有价值的数学，人人能获得必要的数学，不同的学生 ...

08-25 孝感市2014年中考调研考试数学质量分析报告

孝感市20XX年中考调研考试数学质量分析报告一、考查目的和命题的指导思想为了加强对教学质量的了解和质量跟踪，根据孝感市教研室的统一部署在全市九年级做调研质量检测，本次调研考试从为了准确地评价学生在新的数学课程方面的发展情况，促进我市课程改革工作继续深入地开展，注重学以致用，联系实际，培养学数学、做数学、用数学的意识，重视对学生学习数学知识与技能的评价和学生在数学思考能力和解决问题能力等方面发展 ...

03-18 八年级数学教学计划(新人教)

　　一、指导思想通过数学课的教学，使学生切实学好从事现代化建设和进一步学习现代化科学技术所必需的数学基本知识和基本技能；努力培养学生的运算能力、逻辑思维能力，以及分析问题和解决问题的能力。二、学情分析八年级是初中学习过程中的关键时期，学生基础的好坏，直接影响到将来是否能升学。80班、81班均是刚刚接手，对班上学生不了解，从原科任老师处得知：两班比较，81班优生稍多一些，但后进面却较大，学生非 ...

12-21 四年级下册科学教学计划

四年级下册科学教学计划学情分析经过近2年的科学学习，本年级的学生多数能做到以下几点： ⒈对科学课的学习比较感兴趣，能积极参与科学探究活动。 ⒉能在观察和实验中及时做好记录。 ⒊知道科学探究的过程经过“观察现象-提出问题-做出猜测-设计验证猜测的方案-收集、证据-分析证据、做出解释”等过程。 ⒋有控制变量的意识，会做一些简单的控制变量实验。 ⒌能小组协作完成科学探究任务。研究专题及实施策略为 ...

09-16 2014年度第一学期八年级数学教学计划

20xx-20xx学年度第一学期八年级数学教学计划一．指导思想通过数学课的教学，使学生切实学好从事现代化建设和进一步学习现代化科学技术所必需的数学基本知识和基本技能；努力培养学生的运算能力、逻辑思维能力，以及分析问题和解决问题的能力。二、学生基本情况分析本学期我任八（10）班的数学教学，从上学年期末考试情况来看，这个班学生的学习成绩都有所进步。但在学生所学知识的掌握程度上，形成了两极分化， ...

12-13 九年级数学下学期教学计划1

初三毕业班总复习教学时间紧，任务重，要求高，如何提高数学总复习的质量和效益，是每位毕业班数学教师必须面对的问题，下面我谈谈本学期的教学计划和中考总复习具体做法。周次时间教学内容周课时 13.1-3.6注册、缴费523.1~3.2复习；3.5直线与圆的位置关系；3.6圆与圆的位置关系；533.7弧长及扇形的面积；第三章回顾与思考；课题学习：设计遮阳篷第三章复习与练习；54第三章复习与测试4.150年 ...

随机推荐

猜你喜欢

第2章双变量回归分析:一些基本概念

·教职工奖励性绩效工资考核方案

·客户部经理竞职演讲稿

·下岗失业人员再就业优惠政策执行中存在的问题及对策

·在全市建设工程招投标工作会议上的讲话

·大学竞选团总支副书记自荐书

·锻炼培养工作总结

·鱼香肉丝的做法详细介绍

·矿山法竖井施工探讨

·电子信息新技术系列讲座报告 (3)

·第4课时:一位数除法笔算

·"清江鱼"调查研究实践报告

·幼儿园开展"转作风优环境"活动实施方案

·宿舍共建小结

·工作总结会议主持词

·辽宁省教育厅办公室关于2010年度辽宁省普通高等学校省

·论中国花鸟画的发展

·[不一样的卡梅拉--我想去看海]读后感

·一代「商圣」的传奇故事,教你如何叱咤政坛,经商致富!

·黄褐斑之氨甲环酸篇

·律师事务所责任书

第2章 双变量回归分析:一些基本概念

与《第2章 双变量回归分析:一些基本概念》相关的范文

·教职工奖励性绩效工资考核方案

·客户部经理竞职演讲稿

·下岗失业人员再就业优惠政策执行中存在的问题及对策

·在全市建设工程招投标工作会议上的讲话

·大学竞选团总支副书记自荐书

·锻炼培养工作总结

·鱼香肉丝的做法详细介绍

·矿山法竖井施工探讨

·电子信息新技术系列讲座报告 (3)

·第4课时:一位数除法笔算

·"清江鱼"调查研究实践报告

·幼儿园开展"转作风优环境"活动实施方案

·宿舍共建小结

·工作总结会议主持词

·辽宁省教育厅办公室关于2010年度辽宁省普通高等学校省

·论中国花鸟画的发展

·[不一样的卡梅拉--我想去看海]读后感

·一代「商圣」的传奇故事,教你如何叱咤政坛,经商致富!

·黄褐斑之氨甲环酸篇

·律师事务所责任书

第2章双变量回归分析:一些基本概念

与《第2章双变量回归分析:一些基本概念》相关的范文