简单线性回归模型
第二章 简单线性回归分析
一、填空题
1. 计量经济模型普通最小二乘法的基本假定有__零均值__、__同方差__、__无自相关_、_解释变量与随机变量相互独立_。
2. 被解释变量的观测值Y i 与其回归理论值E (Y ) 之间的偏差,称为____随机误差项
ˆ之间的偏差,称为__残差__。 ______;被解释变量的观测值Y i 与其回归估计值Y i
3. 对线性回归模型Y =β0+β1X +u 进行最小二乘估计,最小二乘法的原理是___残差的平方和最小___。
4. 高斯—马尔可夫定理证明在总体参数的各种线性无偏估计中,普通最小二乘估计量具有__有效性或方差最小性__的特性,并由此才使最小二乘法在数理统计学和计量经济学中获得了最广泛的应用。
5. 普通最小二乘法得到的参数估计量具有__线性_、___无偏性__、__有效性_统计性质。
6. 对于Y =b 0+b 1X 1+b 2X 2+u ,在给定臵信水平下,减小b 的臵信区间的途径主要有______提高样本观测值的分散度__________、____增加样本容量____________、________提高模型的拟合优度________。
7. 总平方和TSS 反映___被解释变量观测值与其均值___之离差的平方和;回归平方和ESS 反映了____被解释变量其估计值与其均值________________之离差的平方和;残差平方和RSS 反映了___被解释变量观测值与其估计值_________________之差的平方和。
8. 方程F 显著性检验的含义是_____模型中被解释变量与其解释变量之间的线性关系在总体上是否显著成立。___________________________。
9. 解释变量t 显著性检验的含义是 检验引入模型的各个解释变量是否有解释能力 。
二、单选题
1. 回归分析中定义( B )
A. 解释变量和被解释变量都是随机变量
B. 解释变量为非随机变量,被解释变量为随机变量
C. 解释变量和被解释变量都为非随机变量
D. 解释变量为随机变量,被解释变量为非随机变量
2. 最小二乘原理是指使( D )达到最小值的原则确定样本回归方程。 ˆ; C. Max(ˆ) ; B. ∑Y -Y ˆ) ; D. A. ∑(Y i -Y Y i -Y i i i i
i =1i =1n n ∑(Y i =1n i ˆ) 2 -Y i
3. 下图中―{‖所指的距离是( B )
ˆ- A. 随机误差; B. 残差; C. 离差Y -; D. 离差Y
4. 极大似然准则是从模型总体抽取n 组样本观测值的( C )最大的准则确定样本回归方程。
A. 离差平方和; B. 均值; C. 概率; D. 方差
5. 参数β的统计量b 是Y 的线性函数称为参数估计量具有( A ) 的性质。
A. 线性; B. 无偏性; C. 有效性; D. 一致性
6. 参数β的统计量b 具备有效性是指( B )
A. Var (b ) =0 B. Var (b ) 为最小
C. b-β=0 D. (b-β) 为最小
7. 已知含有截距项的三元线性回归模型估计的残差平方和为2用于模型估e ∑=300,
计的样本容量为n =24,则随机误差项u 的方差估计量为( B ) 。
A. 33.33; B. 15; C. 38.09; D. 36.36
8. 最常用的统计检验包括拟合优度检验、变量的t 显著性检验和( A )。
A. 方程的F 显著性检验 B. 多重共线性检验
C. 异方差性检验 D. 预测检验
9. 反映由模型中解释变量所解释的那部分离差大小的是( B ) 。
A. 总体平方和 B. 回归平方和 C. 残差平方和
10. 总体平方和TSS 、残差平方和RSS 与回归平方和ESS 三者的关系是( B )。
A. RSS=TSS+ESS B. TSS=RSS+ESS
C. ESS=RSS-TSS D. ESS=TSS+RSS
11. 下面哪一个必定是错误的( D )。
ˆ=20+0. 3X , r =0.91 B. Y ˆ=-35+0. 2X , r =0.85 A. Y
ˆ=15-2. 3X , r =-0.78 D. Y ˆ=-67+0. 76X , r =-0.89 C. Y
ˆ=400-0. 6X ,12. 产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为Y
这说明( D )。
A. 产量每增加一件,单位产品成本增加400元
B. 产量每增加一件,单位产品成本减少0.6元
C. 产量每增加一件,单位产品成本平均增加400元
D. 产量每增加一件,单位产品成本平均减少0.6元
13. 回归模型Y i =β0+β1X i +u i ,i = 1,…,25中,总体方差未知,检验H 0:β1=0时,所用的检验统计量b 1-β1服从( D )。 S (b 1)
A. χ2(n -2) ; B. t (n -1) ; C. χ2(n -1) ; D. t (n -2)
14. 设k 为回归模型中的参数个数(包括截距项),n 为样本容量,RSS 为残差平方和,ESS 为回归平方和。则对总体回归模型进行显著性检验时构造的F 统计量为( A )。 A. F =ESS /(k -1) ESS /(k -1) ; B. F =1- RSS /(n -k ) RSS /(n -k )
ESS RSS ; D. F = RSS ESS C. F =
15. 根据可决系数R 2与F 统计量的关系可知,当R 2=1时有( C )。
A. F=1; B. F=-1; C. F→+∞ ; D. F=0
16. 线性回归模型的参数估计量b 是随机变量Y 的函数,即b =(X 'X ) -1X 'Y 。所以b 是( A )。
A. 随机变量; B. 非随机变量; C. 确定性变量; D. 常量
ˆ=X b 可以得到被解释变量的估计值,由于模型中参数估计量的不确定性17. 由 Y f f
ˆ是( A )。 及随机误差项的影响,可知Y f
A. 确定性变量; B. 非随机变量; C. 随机变量; D. 常量
18. 下面哪一表述是正确的( A )。
A. 线性回归模型Y =β0+β1X +u 的零期望(均值)假设是指1n
u i =0∑n i =1
B. 对模型Y =β0+β1X 1+β2X 2+u 进行方程显著性检验(即F 检验),检验的零假设是H 0:β0=β1=β2
C. 相关系数较大意味着两个变量存在较强的因果关系
D. 当随机误差项的方差估计量等于零时,说明被解释变量与解释变量之间为函数关系
三、多选题
1. 下列哪些形式是正确的( BEFHJ )。
A. Y =β0+β1X 1; B. Y =β0+β1X 1+u ; C. Y =b 0+b 1X 1+u ;
ˆ=b +b X +u ; E. Y ˆ=b +b X ; F. E (Y ) =β0+β1X 1 D. Y 011011
ˆ=b +b X +e ; G. Y =b 0+b 1X 1; H. Y =b 0+b 1X 1+e ; I. Y 011
J. E (Y ) =b 0+b 1X 1
2. 调整后的多重可决系数2的正确表达式有( BC )。 (Y -) ∑A. 1-∑(Y -Y )
C. 1-(1-R ) 222ˆ) (Y -Y ∑; B. 1-/(n -k ) (Y -) /(n -1) 22/(n -k ) /(n -1) n -12n -k ; D. 1-(1-R ) n -k n -1
2n -k E. 1-(1+R ) n -1
3. 设k 为回归模型中的参数个数(包括截距项),则总体线性回归模型进行显著性检验时所用的F 统计量可表示为( BC )。 ˆ-) /(k -1) ˆ-) /(n -k ) (Y (Y A. ; B. e /(k -1) e /(n -k ) 2222
R 2/(k -1) (1-R 2) /(n -k ) R 2/(n -k ) C. ; D. ; E. 222(1-R ) /(n -k ) R /(k -1) (1-R ) /(k -1)
4. 回归平方和ˆ∑y 2是指( BC )。
A. 被解释变量的观测值Y 与其平均值的离差平方和
ˆ与其平均值的离差平方和 B. 被解释变量的回归值Y
C. 被解释变量的总体平方和∑y 2与残差平方和∑e 2之差
D. 解释变量变动所引起的被解释变量的离差的大小
E. 随机因素影响所引起的被解释变量的离差大小
5. 在多元线性回归分析中,修正的可决系数与可决系数R 之间( AD )。 A.
6. 由下列方程判断模型( G )属于变量呈线性,模型( ABCG )属于系数呈线性,模型( G )既属于变量呈线性又属于系数呈线性,模型( E )既不属于变量呈线性也不属于系数呈线性。
3A .Y =β0+β1X 1+u ; B. Y =β0+β1ln X 1+u 1
C. ln Y =β0+β1ln X 1+u ; D. Y =β0+β1(β2X 1) +u
E. Y =β0/β1X 1+u ; F. Y =1+β0(1-X 11) +u
G. Y =β0+β1X 1+β2X 2+u β
四、简答题
1. 什么是相关分析(Correlation )?
是分析研究两个两个及两个以上变量间关系密切程度的统计方法。
2. 什么是相关图(Correlation graph)?
是将两个变量的统计数据在平面直角坐标系中绘制散点图,来观察变量之间的相关关系。
3. 什么是相关系数 (Correlation coefficient)?
相关系数是对两个变量的相关关系的密切程度进行数量刻划的统计量。
4. 给定一元线性回归模型:Y =β0+β1X 1+u
(1)叙述模型的基本假定;
(2)写出参数β0和β1的最小二乘估计公式;
(3)说明满足基本假定的最小二乘估计量的统计性质;
(4)写出随机扰动项方差的无偏估计公式。
5. 从经济学和数学两个角度说明计量经济学模型的理论方程中必须包含随机误差项。
6. 非线性计量模型转化成线性模型数学处理方法。
7. 最小二乘法和最大似然法的基本原理。
8. 最小样本容量、满足基本要求的样本容量。
9. 拟合优度检验与方程显著性检验的区别与联系。
10. 如何缩小被解释变量预测值的臵信区间。
增大样本容量;提高模型的拟合优度;提高样本观测值的分散度。
五、实践题
1.下表列出若干对因果关系变量。对每一对变量,你认为它们之间的关系如何?是正的、负的、还是无法确定?并说明理由。
GNP
个人储蓄
小麦产出
美国国防开支
棒球明星本垒打的次数
总统声誉
学生计量经济学成绩
日本汽车的进口量 利率 利率 降雨量 前苏联国防开支 其年薪 任职时间 其统计学成绩 美国人均国民收入
2. 现代投资分析的特征线涉及如下回归方程:r t =β0+β1r mt +u t ;其中:r 表示股票或债券的收益率;r m 表示有价证券的收益率(用市场指数表示,如标准普尔500指数);t 表示时间。在投资分析中,β1被称为债券的安全系数β,是用来度量市场的风险程度的,即市场的发展对公司的财产有何影响。依据1956~1976年间240个月的数据,Fogler 和Ganpathy 得到IBM 股票的回归方程;市场指数是在芝加哥大学建立的市场有价证券指数:
r t =0. 7264+1. 0598r mt R 2=0. 4710 (0.3001) (0.0728)∧
要求:
(1)解释回归参数的意义;
(2)如何解释R 2?
(3)安全系数β>1的证券称为不稳定证券,建立适当的零假设及备选假设,并用t 检验进行检验(α=5%)。
3. 某农产品试验产量Y (公斤/亩)和施肥量X (公斤/亩)7块地的数据资料汇总如下:
22∑X =255, ∑Y =3050;∑x =1217. 71;∑y =8371. 429; ∑xy =3122. 857
后来发现遗漏的第八块地的数据:X 8=20,Y 8=400。
要求汇总全部8块地数据后分别用小代数解法和矩阵解法进行以下各项计算,并对计算结果的经济意义和统计意义做简要的解释。
(1)该农产品试验产量对施肥量X (公斤/亩)回归模型Y =β0+β1X 1+u 进行估计。
(2)对回归系数(斜率)进行统计假设检验,显著性水平为0.05。
(3)估计可决系数并进行统计假设检验,显著性水平为0.05。
(4)计算施肥量对该农产品产量的平均弹性。
(5) 令施肥量等于50公斤/亩,对农产品试验亩产量进行预测,信度为0.05。
(6)令施肥量等于30公斤/亩,对农产品试验平均亩产量进行预测,显著性水平为0.01。
4. 考虑以下预测的回归方程:
ˆt =-120+0. 10F t +5. 33RS t R 2=0. 50 Y
其中:Y t 为第t 年的玉米产量(蒲式耳/亩);F t 为第t 年的施肥强度(磅/亩);RS t ——第t 年的降雨量(英寸)
回答下列问题:
(1)从F 和RS 对Y 的影响方面,说出本方程中系数0. 10和5. 33的含义;
(2)常数项-120是否意味着玉米的负产量可能存在?
(3)假定βF 的真实值为0. 40,则估计值是否有偏?为什么?
(4)假定该方程并不满足所有的古典模型假设,即并不是最佳线性无偏估计值,则是否意味着βRS 的真实值绝对不等于5. 33?为什么?
5. 设某商品的需求量Y (百件),消费者平均收入X 1(百元),该商品价格X 2(元)的统计数据如下: (至少保留三位小数)
∑Y =800; ∑X 1=80; ∑X 2=60; ∑X X 12=439
∑Y
表1 2=67450; ∑X 12=740; ∑YX 1=6920; ∑YX 2=4500;n = 10 经EViews 计算部分结果如下:(表1、表2、表3中被解释变量均为Y , n = 10)
VARIABLE COEFFICIENT STD.ERROR T-STAT 2-TAILSIG
C 99.469295 13.472571 7.3830965 0.000
X1 2.5018954 0.7536147 3.3198600 0.013
X2 - 6.5807430 1.3759059 - 4.7828436 0.002
R-squared 0.949336 Mean of dependent var 80.00000
Adjusted R- squared 0.934860 S.D. of dependent var 19.57890
S.E of regression 4.997021 Sum of squared resid 174.7915
表2
VARIABLE COEFFICIENT STD.ERROR T-STAT Prob.
C 38.40000 8.3069248 4.6226493 0.002
X1 5.200000 0.9656604 5.3849159 0.001
R-squared 0.783768 Mean of dependent var 80.00000
Adjusted R- squared 0.756739 S.D. of dependent var 19.57890
S.E of regression 9.656604 Sum of squared resid 746.0000
表3
VARIABLE COEFFICIENT STD.ERROR T-STAT Prob.
C 140.0000 8.5513157 16.371750 0.000
X2 - 10.00000 1.3693064 -7.3029674 0.000
R-squared 0.869565 Mean of dependent var 80.00000
Adjusted R- squared 0.853261 S.D. of dependent var 19.57890
S.E of regression 7.500000 Sum of squared resid 450.0000 完成以下任务,并对结果进行简要的统计意义和经济意义解释(要求列出公式、代入数据及计算结果,计算结果可以从上面直接引用)。
(1)建立需求量对消费者平均收入、商品价格的线性回归方程并进行估计。
(2)对偏回归系数(斜率) 进行检验,显著性水平α=0.05。
(3)估计多重可决系数,以显著性水平α=0.05对方程整体显著性进行检验。并估计校正可决系数。
(4)计算商品需求量分别与消费者平均收入和商品价格的偏相关系数。
(5) 用Beta 系数分析商品需求量对消费者平均收入的变化以及商品需求量对商品价格的变化哪个更敏感。
(6) 需求量对收入的弹性以及需求量对价格的弹性分别是多少。
(7) 假如提高消费者收入和降低价格是提高商品需求量的两种可供选择的手段,你将建议采用哪一个,为什么?
(8) 设消费者平均收入为700元、商品价格为5元
(9) 用需求量对消费者平均收入、商品价格的回归方程,对需求量进行均值区间预测,显著性水平α=0.01。
(10) 在需求量对消费者平均收入的回归方程和需求量对商品价格的回归方程中,选择拟合优度更好的一个回归方程,对需求量进行均值区间预测,显著性水平α=0.01。
(11) 请对以上全部分析过程、结果和需要进一步解决的问题做出说明。
6. 设某地区机电行业销售额Y (万元)和汽车产量X 1(万辆)以及建筑业产值X 2(千万元)。经EViews 软件对1981年——1997年的数据分别建立线性模型和双对数模型进行最小二乘估计,结果如下:
表1
Dependent Variable: Y C
X1
R-squared
Adjusted R-squared -57.45496 45.70558 81.02202 15.66885 -0.709128 2.916971 0.4899 0.0113 545.5059 193.3659 0.903899 Mean dependent var 0.890170 S.D. dependent var
S.E. of regression
Sum squared resid
Log likelihood
表2
Dependent Variable: Ln (Y) Ln(X1)
R-squared
Adjusted R-squared
S.E. of regression
Sum squared resid
Log likelihood
64.08261 Akaike info criterion 57492.12 Schwarz criterion -93.19457 F-statistic 11.31701 11.46405 65.83991 0.387929 0.137842 2.814299 0.0138 6.243029 0.356017 -1.660563 -1.513526 99.81632 0.934467 Mean dependent var 0.925105 S.D. dependent var 0.097431 Akaike info criterion 0.132899 Schwarz criterion 17.11479 F-statistic 1.写出电行业销售额对汽车产量和建筑业产值的双对数线性回归估计方程。
2.对双对数模型进行经济意义检验和统计意义检验。
3.比较表1和表2,你将选择哪个模型?为什么?
4.如果有两种可供选择的措施以提高机电行业销售额,措施a 提高汽车产量,措施b 增大建筑业产值,你认为哪个措施效果更明显?为什么?
参考答案
一、填空题
1. 零均值,同方差,无自相关,解释变量与随机误差项相互独立(或者解释变量为非随机变量)
2. 随机误差项,残差
3. ∑e =∑(Y -Y ˆ) 22=∑(Y -b 0-b 1X ) 2
4. 有效性或者方差最小性
5. 线性,无偏性,有效性
6. 提高样本观测值的分散度,增大样本容量,提高模型的拟合优度
7. 被解释变量观测值与其均值,被解释变量其估计值与其均值,被解释变量观测值与其估计值
8. 模型中被解释变量与解释变量之间的线性关系在总体上是否显著成立
9. 检验引入模型中的各个解释变量是否有解释能力。
二、单选题
1.B ; 2.D ; 3.B ; 4.C ; 5.A ; 6.B ; 7.B ; 8.A ; 9.B
10. B; 11.D; 12.D; 13.D; 14.A; 15.C; 16.A; 17.A; 18. A
三、多选题
1.BEFHJ ; 2.BC ; 3.BC ; 4.BC ; 5.AD ;6.G; ABCG; G; E
四、简答题
1. 答:相关分析(Correlation ):是分析研究两个及两个以上变量间关系密切程度的统计方法,由定性分析(相关图)和定量分析(相关系数)来观察。在相关分析中,各变量的地位是平等的。相关分析是进行回归分析的前提。定性分析指观察相关图以判断变量之间相关的数学形式(直线相关、曲线相关)、相关的性质(正相关、负相关、无关)和相关关系的密切程度。定量分析则通过计算简单相关系数对这种关系的密切程度和性质加以量化。
2. 答:相关图(Correlation graph )是将两个变量的统计数据在平面直角坐标中绘制散点图,来观察变量之间的相关关系。由相关图可以定性判断变量之间关系的密切程度、相关的数学形式、相关的性质。
3. 答:相关系数 (Correlation coefficient ):相关系数是对两个变量间相关关系的密切程度进行数量刻划的统计量。一般用r 来表示,取值范围在-1~1之间,r 为正值,变量间为正相关关系。r 为负值,变量间为负相关关系。r 的绝对值越大,变量间的相关程度越高,反之,则越低。r 的计算方法有多种。
4.答:(1)零均值,等方差,无自相关,解释变量与随机误差项相互独立(或者解释变量为非随机变量)
2(2)b 0=σu ∑X n x 22, b 1=2σu
x 2
e =2(3)线性性,无偏性,有效性;(4)S e 2
n -2
5. 答:从数学角度,引入随机误差项,将变量之间的关系用一个线性随机方程来描述,用随机数学的方法来估计方程中的参数;从经济学角度,客观经济现象是十分复杂的,是很难用有限个变量、某一种确定的形式来描述的,这就是设臵随机误差项的原因。
6. 答:直接臵换法、对数变换法和级数展开法。
7.答:最小二乘法的基本原理是当从模型总体随机抽取n 组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据。最大或然法的基本原理是当从模型总体随机抽取n 组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n 组样本观测值的概率最大。
8.答:所谓―最小样本容量‖,即从最小二乘原理和最大或然原理出发,欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。样本容量必须不少于模型中解释变量的数目(包括常数项)。即n >k+1。虽然当n≥k+1时可以得到参数估计量,但除了参数估计
量质量不好以外,一些建立模型所必须的后续工作也无法进行。一般经验认为,当n≥30或者至少n≥3(k+1)时,才能说满足模型估计的基本要求。
9. 答:区别:它们是从不同原理出发的两类检验。拟合优度检验是从已经得到估计的模型出发,检验它对样本观测值的拟合程度,方程显著性检验是从样本观测值出发检验模型总体线性关系的显著性。联系:模型对样本观测值的拟合程度高,模型总体线性关系的显著性就强。
10.答:(1)增大样本容量n ;(2)提高模型的拟合优度,减少残差平方和;(3)提高样本观测值的分散度。