应用回归分析第四版课后习题答案_全_何晓群_刘文卿
实用回归分析第四版 第一章 回归分析概述
1.3 回归模型中随机误差项ε的意义是什么?
答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y与x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?
答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值
xi1.xi2…..xip是常数。2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^2
3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.
第二章 一元线性回归分析
思考与练习参考答案
2.1 一元线性回归有哪些基本假定?
答: 假设1、解释变量X是确定性变量,Y是随机变量;
假设2、随机误差项ε具有零均值、同方差和不序列相关性: E(εi)=0 i=1,2, …,n Var (εi)=σ2 i=1,2, …,n Cov(εi, εj)=0 i≠j i,j= 1,2, …,n 假设3、随机误差项ε与解释变量X之间不相关: Cov(Xi, εi)=0 i=1,2, …,n
假设4、ε服从零均值、同方差、零协方差的正态分布 εi~N(0, σ2 ) i=1,2, …,n 2.3 证明(2.27式),∑ei =0 ,∑eiXi=0 。
ˆ+βˆX))2ˆ)=∑(Y-(βQ=∑(Yi-Yii01i
2
nn
证明:
11
其中:
ˆ+βˆXˆ=βYi01iˆei=Yi-Yi
∂Q
=0∂
β
∂Q
=0∂β
1
即: ∑ei =0 ,∑eiXi=0
ˆ是β0的无偏估计。 2.5 证明β0
nn
Xi-1ˆ)=E(-βˆ)=E[Y-Yi) 证明:E(β∑i∑01
ni=1Li=1xx
nXi-X-11
=E[∑(-)Yi]=E[∑(-i)(β0+β1Xi +εi)]
LxxLxxi=1ni=1nn
Xi-X-11
=E[β0+∑(-)εi]=β0+∑(-i)E(εi)=β0
nLnLi=1i=1xxxx
n
n
2.6 证明 证明:
n
ˆ)=(1+Var(β0
n
2
∑(X
i=1
n
i
-)
12
)σ=σ(+)
nLxx2
2
2
n
X-Xi-211iˆ)=Var[(-Var(β)Y]=[(-)Var(β0+β1Xi +εi)] ∑∑0i
nLnLi=1i=1xxxx
Xi-Xi-2212122
=∑[()-2+()]σ=[+]σ
nnLxxLxxnLxxi=1
n
2.7 证明平方和分解公式:SST=SSE+SSR
nn证明: 2
ˆ)+(Yˆ-]2SST=∑(Yi-)=∑[Yi-Yii
i=1i=1
()
ˆ-=∑Yi
i=1n
n
()
2
ˆ)(Yˆ-+ˆ)+2∑Yi-Y∑Yi-Yiii
i=1
i=1
n
n
()
n
()
2
=∑(
i=1
2ˆˆ)Yi-+∑Yi-Yi
i=1
)()
2
=SSR+SSE
2.8 验证三种检验的关系,即验证: (1)t=
(n-2)r-r2
ˆ2
LxxβSSR/121==t;(2)F= 2
ˆSSE/(n-2)σ
证明:(1)
ˆ t======
(2)
ˆ+βˆx-)2=(+βˆ(x-)-)2=(βˆi-)=∑(βSSR=∑(y∑∑ˆ1(xi-))2=βˆ12Lxx01i1i
2
i=1
i=1
i=1
i=1
n
n
n
n
ˆ2 LβSSR/1
∴F==12xx=t2
ˆSSE/(n-2)σ
1(xi-)22
)σ 2.9 验证(2.63)式:Var(ei)=(1--
nLxx
证明:
ˆi)=var(yi)+var(yˆi)-2cov(yi,yˆi)var(ei)=var(yi-y
ˆ+βˆx)-2cov(y,+βˆ(x-))=var(y)+var(β
i
1i
i
1
i
(xi-)21(xi-)221=σ+σ[+]-2σ[+]nLxxnLxx
2
2
1(xi-)22
=[1--]σ
nLxx
ˆ(x-))=Cov(y,)+Cov(y,βˆ(x-))Cov(yi,+β1iii1i
n
(x-)1n
其中:=Cov(yi,∑yi)+(xi-)Cov(yi,∑iyi)
ni=1Li=1xx
12(xi-)221(xi-)22
=σ+σ=(+)σnLxxnLxx
ˆσ
2
2.10 用第9题证明证明:
∑e
=
2i
n-2是σ2的无偏估计量
1n1n2
ˆ)=ˆ)=E(σE(yi-yE(ei2)∑∑n-2i=1n-2i=1
2
1n1n1(xi-)22=[1--]σ ∑var(ei)=n-2∑n-2i=1nLi=1xx=
1
(n-2)σ2=σ2
n-2
第三章
1.一个回归方程的复相关系数R=0.99,样本决定系数R2=0.9801,我们能判断这个回归方程就很理想吗? 答:不能断定这个回归方程理想。因为:
1. 在样本容量较少,变量个数较大时,决定系数的值容易接近1,而此时可能F检验或者关于回归系数的t检验,所建立的回归方程都没能通过。
2. 样本决定系数和复相关系数接近于1只能说明Y与自变量X1,X2,…,Xp整体上的线性关系成立,而不能判断回归方程和每个自变量是显著的,还需进行F检验和t检验。
3. 在应用过程中发现,在样本容量一定的情况下,如果在模型中增加解释变量必定使得自由度减少,使得 R2往往增大,因此增加解释变量(尤其是不显著的解释变量)个数引起的R2的增大与拟合好坏无关。
ˆ*=β
j
ˆ,j
n
j=1,2,...,p
其中: Ljj=∑(Xij-Xj)2
i=1
2.被解释变量Y的期望值与解释变量X1,X2, ,Xk的线性方程为:
+βX E(Y)=β0+β1X12+2 +βkXk
(3-2)
称为多元总体线性回归方程,简称总体回归方程。
对于n组观测值Yi,X1i,X2i, ,Xki(i=1,2, ,n),其方程组形式为:
Yi=β0+β1X1i+β2X2i+ +βkXki+μi,(i=1,2,
,n)
(3-3) 即
⎧Y1=β0+β1X11+β2X21+ +βkXk1+μ1⎪Y=β+βX+βX+ +βX+μ⎪20112222kk22
⎨
⎪ ⎪⎩Yn=β0+β1X1n+β2X2n+ +βkXkn+μn
其矩阵形式为
⎡Y1⎤⎡1X11⎢Y⎥⎢
⎢2⎥=⎢1X12⎢ ⎥⎢ ⎢⎥⎢
⎣Yn⎦⎣1X1n
即
X21 X22 X2n
Xk1⎤ Xk2⎥⎥ ⎥
⎥
Xkn⎦
⎡β0⎤
⎢β⎥⎡μ1⎤⎢1⎥⎢μ⎥⎢β2⎥+⎢2⎥ ⎢⎥⎢ ⎥⎢ ⎥⎢μ⎥
⎣n⎦⎢⎥β⎣k⎦
Y=Xβ+μ
(3-4)
其中
Yn⨯1
⎡Y1⎤⎡1X11⎢Y⎥⎢1X212
=⎢⎥为被解释变量的观测值向量;Xn⨯(k+1)=⎢⎢ ⎥⎢ ⎢⎥⎢Y⎣n⎦⎣1X1n
X21 X22 X2n
Xk1⎤
Xk2⎥⎥为解释变 ⎥
⎥
Xkn⎦
⎡β0⎤⎢β⎥⎢1⎥
量的观测值矩阵;β(k+1)⨯1=⎢β2⎥为总体回归参数向量;μn⨯1=
⎢⎥⎢ ⎥⎢⎣βk⎥⎦
多元回归线性模型基本假定:课本P57
⎡μ1⎤
⎢μ⎥
⎢2⎥为随机误差项向量。 ⎢ ⎥⎢⎥⎣μn⎦
第四章
4.3 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。
答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方
差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。
加权最小二乘法的方法:
_
ˆ-βˆx)2ˆi)=∑wi(yi-βQw=∑wi(yi-y01i
2
i=1
NN
ˆ=β1w
∑w(x
i
i=1
Ni=1
N
i
-xw)(yi-yw)
_
_
i=1
_
2
(x-x)∑iw
_
ˆxw
β0w=yw-β1wwi=
2
1
σi2=kxi2
2
σi
=
1表示1
=22kxixi
1
或σi=kxi,wi=m
xi
m
4.4简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。
答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数wi ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
Qw(β0,β1, ,βp) =∑wi(yi-β0-β1xi1- -βpxip)2
i=1n
(2)
ˆ,βˆ, ,βˆ使式(2)加权最小二乘估计就是寻找参数β0,β1, ,βp的估计值β0w1wpw
的离差平方和Qw达极小。所得加权最小二乘经验回归方程记做
ˆ+βˆx+ +βˆx (3) ˆw=βy0w1w1pwp
多元回归模型加权最小二乘法的方法:
首先找到权数wi,理论上最优的权数wi为误差项方差σi2的倒数,即
wi=
1
σ
2i
(4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的
ˆ,βˆ, ,βˆ就是参数β,β, ,β的最小方差线性无偏估加权最小二乘估计β0w1wpw01p
计。
一个需要解决的问题是误差项的方差σi2是未知的,因此无法真正按照式(4)选取权数。在实际问题中误差项方差σi2通常与自变量的水平有关(如误差项方差
σi2随着自变量的增大而增大),可以利用这种关系确定权数。例如σi2与第j个自
2
变量取值的平方成比例时, 即σi2=kxij时,这时取权数为
wi=
1
(5) 2xij
更一般的情况是误差项方差σi2与某个自变量xj(与|ei|的等级相关系数最大
mm
的自变量)取值的幂函数xij成比例,即σi2=kxij,其中m是待定的未知参数。此
时权数为
wi=
1
(6) mxij
这时确定权数wi 的问题转化为确定幂参数m的问题,可以借助SPSS软件解决。 第五章
5.3 如果所建模型主要用于预测,应该用哪个准则来衡量回归方程的优劣? 答:如果所建模型主要用于预测,则应使用Cp统计量达到最小的准则来衡量回归方程的优劣。
5.4 试述前进法的思想方法。
答:前进法的基本思想方法是:首先因变量Y对全部的自变量x1,x2,...,xm建立m个一元线性回归方程, 并计算F检验值,选择偏回归平方和显著的变量(F值最大且大于临界值)进入回归方程。每一步只引入一个变量,同时建立m-1个二元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的两变量变量(F值最大且大于临界值)进入回归方程。在确定引入的两个自变量以后,再引入一个变量,建立m-2个三元线性回归方程,计算它们的F检验值,选择偏回归平方和显著的三个变量(F值最大)进入回归方程。不断重复这一过程,直到无法再引入新的自变量时,即所有未被引入的自变量的F检验值均小于F检验临界值Fα(1,n-p-1),回归过程结束。 5.5 试述后退法的思想方法。
答:后退法的基本思想是:首先因变量Y对全部的自变量x1,x2,...,xm建立一个m元线性回归方程, 并计算t检验值和F检验值,选择最不显著(P值最大且大于临界值)的偏回归系数的自变量剔除出回归方程。每一步只剔除一个变量,再建立m-1元线性回归方程,计算t检验值和F检验值,剔除偏回归系数的t检验值最小(P值最大)的自变量,再建立新的回归方程。不断重复这一过程,直到无法剔除自变量时,即所有剩余p个自变量的F检验值均大于F检验临界值Fα(1,n-p-1),回归过程结束。 第六章
消除多重共线性的方法
7.2岭回归的定义及统计思想是什么?
答:岭回归法就是以引入偏误为代价减小参数估计量的方差的一种回归方法,其
-1统计思想是对于(X’X)为奇异时,给X’X加上一个正常数矩阵D, 那么X’X+D
接近奇异的程度就会比X′X接近奇异的程度小得多,从而完成回归。但是这样的回归必定丢失了信息,不满足blue。但这样的代价有时是值得的,因为这样可以获得与专业知识相一致的结果。
7.3 选择岭参数k有哪几种方法?
答:最优k是依赖于未知参数β和σ2的,几种常见的选择方法是:
1岭迹法:选择k0的点能使各岭估计基本稳定,岭估计符号合理,回 ○
归系数没有不合乎经济意义的绝对值,且残差平方和增大不太多; 2方差扩大因子法:c(k)=(X'X+kI)-1X'X(X'X+kI)-1,其对角线元○
cjj(k)是岭估计的方差扩大因子。要让cjj(k)≤10;
3残差平方和:满足SSE(k)
7.4 用岭回归方法选择自变量应遵循哪些基本原则? 答:岭回归选择变量通常的原则是:
1. 在岭回归的计算中,我们通常假定涉及矩阵已经中心化和标准化了,这
样可以直接比较标准化岭回归系数的大小。我们可以剔除掉标准化岭回归系数比较稳定且绝对值很小的自变量;
2. 当k值较小时,标准化岭回归系数的绝对值并不很小,但是不稳定,随
着k的增加迅速趋近于零。像这样岭回归系数不稳定、震动趋于零的自变量,我们也可以予以剔除;
3. 去掉标准化岭回归系数很不稳定的自变量。如果有若干个岭回归系数不
稳定,究竟去掉几个,去掉那几个,要根据去掉某个变量后重新进行岭回归分析的效果来确定。
8章
主成分回归建模的思想与步骤 偏最小二乘建模的思想与步骤 两个论述,在课本上