应用数理统计 叶慈南 第五章1
第五章 回归分析
§5.1 一元线性回归
在自然界的现象中,同一过程中的各种变量之间往往存在着一定的关系,这种关系大致可以分为两类:
确定性关系
例如电路中的电压V 、电阻R 和电流I 三者之间服从欧姆定律V=IR只要知道其中两个变量的值,另一个变量的值就唯一确定了.
相关关系
例如人的年龄、身高、体重和血压之间也存在一定的关系,一般来说年龄大的、体重重的人血压也要相应的高一些,但这种关系并不是确定的,因为即使年龄和体重都相同的人,其血压也不一定相同.
又如在土地和耕作条件相同的条件,每亩的施肥量、播种量与农作物的产量之间也存在一定的关系,一般来说施肥量、播种量适当时产量较高,同样这种关系也不是确定的,具有某种随机性,
变量之间这种不确定性关系在社会现象和自然现象中普遍存在,其原因主要是由于一些随机因素的干扰和测量上的误差,我们称变量之间的这种不确定关系为相关关系.
回归分析就是分析和处理这些具有相关关系的变量之间关系的一种有效方法.
在研究具有相关关系的变量之间的关系时,往往要考虑一些变量的变化对另一些变量的影响,这其中的一些变量就相当于通常函数中的自变量,对它们能赋予一个需要的值(如施肥量、播种量)或能取到一个可观测但不能人为控制的值(如年龄、身高),这类变量称为自变量(预报变量),而因自变量变化而变化的这类变量称为因变量(响应变量).
“回归”一词是英国统计学家高尔顿(P.Galton 1882-1911)在1889年发表的关于遗传的论文中首先应用的.他在研究前辈与后代身高之间的关系时,发现儿子的身高介于父亲身高与种族(父辈)平均身高之间,有回归于种族平均身高的趋势.后来他的朋友,英国著名统计学家K.Pearson 等人搜集了上千个家庭成员的身高数据,分析出儿子的身高y 与父亲的身高x 大致可归结为以下关系:
y = 0.516 x +33.73 (英寸)
从而进一步证明了Galton 的回归定律.这就是“回归”一词最早在遗传学上的含义.发展到今天,回归的现代意义要比原始的意义广泛的多.
在回归分析中要研究的主要问题是:
(1) 确定因变量(响应变量)和自变量(预报变量)之间的定量关系表达式即建立回归模型.
(2) 对回归模型进行检验.
(3) 从众多的自变量中选择出对因变量影响显著的自变量. (4) 利用所建立的回归模型进行预测和控制.
§5.1 一元线性回归
我们先从最简单的情况开始讨论,只考虑一个因变量y 和一个自变量x 之间的关系.
一.一元线性回归模型
我们先看一个例子.
例5.1.1为研究某种物质在水中的溶解度(y )和温度(x )的关系,独立作了11组试验,记录数据如下:
表5.1.1
为了直观起见,可以x 为横坐标,y 为纵坐标,作上述数据的平面散点图(图5-1),每一数据对(x i ,y i )为x -y 坐标系中的一个点,(i =1,2, „,11) .
图5-1
从图上可以看出
①溶解度(y )基本随温度(x )升高而增加; ②点分布在某一直线两侧,不全在直线上,
从而可以认为y 与x 大致成直线关系,这些点与直线的偏离
是由其他一些不确定的因素的影响所造成的.
因此可以假设y 与 x满足以下关系:
y = β0 +β1x +ε (5.1.1) 其中β0+β1x 为y 随x 线性变化的部分,β0 和β1是未知待估计的参数;ε是许多不可控或不了解的随机因素的总和,所以是不可观测的随机变量,但为了估计上的方便,通常假定
E ε= 0 D ε= σ2<∞ 未知 (5.1.2) y 是可观测的随机变量.
一般,称由(5.1.1)和(5.1.2)所确定的模型为一元线性回归模型.记为
⎧y =β0+β1x +ε
(5.1.3) ⎨2
⎩E ε=0, D ε=σ
未知参数β0为常数项,β1称为回归系数,自变量x 称为回归变量.显然有
E y = β0 +β1x (5.1.4)
(5.1.4)称为回归函数.
注意:这里我们说一个模型是线性的,是指它关于参数(β0和β1)是线性的,模型中自变量的最高次幂为该模型的阶,如 y = β0 +β1x +β2x 2+ε
是一个二阶(x 的)线性(对β0,β1,β2)回归模型. 若利用试验数据求出β0和β1的估计值β和β,于是有
10
∧
∧∧
y =β+βx (5.1.5)
10
∧
∧
∧∧
∧
y 为由估计值β和β确定后对给定的x 值相应y 的回归值(预10
报值).
(5.1.5)称为 回归方程(预报方程).其对应的直线称为回归直线(预报直线).
图5-2
二.β0和β1的最小二乘估计及其性质
设有n 组独立的样本观测值(x i ,y i )(i = 1,2,„, n) ,由(5.1.3)有
⎧y i =β0+β1x i +εi
i = 1,2, „, n ,ε1, ε2, , εn 相互独⎨2
⎩E εi =0, D εi =σ
立.(5.1.6)
称为样本回归模型. 1.β0和β1的最小二乘估计
如何利用样本数据求出β0和β1的估计值β和β呢?一个
10最直观的想法就是在散点图上确定一条直线l :β0+β1x ,使得所有的点总的看来最接近这条直线.这时将直线l 的截距β0的取值与斜率β1的取值,作为β0和β1的估计值β和β是比较合适10的.所谓所有的点总的看来最接近这条直线的含义即可以认为是
使得
∧
∧
∧∧
Q (β0,β1) =∑εi =∑(y i -E y i )=∑(y i -β0-β1x i )
2i =1
i =1
i =1
n n
2
n
2
达到最小.求出使函数Q (β0,β1) 达到最小的β0,β1 的值,作为β0和β1的估计值β和β.即β和β应满足
1100
∧
∧
∧∧
Q (β,β)=min Q (β0, β1) 10ββ∈R
01
∧∧
则称β和β为β0和β1的最小二乘估计(L.S 估计).
10
由Q (β0,β1) 是β0,β1的二元函数,要使Q 达到最小值,必要条件是β0,β1满足
n ⎧∂Q
=-2∑(y i -β0-β1x i ) =0⎪i =1∂β⎪0
⎨ n ∂Q ⎪=-2∑(y i -β0-β1x i ) x i =0∂β⎪i =1⎩1
∧∧
即
⎧n β0+n x β1=n y ⎪n n (5.1.9) ⎨⎛2⎫n x +=y ββ∑∑ ⎪x x i i 0⎪⎝i =1⎭1i =1i ⎩
1n 1n
y ,=(5.1.9)称为正规方程组. ∑x i ∑y i ,
n i =1n i =1
由正规方程组解得
其中x =
⎧β1=l xy /l xx
(5.1.10) ⎨
=y -x ββ1⎩0
其中 l xx =∑(x i -x ) ,l xy =∑(x i -x ) (y i -y ) ,因为
i =12
n
2
n
i =1
Q ⎫⎛ ∂∂⎪ββ⎝⎭
20
1
22
n 2∂Q ∂Q 2
- =-2n ×2= --4 nl xx ∑2n x x i 22
i =1∂β0∂β1
()
<0及
2
∂Q
∂β0
2
=2n >0
所以(5.1.9)的解β,β使Q 取到最小值.于是β0和β1的
10最小二乘估计为
∧∧
⎧∧=/
⎪β1l xy l xx
(5.1.11) ⎨∧∧
⎪=y -x
β1⎩β0
由(5.1.11)式可得 y =
β0β1
∧+∧x ,说明由最小二乘估计得到
的回归直线过样本均值(x , y ) .
下面我们利用(5.1.11)式来计算例5.1.1中的回归直线.
由表5.1.1的数据算得
i =111
∑x i =275,x =25,∑x i =9625,∑y i = 258.1,y =23.4636,
i =1
i =1
1111
2
11
i =1
∑x i y i =7552.5
22
l xx = ∑(x i -x ) =∑x i -11x = 9625-6875=2750
11
2
11
i =1i =1
l xy =∑(x i -x ) (y i -y ) =∑x i y i -11x y =7552.5-6452.49=1100
i =1
i =1
n 11
∧=/=1100/2750=0. 4⎧
β1l xy l xx ⎪
⎨∧∧
⎪β=y -βx =23. 4636-0. 4⨯25=13. 46
1⎩0
回归方程为
∧
y =13. 46+0. 4x
2.最小二乘估计的统计性质
性质1. β和β分别是y 1, y 2, , y n 的线性组合.
10
∧
∧∧
证:β=
1
l xy l xx
=
i =1
∑(x i -x ) (y i -y )
i =1
n
∑(x i -x )
n
2
=
i =1
∑(x i -x )
i =1n
∑(x i -x )
2
n
. y i =∑b i y i
i =1
n
(5.1.12) 其中b i =
x i -x
i =1
∑(x i -x )
∧
n
2
=
x i -x
l xx
n 1n n 1n
β= y -βx =∑y -x ∑b i y i =∑(-x b i ) y i =∑c i y i
10n i =1i i =1n i =1i =1
n 1
(5.1.13) 其中c i =∑(-x b i )
i =1n
∧
性质
2. E (β) = β0, E (β) = β1
10
∧∧
(5.1.14)
22
1∧∧σσ∧
D (β) = σ(+) ,D (β) = ,Cov (β, β)=-x
1100n l xx l xx l xx
∧
2
2
证:由模型(5.1.3)知 E ε= 0 D ε= σ2
则有E (y i )= β0 +β1x i D(y i )=σ2 再由性质(1)有
E β= E (∑b i y i )= E (i =1
1
∧
n
∑(x i -x ) y i
l xx
=
n
)= i =1
n
∑(x i -x )(β0+β1x i )
l xx
2
n
i =1
=
β0∑(x i -x ) β1∑(x i -x ) x i β1∑(x i -x )
i =1
n n
l xx
n
+
i =1i =1
l xx
n
l xx
=β1
(注意到:∑(x i -x ) x i =∑(x i -x )(x i -x ) )
i =1
i =1
∧E β= E (y -βx )= E y -x E β=
1
1
∧∧
1n
∑(β0+β1x i ) -x β1 n i =1
= β0+x β1-x β1=β0
2⎡n ⎤n
-x ) (x y ∑∑(-x ) 2x i i ⎢i =1⎥i =1i ∧2σ D (β) = D ⎢σ= ⎥=21l xx l xx l xx ⎢⎥⎣⎦
∧
D (β) = D (y -βx )= D y +2D (β) -2x Cov (y , β)
1
1
1
∧∧∧
111
=σ2+x 2σ2=σ2(+)
n l xx n l xx
由此性质可得:
(1)E y = E y 即预报值y 的均值等于相应的观测值y 的均值.
(2)β0与β1的估计值波动的大小不仅与y 的方差σ2有关,而且还与预报变量x 取值的离散程度有关,x 取值分散,则β与β
10作为β0与β1估计值较精确,反之,若x 在x 的一个较小范围内取值,则β与β作为β0与β1估计值精确度较差.因此若x 是可控
10变量时,则在安排实验时x i (i = 1,2, „, n ) 应取得尽可能的分散,并且n 不能太小.
3.σ2的无偏估计
由于β与β作为β0与β1估计值的精确度与y 的方差σ2有10
关,而σ2是未知的,所以下面给出σ2的无偏估计
记 e i = y i -y = β-βx i 称为残差,∑e i 为残差平方和或剩i 10i =1
∧
∧
∧
n
2
2
∧∧
∧∧
∧∧
∧∧
余平方和,记作Q e =∑e i .
i =12
∧
∧Q e i =1
=,则σ2为σ2的无偏估计. n -2n -2
n
2
取 σ2=
∑e i
n
因为在模型(5.1.3)下,∑e i 有性质
i =1
n
2
E (Q e )=(n -2)σ2 (5.1.15) 证
2
2
2
Q e =∑e i =∑(y i -y ) =∑(y i -β-βx i ) =∑[y i -(y +β(x i -x )]
011i i =1i =1i =1i =1
=∑(y i -y ) - 2 β∑(x i -x ) (y i -y ) +β2∑(x i -x ) 1i =11i =1i =1 =∑(y i -y ) - 2 βl xy +β2l xx 11i =1 =∑(y i -y ) - β2l xx 1i =1
n
2
n
2
n
2
n
2
n
∧
n
∧∧
n
∧
∧
n
∧
n
2
∧∧
∧
E (Q e )= E∑(y i -y ) - l xx E (β2)
i =1
1
n
2
∧
= E (∑y i -n ) -l xx E (β2)
i =1
1
n
22
∧
= ∑E (y i ) -nE () -l xx E (β2)
i =1
1
n
22
∧
= ∑D (y i ) +E (y i )
i =1n n
[
[
]]-n [D () +[E () ]]-l
2
2
xx
∧⎤2⎤⎡∧⎡
⎢D (β1) +⎢E (β1) ⎥⎥
⎣⎦⎦⎣
⎡σ22⎤
+(β0+β1x ) ⎥-l xx = ∑σ+(β0+β1x i ) -n ⎢
i =1⎣n ⎦
2
2
2
[]
⎡σ22⎤
+β⎢1⎥ ⎣l xx ⎦
2
=(n -2)σ+∑(β0+β1x i ) -n (β0+β1x ) -l xx β1
i =1
2
=(n -2)σ2+β1(∑x i -n x 2) -l xx β1
i =12
n
2
2
n
2
=(n -2)σ2
E(Q e )= E (i =1)=σ2
n -2
因此 σ2=
∧
∑e i
n
n
2
Q e
= i =1为σ2的无偏估计. n -2n -2
∑e i
2
三. 回归方程的显著性检验
1.方程的显著性检验
若变量x ,y 之间存在线性关系y = β0 +β1x +ε,则β1≠0 ,因此检验变量x ,y 之间是否真正存在线性关系的问题可化为对假设
H 0:β1= 0; H 1:β1≠0
作显著性检验,若拒绝H 0,则认为变量x ,y 之间存在线性关系,所求出的回归方程有意义;若不拒绝H 0,则认为变量x ,y 之间不存在线性关系,自然也就不能用一元线性回归模型来描述,所得回归方程也就无意义.
为了进行检验,首先对模型(5.1.3)进一步假定 ε~N (0,
σ2) ,于是模型(5.1.6)改为
⎧y i =β0+β1x i +εi
i = 1,2,„, n ,ε1, ε2, , εn 相互独立⎨2
⎩εi ~N (0, σ)
(5.1.16)
在模型(5.1.16)下有如下定理 定理5.1.1
1
(1)β~ N (β0 ,σ(+) ) (5.1.17)
0n l xx
∧
2
2
(2)β~ N (β1
1
∧
2
σ ,) (5.1.18)
l xx
(3)
Q e
σ2
=i =1
∧
∑e i
n
2
σ2
~χ(n -2) (5.1.19)
n
2
2
(4)y ,β,∑e i 相互独立.
1
i =1
证:由性质1,β和β分别是服从正态分布的随机变量
10
∧∧
y 1, y 2, y n 的线性组合,故β和β服从正态分布,再由性质2
10
即得到(1)与(2).
由式(5.1.16)可得
∧∧
y i ~N (β0+β1x i , σ2) (i = 1,2,„, n)
将上式写成矩阵形式为
Y ~N (β0I +β1X , σ2I n ) 其中 I = (1, 1, , 1)
'
Y = (y 1, y 2, , y n )
'
X = (x 1, x 2, , x n )
'
为n 阶单位阵. I n
构造n 阶正交矩阵A ,其中第1,2行分别为 (
1n
,
1n
,„,
1n
)
(
x 1-x l xx
,
x 2-x l xx
,„,
x n -x l xx
)
作正交变换 Z = A Y Z = (z 1, z 2, , z n ) ’ 则有Z ~N (β0AI +β1AX , σ2I n )
其中β0AI +β1AX =(n (β0+β1x ), β1l xx , 0, , 0)’ 因此z 1, z 2, , z n 相互独立,且有
z 1~N (n (β0+β1x ) , σ2) ,
z 2~N (β1l xx , σ2)
z i ~N (0, σ2) (i = 3,4,„, n)
1n ∧z z 又因 1= n y ,2=∑(x i -x ) y i =l xx β
1
l xx i =1
所以
∑e i =∑(y i -y ) -βl xx = ∑y i -(n y ) -(l β)
xx 11i =1i =1i =1
22
=∑z i -z 1-z 22=∑z i
n
2
n
2
∧2
n
22
∧
2
n
2
n
i =1i =3
故有 i =1
∑e i
n
2
σ2
~χ(n -2)
2
由于z 1, z 2, , z n 相互独立,且z 1=
2
∑e i =∑z i
i =3
n
2
n
n y ,z 2=
l xx β,
1
∧
i =1
则有y ,β,∑e i 相互独立.
1
∧
n
2
i =1
为引入合适的检验统计量,介绍如下平方和分解公式:
l yy = U +Q e (5.1.20)
其中
n
2
l yy = ∑(y i -y ) 称为 总偏差平方和
i =1n
U = ∑(y -y ) 称为 回归平方和.
i i =1
∧
2
Q e = ∑(y i -y ) 称为 残差平方和.
i
i =1
n
∧
2
恒等式 y i -y =(y i -y )+(y -y )的几何意义如图4-2,
i
∧∧
i
由其出发有
i =1n
∑(y i -y ) =∑[(y i -y i ) +(y i -y )]=∑(y i -y i ) +∑(y i -y ) +2
i =1
i =1
i =1
n
2
n
∧∧
2
n
∧
2
n
∧
2
i =1
∑(y i -y i )(y i -y )
=∑(y i -y ) +∑(y -y )
i i i =1i =1
n
∧∧
∧
2
n
∧
2
其中交叉项
i =1
∑(y i -y i )(y i -y ) =∑[(y i -y ) -(y i -y )](y i -y )
i =1n
n
∧∧
n
∧∧
=∑[(y i -y ) -β1(x i -x )]β1(x i -x )
i =1
∧∧
=βl xy -β2l xx = βl xy -β
1
∧
∧
∧∧
1
l xy l xx
11
l xx
= 0
图5-2
平方和分解公式(5.1.20)说明总的偏差平方和l yy 可以分∧
为两个部分,一部分是Q e ,是由实际观测值y i 与回归值y 的偏
i
差即残差所引起的,另一部分U 是由回归直线所引起的.当U 越大时Q e 就越小,则y 与 x之间的线性关系就越显著,反之y 与 x之间的线性关系不显著.因此,可考虑当U/Q e 的值较大时, 则认为y 与 x之间的线性关系较显著.
2
σ事实上,当H 0成立时,由定理5.1.1知β~N (0,) ,
1
∧
l xx
由此得
β1xx
σ
∧
~N (0,1) ,从而有
U
σ
2
=
β1l xx σ
n 2
∧
2
~χ2(1)
由定理5.1.1又知 i =1
∑e i
2
σ2
=
Q e
σ2
~χ(n -2),且U 与Q e 独立,
2
从而有
U
σ
2
与
Q e
σ
2
独立.因此,由F -分布的定义知,当H 0成立时,
统计量
F =
U
~F (1,n -2) (5.1.21)
Q e /(n -2)
由前面的分析可知,当F 值较大时,则认为y 与 x之间的线性关系较显著,即应拒绝H 0,则由(5.1.22)式,可给出如下判别法则:对给定的显著性水平α,当F >F 1-α(1, n -2) 时,拒绝H 0,否则就不能拒绝H 0.
在实际作检验时,通常将此检验过程用表5.1.2的形式给出,表5.1.2称为方差分析表.
表5.1.2一元正态线性模型的方差分析表
∧
若经过检验拒绝了H 0,也可称回归系数β的效果是显著的;
1
否则,称回归系数β的效果不显著.此时y 与 x的关系可能有如
1
∧
下几种情况:(1)x 对y 无显著影响,应丢弃x 这个自变量,进而考虑其它自编量;(2)x 对y 有显著影响,但这种影响不是线性的,应考虑非线性回归;(3)除了x 外还有其它自变量对y 有
显著影响,从而减弱了x 对y 的影响程度,这时应考虑采用多元线性回归.
2.样本相关系数和判定系数(拟合优度)
若拒绝了H 0,即y 与 x之间的线性关系是显著的,我们可用样本相关系数
r =
l xy xx yy
(5.1.22)
来刻划y 与 x之间的线性关系的密切程度.
比较(5.1.23)式与β=
1
∧
l xy l xx
,得r 与β的符号一致。
1
∧
l xy U
又有 r 2= = (5.1.23)
l l xy l yy yy
称r 2为判定系数(拟合优度)。
由(5.1.21)知| r | ≤1,且r 2值越大,即回归平方和U 越大,残差平方和Q e 越小,y 与 x之间的线性关系越密切,极端的情况是当| r |=1时,即Q e =0,这时,n 个点(x i ,y i )i =1,2,„,
2
n 全部落在回归直线y =β+βx 上.故拟合优度可以定量描述回
10
归方程拟合的好坏。 3.回归系数β1的置信区间
若拒绝了H 0,我们还可以给出回归系数β1的置信区间,由定理5.1.1可推得
∧
∧∧
β1-β1σ
∧
∧
~ t (n -2)
/xx
由此β1得置信度为1-α的置信区间为 [β- t 1-α/2(n -2)
1
∧
∧
xx
,β+ t 1-α/2(n -2)
1
∧
∧
xx
]
(5.1.24)
例5.1.2 (1)对例5.1.1的回归方程进行检验;(2)求出样本相关系数r ,(3)求β1的置信度为1-α的置信区间.(α=0.05)
解 由例5.1.1中计算的结果有
l xx =2750,l xy =1100
l yy =∑(y -y ) =∑y i -11y = 6498.77-6055.94
i
i =1
i =1
11
2
11
2
2
=442.83
U =
l xy l xy
2
21100== 440 2750
Q = l yy - U = 442.83 -440=2.83
列出如下方差分析表. 表5.1.3
由α=0.05,查得分位数F 0. 95(1, 9) = 5.12,由于F >F 0. 95(1, 9) = 5.12,故拒绝H 0,
认为已求得的回归方程效果是显著的. (2)由(5.1.24)式得
2r =
U
l yy
= 0.9936 | r | = 0.9968
由| r |接近于1,又一次说明y 与 x之间的线性关系是非常显著的.
(3)由α=0.05,1-α/2 = 0.975,查得t 0. 975(9) = 2.2622,则有
t 0. 975(9)
= 2.2622×0. 5583=0.0241
2750l xx
∧
由(4.1.25)式得β1的置信度为0.95的置信区间为 [0.3759,0.4241].
四、 回归诊断
对回归模型进行回归诊断的方法有很多,最重要的方法是残
差分析和共线诊断(对多元回归的情况)。 1. 残差分析
残差分析的基本思想是用能够计算出来的残差e i 作为随机误差εi 的估计,利用残差的特征来考察原模型的合理性,主要是对于误差假设的合理性。 残差分析就是检验:
● 误差项正态分布的假设 ● 误差项的独立性假设 ● 误差项的等方差假设
● 观测值中是否有异常值存在
1) 误差项正态分布的假设是否成立的判断:残差的正态性检验,对所得的残差数据作正态性检验。
2) 误差项的独立性假设是否成立的判断:当误差项存在序列相关时,可能导致最小二乘估计的方差变大,回归系数的t 检验失效。 ①可用D-W 检验(J.Durbin 和G .S.Watson 于1951年提出的一种适用于小样本的检验方法)
随机扰动项的一阶自回归的形式为 :εt =ρεt -1+u t
H 0:ρ=0
∑(e t -e t -1)
t =2n
2
DW=t =2
∑(e t )
n
2
0≤DW ≤4
在给定样本容量n 、自变量个数及显著性水平之后,在D-W 检验临界值表中可以查到D-W 检验的下临界值d l 和上临界值d u
②残差的序列图和残差的散点图
残差的序列图:以e t 为纵轴,以时间t 为横轴来绘制的 残差的散点图:分别以e t 和e t -1为纵轴和横轴来绘制的 序列图呈随机走势,散点图呈随机分布,则认为不存在序列相关
3)误差项的等方差假设是否成立的判断:
残差图:凡是以残差e t 为纵坐标,而以观测值y i ,预测值y i ,自变量Xj (j = 1,2,„,p )或序号、观测时间等为横坐标的散点图,均称为残差图。
如果线性回归模型的等方差假定成立, e i ,(i=1, 2,„,n ) 应相互独立且近似服从N(0,1) ,那么残差图中散点应随机地分布在–2到+2的带子里。这样的残差图称为正常的残差图。 4)样本奇异值的诊断:
样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。
一般认为,如果某样本点对应的标准化残差的值超出了-3—+3的范围,就可以判定该样本数据为奇异值。
∧
五.预测
若经过检验,拒绝了H 0,说明回归方程是有意义的,即回归方程与实际数据的拟合效果是显著的,则可用已求得的回归方程y =β+βx 来进行预测.
10
所谓预测是指对自变量x 的某一确定值x 0用已求得的回归方程y =β+βx 来估计因变量y 的相应值y 0所在的范围. 10
设变量y 与x 满足模型(5.1.3),且由数据(x i ,y i )(i =1,2, „,n ) 求得回归方程y =β+βx ,x 0为x 的某一确定值,
10
∧
y 0=β+βx 0+ε0,ε0~N (0,σ2)且ε0,ε1, „,εn 相互
10
∧
∧
∧∧
∧∧
∧∧
∧∧
独立.
在以上假设下先给出E y 0的置信区间,然后再给出y 0的预测
区间.
由y 0=β+βx 0+ε0和定理5.1.1可知
10∧
∧
∧
y 0= y +β1(x 0- x )~N (β0+β1
∧
1(x 0-x )
]σ2)x 0,[+
n l xx
2
(5.1.25)
∧
且y 0与Q e 独立,再由t -分布的定义有
(y 0-E y 0) /σ1+(x 0-x )
n l xx
∧
2
Q e
σ2(n -2)
(n -2)
=
∧
(y 0-E y 0) ∧1(x -x ) σ+0
n l xx
2
~ t
于是E y 0的置信度为1-α的置信区间为 [y 0- t 1-α/2(n -2) σ∧
,y 0+ t 1-α/2(n -2) σ
∧
∧
∧
1(x 0-x ) + n l xx
1(x 0-x ) +] (5.1.26) n l xx
2
2
∧
由y 0是y i 的线性组合(i =1,2, „,n ) ,y 0与y i (i =1,∧∧∧
2, „,n ) 独立,所以y 0与y 0独立,又y 0与Q e 独立,故有y 0-y 0
与Q e 独立.
又y 0~N (β0+β1x 0,σ2),
∧1(x 0-x )
~N (+,[+]σ2) ββy 01x 00
n l xx
2
故
1(x -x )
]σ2) y 0-y 0~N (0,[1++0
n l xx
∧
2
再由t -分布的定义有
1(-x )
(y 0-y 0) /σ++x 0
n l xx
∧
2
Q e
σ2(n -2)
(n -2)
=
∧
(y 0-y 0)
∧
σ1++(x 0-x )
l xx
1n
2
~t
于是y 0的置信度为1-α的预测区间为
1(x -x ) ∧
[y 0-t 1-α/2(n -2) σ++0
n l xx
∧
2
∧
1(x 0-x )
](5.1.27) y 0+t 1-α/2(n -2) σ++
n l xx
∧
∧
2
由(5.1.28)式可以看出σ越小y 0的预测区间越窄,则预测精度越高;对给定的样本观测值和置信度,x 0离x 越近,则预测精度越高.
比较(5.1.27)和(5.1.28)式可以看出在同样的置信度下y 0
的预测区间较E y 0的置信区间要宽一些.
由x 0的任意性,及(5.1.28)式可以得到两条曲线: y = y - t 1-α/2(n -2) σ
1
∧
∧
∧
1(x -x ) ++ n l xx
2
2
1(x -x )
y 2= y + t 1-α/2(n -2) σ++
n l xx
∧
∧
∧
夹在这两条曲线之间的部分为y 的置信度为1-α的预测带,如图
5-3
图5-3
特别当n 很大,x 0在x 附近取值时,有
∧1(x 0-x ) σ(n -2) ≈ ,≈ σ1++t 1-α/2u 1-α/2
n l xx
2
∧
这时y 0的置信度为1-α的预测区间可近似为:
[y 0-u 1-α/2σ
如图5-4
∧
∧
∧
,y 0+u 1-α/2
σ] (5.1.28)
∧
图5-4
在实际中常用的有:
y 的置信度为0.95的预测区间为[y -1.96σ,y +1.96σ]
y 的置信度为0.99的预测区间为[y -2.58σ,y +2.58σ]
例5.1.3 在例5.1.1中求当温度x 0=23时,E y 0的95%的置信区间,y 0的95%的预测区间.
∧∧∧
解 y 0=β+βx 0= 13.4636+0.4×23=22.6636,
10
∧
∧∧
∧
∧
∧
∧
∧
t 0. 975(9) =2.2622
2
1(x 0-x ) 1(23-25) σ++=0.5607=0.1705 n 112750l xx ∧
2
σ
∧
1(23-25) 1(x -x )
=0.56071++=0.5860 1++0
112750n l xx
2
2
由(5.1.27)式,E y 0的95%的置信区间为
[22.6636-2.2622×0.1705,22.6636+2.2622×0.1705]=
[22.2779,23.0493]
由(5.1.28)式,y 0的95%的预测区间
[22.6636-2.2622×0.5860,22.6636+2.2622×0.5860]= [21.338,23.9892]