应用数理统计叶慈南第五章1

01-09

第五章回归分析

§5.1 一元线性回归

在自然界的现象中，同一过程中的各种变量之间往往存在着一定的关系，这种关系大致可以分为两类：

确定性关系

例如电路中的电压V 、电阻R 和电流I 三者之间服从欧姆定律V=IR只要知道其中两个变量的值，另一个变量的值就唯一确定了．

相关关系

例如人的年龄、身高、体重和血压之间也存在一定的关系，一般来说年龄大的、体重重的人血压也要相应的高一些，但这种关系并不是确定的，因为即使年龄和体重都相同的人，其血压也不一定相同．

又如在土地和耕作条件相同的条件，每亩的施肥量、播种量与农作物的产量之间也存在一定的关系，一般来说施肥量、播种量适当时产量较高，同样这种关系也不是确定的，具有某种随机性，

变量之间这种不确定性关系在社会现象和自然现象中普遍存在，其原因主要是由于一些随机因素的干扰和测量上的误差，我们称变量之间的这种不确定关系为相关关系．

回归分析就是分析和处理这些具有相关关系的变量之间关系的一种有效方法．

在研究具有相关关系的变量之间的关系时，往往要考虑一些变量的变化对另一些变量的影响，这其中的一些变量就相当于通常函数中的自变量，对它们能赋予一个需要的值（如施肥量、播种量）或能取到一个可观测但不能人为控制的值（如年龄、身高），这类变量称为自变量（预报变量），而因自变量变化而变化的这类变量称为因变量（响应变量）．

“回归”一词是英国统计学家高尔顿（P.Galton 1882-1911）在1889年发表的关于遗传的论文中首先应用的．他在研究前辈与后代身高之间的关系时，发现儿子的身高介于父亲身高与种族（父辈）平均身高之间，有回归于种族平均身高的趋势．后来他的朋友，英国著名统计学家K.Pearson 等人搜集了上千个家庭成员的身高数据，分析出儿子的身高y 与父亲的身高x 大致可归结为以下关系：

y = 0.516 x +33.73 (英寸)

从而进一步证明了Galton 的回归定律．这就是“回归”一词最早在遗传学上的含义．发展到今天，回归的现代意义要比原始的意义广泛的多．

在回归分析中要研究的主要问题是：

(1) 确定因变量（响应变量）和自变量（预报变量）之间的定量关系表达式即建立回归模型．

(2) 对回归模型进行检验．

(3) 从众多的自变量中选择出对因变量影响显著的自变量． (4) 利用所建立的回归模型进行预测和控制．

§5.1 一元线性回归

我们先从最简单的情况开始讨论，只考虑一个因变量y 和一个自变量x 之间的关系．

一．一元线性回归模型

我们先看一个例子．

例5.1.1为研究某种物质在水中的溶解度（y ）和温度（x ）的关系，独立作了11组试验，记录数据如下：

表5.1.1

为了直观起见，可以x 为横坐标，y 为纵坐标，作上述数据的平面散点图（图5-1），每一数据对（x i ，y i ）为x -y 坐标系中的一个点，(i =1，2， „，11) ．

图5-1

从图上可以看出

①溶解度（y ）基本随温度（x ）升高而增加； ②点分布在某一直线两侧，不全在直线上，

从而可以认为y 与x 大致成直线关系，这些点与直线的偏离

是由其他一些不确定的因素的影响所造成的．

因此可以假设y 与 x满足以下关系：

y = β0 +β1x +ε （5.1.1）其中β0+β1x 为y 随x 线性变化的部分，β0 和β1是未知待估计的参数；ε是许多不可控或不了解的随机因素的总和，所以是不可观测的随机变量，但为了估计上的方便，通常假定

E ε= 0 D ε= σ2＜∞ 未知（5.1.2） y 是可观测的随机变量．

一般，称由（5.1.1）和（5.1.2）所确定的模型为一元线性回归模型．记为

⎧y =β0+β1x +ε

（5.1.3） ⎨2

⎩E ε=0, D ε=σ

未知参数β0为常数项，β1称为回归系数，自变量x 称为回归变量．显然有

E y = β0 +β1x （5.1.4）

（5.1.4）称为回归函数．

注意：这里我们说一个模型是线性的，是指它关于参数（β0和β1）是线性的，模型中自变量的最高次幂为该模型的阶，如 y = β0 +β1x +β2x 2+ε

是一个二阶（x 的）线性（对β0，β1，β2）回归模型．若利用试验数据求出β0和β1的估计值β和β，于是有

∧

∧∧

y =β+βx （5.1.5）

∧

∧∧

∧

y 为由估计值β和β确定后对给定的x 值相应y 的回归值（预10

报值）．

（5.1.5）称为回归方程（预报方程）．其对应的直线称为回归直线（预报直线）．

图5-2

二．β0和β1的最小二乘估计及其性质

设有n 组独立的样本观测值（x i ，y i ）(i = 1,2,„, n) ，由（5.1.3）有

⎧y i =β0+β1x i +εi

i = 1,2, „, n ，ε1, ε2, , εn 相互独⎨2

⎩E εi =0, D εi =σ

立．（5.1.6）

称为样本回归模型． 1．β0和β1的最小二乘估计

如何利用样本数据求出β0和β1的估计值β和β呢？一个

10最直观的想法就是在散点图上确定一条直线l ：β0+β1x ，使得所有的点总的看来最接近这条直线．这时将直线l 的截距β0的取值与斜率β1的取值，作为β0和β1的估计值β和β是比较合适10的．所谓所有的点总的看来最接近这条直线的含义即可以认为是

使得

∧

∧∧

Q (β0，β1) =∑εi =∑(y i -E y i )=∑(y i -β0-β1x i )

2i =1

i =1

n n

达到最小．求出使函数Q (β0，β1) 达到最小的β0，β1 的值，作为β0和β1的估计值β和β．即β和β应满足

1100

∧

∧∧

Q (β，β)=min Q (β0, β1) 10ββ∈R

∧∧

则称β和β为β0和β1的最小二乘估计（L.S 估计）．

由Q (β0，β1) 是β0，β1的二元函数，要使Q 达到最小值，必要条件是β0，β1满足

n ⎧∂Q

=-2∑(y i -β0-β1x i ) =0⎪i =1∂β⎪0

⎨ n ∂Q ⎪=-2∑(y i -β0-β1x i ) x i =0∂β⎪i =1⎩1

∧∧

即

⎧n β0+n x β1=n y ⎪n n （5.1.9） ⎨⎛2⎫n x +=y ββ∑∑ ⎪x x i i 0⎪⎝i =1⎭1i =1i ⎩

1n 1n

y ，=（5.1.9）称为正规方程组． ∑x i ∑y i ，

n i =1n i =1

由正规方程组解得

其中x =

⎧β1=l xy /l xx

（5.1.10） ⎨

=y -x ββ1⎩0

其中 l xx =∑(x i -x ) ，l xy =∑(x i -x ) (y i -y ) ，因为

i =12

i =1

Q ⎫⎛ ∂∂⎪ββ⎝⎭

n 2∂Q ∂Q 2

－ =－2n ×2= －-4 nl xx ∑2n x x i 22

i =1∂β0∂β1

()

＜0及

∂Q

∂β0

=2n ＞0

所以（5.1.9）的解β，β使Q 取到最小值．于是β0和β1的

10最小二乘估计为

∧∧

⎧∧=/

⎪β1l xy l xx

（5.1.11） ⎨∧∧

⎪=y -x

β1⎩β0

由（5.1.11）式可得 y =

β0β1

∧+∧x ，说明由最小二乘估计得到

的回归直线过样本均值(x , y ) ．

下面我们利用（5.1.11）式来计算例5.1.1中的回归直线．

由表5.1.1的数据算得

i =111

∑x i =275，x =25，∑x i =9625，∑y i = 258.1，y =23.4636，

i =1

1111

i =1

∑x i y i =7552.5

l xx = ∑(x i -x ) =∑x i －11x = 9625-6875=2750

i =1i =1

l xy =∑(x i -x ) (y i -y ) =∑x i y i －11x y =7552.5-6452.49=1100

i =1

n 11

∧=/=1100/2750=0. 4⎧

β1l xy l xx ⎪

⎨∧∧

⎪β=y -βx =23. 4636-0. 4⨯25=13. 46

1⎩0

回归方程为

∧

y =13. 46+0. 4x

2．最小二乘估计的统计性质

性质1. β和β分别是y 1, y 2, , y n 的线性组合．

∧

∧∧

证：β=

l xy l xx

i =1

∑(x i -x ) (y i -y )

i =1

∑(x i -x )

i =1

∑(x i -x )

i =1n

∑(x i -x )

. y i =∑b i y i

i =1

（5.1.12）其中b i =

x i -x

i =1

∑(x i -x )

∧

x i -x

l xx

n 1n n 1n

β= y －βx =∑y －x ∑b i y i =∑(-x b i ) y i =∑c i y i

10n i =1i i =1n i =1i =1

n 1

（5.1.13）其中c i =∑(-x b i )

i =1n

∧

性质

2. E (β) = β0， E (β) = β1

∧∧

（5.1.14）

1∧∧σσ∧

D (β) = σ(+) ，D (β) = ，Cov (β, β)=－x

1100n l xx l xx l xx

∧

证：由模型（5.1.3）知 E ε= 0 D ε= σ2

则有E （y i ）= β0 +β1x i D（y i ）=σ2 再由性质（1）有

E β= E （∑b i y i ）= E （i =1

∧

∑(x i -x ) y i

l xx

）= i =1

∑(x i -x )(β0+β1x i )

l xx

i =1

β0∑(x i -x ) β1∑(x i -x ) x i β1∑(x i -x )

i =1

n n

l xx

i =1i =1

l xx

=β1

（注意到：∑(x i -x ) x i =∑(x i -x )(x i -x ) ）

i =1

∧E β= E （y －βx ）= E y －x E β=

∧∧

∑(β0+β1x i ) －x β1 n i =1

= β0+x β1－x β1=β0

2⎡n ⎤n

-x ) (x y ∑∑(-x ) 2x i i ⎢i =1⎥i =1i ∧2σ D (β) = D ⎢σ= ⎥=21l xx l xx l xx ⎢⎥⎣⎦

∧

D (β) = D (y －βx )= D y +2D (β) －2x Cov (y , β)

∧∧∧

111

=σ2+x 2σ2=σ2(+)

n l xx n l xx

由此性质可得：

（1）E y = E y 即预报值y 的均值等于相应的观测值y 的均值．

（2）β0与β1的估计值波动的大小不仅与y 的方差σ2有关，而且还与预报变量x 取值的离散程度有关，x 取值分散，则β与β

10作为β0与β1估计值较精确，反之，若x 在x 的一个较小范围内取值，则β与β作为β0与β1估计值精确度较差．因此若x 是可控

10变量时，则在安排实验时x i (i = 1,2, „, n ) 应取得尽可能的分散，并且n 不能太小．

3．σ2的无偏估计

由于β与β作为β0与β1估计值的精确度与y 的方差σ2有10

关，而σ2是未知的，所以下面给出σ2的无偏估计

记 e i = y i -y = β-βx i 称为残差，∑e i 为残差平方和或剩i 10i =1

∧

∧∧

余平方和，记作Q e =∑e i ．

i =12

∧

∧Q e i =1

=，则σ2为σ2的无偏估计． n -2n -2

取 σ2=

∑e i

因为在模型（5.1.3）下，∑e i 有性质

i =1

E （Q e ）=（n -2）σ2 （5.1.15）证

Q e =∑e i =∑(y i -y ) =∑(y i -β-βx i ) =∑[y i -(y +β(x i -x )]

011i i =1i =1i =1i =1

=∑(y i -y ) - 2 β∑(x i -x ) (y i -y ) +β2∑(x i -x ) 1i =11i =1i =1 =∑(y i -y ) - 2 βl xy +β2l xx 11i =1 =∑(y i -y ) - β2l xx 1i =1

∧

∧∧

∧

∧∧

∧

E （Q e ）= E∑(y i -y ) - l xx E (β2)

i =1

∧

= E (∑y i -n ) -l xx E (β2)

i =1

∧

= ∑E (y i ) -nE () -l xx E (β2)

i =1

∧

= ∑D (y i ) +E (y i )

i =1n n

[

]]-n [D () +[E () ]]-l

∧⎤2⎤⎡∧⎡

⎢D (β1) +⎢E (β1) ⎥⎥

⎣⎦⎦⎣

⎡σ22⎤

+(β0+β1x ) ⎥－l xx = ∑σ+(β0+β1x i ) －n ⎢

i =1⎣n ⎦

[]

⎡σ22⎤

+β⎢1⎥ ⎣l xx ⎦

=（n -2）σ+∑(β0+β1x i ) －n (β0+β1x ) －l xx β1

i =1

=（n -2）σ2+β1(∑x i -n x 2) －l xx β1

i =12

=（n -2）σ2

E（Q e ）= E （i =1）=σ2

n -2

因此 σ2=

∧

∑e i

Q e

= i =1为σ2的无偏估计． n -2n -2

∑e i

三. 回归方程的显著性检验

1．方程的显著性检验

若变量x ，y 之间存在线性关系y = β0 +β1x +ε，则β1≠0 ，因此检验变量x ，y 之间是否真正存在线性关系的问题可化为对假设

H 0：β1= 0； H 1：β1≠0

作显著性检验，若拒绝H 0，则认为变量x ，y 之间存在线性关系，所求出的回归方程有意义；若不拒绝H 0，则认为变量x ，y 之间不存在线性关系，自然也就不能用一元线性回归模型来描述，所得回归方程也就无意义．

为了进行检验，首先对模型（5.1.3）进一步假定 ε～N (0，

σ2) ，于是模型（5.1.6）改为

⎧y i =β0+β1x i +εi

i = 1,2,„, n ，ε1, ε2, , εn 相互独立⎨2

⎩εi ～N (0, σ)

（5.1.16）

在模型（5.1.16）下有如下定理定理5.1.1

（1）β～ N (β0 ，σ(+) ) （5.1.17）

0n l xx

∧

（2）β～ N (β1

∧

σ ，) （5.1.18）

l xx

（3）

Q e

σ2

=i =1

∧

∑e i

σ2

～χ（n －2）（5.1.19）

（4）y ，β，∑e i 相互独立．

i =1

证：由性质1，β和β分别是服从正态分布的随机变量

∧∧

y 1, y 2, y n 的线性组合，故β和β服从正态分布，再由性质2

即得到（1）与（2）．

由式（5.1.16）可得

∧∧

y i ～N (β0+β1x i , σ2) (i = 1,2,„, n)

将上式写成矩阵形式为

Y ～N (β0I +β1X , σ2I n ) 其中 I = (1, 1, , 1)

Y = (y 1, y 2, , y n )

X = (x 1, x 2, , x n )

为n 阶单位阵． I n

构造n 阶正交矩阵A ，其中第1，2行分别为 (

，

，„，

)

(

x 1-x l xx

，

x 2-x l xx

，„，

x n -x l xx

)

作正交变换 Z = A Y Z = (z 1, z 2, , z n ) ’ 则有Z ～N (β0AI +β1AX , σ2I n )

其中β0AI +β1AX =（n (β0+β1x ), β1l xx , 0, , 0）’ 因此z 1, z 2, , z n 相互独立，且有

z 1～N (n (β0+β1x ) , σ2) ，

z 2～N (β1l xx , σ2)

z i ～N (0, σ2) (i = 3,4,„, n)

1n ∧z z 又因 1= n y ，2=∑(x i -x ) y i =l xx β

l xx i =1

所以

∑e i =∑(y i -y ) －βl xx = ∑y i －(n y ) －(l β)

xx 11i =1i =1i =1

=∑z i －z 1－z 22=∑z i

∧2

∧

i =1i =3

故有 i =1

∑e i

σ2

～χ（n －2）

由于z 1, z 2, , z n 相互独立，且z 1=

∑e i =∑z i

i =3

n y ，z 2=

l xx β，

∧

i =1

则有y ，β，∑e i 相互独立．

∧

i =1

为引入合适的检验统计量，介绍如下平方和分解公式：

l yy = U +Q e （5.1.20）

其中

l yy = ∑(y i -y ) 称为总偏差平方和

i =1n

U = ∑(y -y ) 称为回归平方和．

i i =1

∧

Q e = ∑(y i -y ) 称为残差平方和．

i =1

∧

恒等式 y i -y =（y i -y ）+（y -y ）的几何意义如图4-2，

∧∧

由其出发有

i =1n

∑(y i -y ) =∑[(y i -y i ) +(y i -y )]=∑(y i -y i ) +∑(y i -y ) +2

i =1

∧∧

∧

i =1

∑(y i -y i )(y i -y )

=∑(y i -y ) +∑(y -y )

i i i =1i =1

∧∧

∧

其中交叉项

i =1

∑(y i -y i )(y i -y ) =∑[(y i -y ) -(y i -y )](y i -y )

i =1n

∧∧

=∑[(y i -y ) -β1(x i -x )]β1(x i -x )

i =1

∧∧

=βl xy －β2l xx = βl xy －β

∧

∧∧

l xy l xx

l xx

= 0

图5-2

平方和分解公式（5.1.20）说明总的偏差平方和l yy 可以分∧

为两个部分，一部分是Q e ，是由实际观测值y i 与回归值y 的偏

差即残差所引起的，另一部分U 是由回归直线所引起的．当U 越大时Q e 就越小，则y 与 x之间的线性关系就越显著，反之y 与 x之间的线性关系不显著．因此，可考虑当U/Q e 的值较大时, 则认为y 与 x之间的线性关系较显著．

σ事实上，当H 0成立时，由定理5.1.1知β～N (0，) ，

∧

l xx

由此得

β1xx

∧

～N (0，1) ，从而有

β1l xx σ

n 2

∧

～χ2（1）

由定理5.1.1又知 i =1

∑e i

σ2

Q e

σ2

～χ（n －2），且U 与Q e 独立，

从而有

与

Q e

独立．因此，由F -分布的定义知，当H 0成立时，

统计量

F =

～F （1，n -2）（5.1.21）

Q e /(n -2)

由前面的分析可知，当F 值较大时，则认为y 与 x之间的线性关系较显著，即应拒绝H 0，则由（5.1.22）式，可给出如下判别法则：对给定的显著性水平α，当F ＞F 1-α(1, n -2) 时，拒绝H 0，否则就不能拒绝H 0．

在实际作检验时，通常将此检验过程用表5.1.2的形式给出，表5.1.2称为方差分析表．

表5.1.2一元正态线性模型的方差分析表

∧

若经过检验拒绝了H 0，也可称回归系数β的效果是显著的；

否则，称回归系数β的效果不显著．此时y 与 x的关系可能有如

∧

下几种情况：（1）x 对y 无显著影响，应丢弃x 这个自变量，进而考虑其它自编量；（2）x 对y 有显著影响，但这种影响不是线性的，应考虑非线性回归；（3）除了x 外还有其它自变量对y 有

显著影响，从而减弱了x 对y 的影响程度，这时应考虑采用多元线性回归．

2．样本相关系数和判定系数（拟合优度）

若拒绝了H 0，即y 与 x之间的线性关系是显著的，我们可用样本相关系数

r =

l xy xx yy

（5.1.22）

来刻划y 与 x之间的线性关系的密切程度．

比较（5.1.23）式与β=

∧

l xy l xx

，得r 与β的符号一致。

∧

l xy U

又有 r 2= = （5.1.23）

l l xy l yy yy

称r 2为判定系数（拟合优度）。

由（5.1.21）知| r | ≤1，且r 2值越大，即回归平方和U 越大，残差平方和Q e 越小，y 与 x之间的线性关系越密切，极端的情况是当| r |=1时，即Q e =0，这时，n 个点（x i ，y i ）i =1，2，„，

n 全部落在回归直线y =β+βx 上．故拟合优度可以定量描述回

归方程拟合的好坏。 3．回归系数β1的置信区间

若拒绝了H 0，我们还可以给出回归系数β1的置信区间，由定理5.1.1可推得

∧

∧∧

β1-β1σ

∧

～ t （n -2）

/xx

由此β1得置信度为1-α的置信区间为 [β- t 1-α/2(n -2)

∧

，β+ t 1-α/2(n -2)

∧

]

（5.1.24）

例5.1.2 （1）对例5.1.1的回归方程进行检验；（2）求出样本相关系数r ，(3)求β1的置信度为1-α的置信区间．（α=0.05）

解由例5.1.1中计算的结果有

l xx =2750，l xy =1100

l yy =∑(y -y ) =∑y i －11y = 6498.77-6055.94

i =1

=442.83

U =

l xy l xy

21100== 440 2750

Q = l yy - U = 442.83 -440=2.83

列出如下方差分析表．表5.1.3

由α=0.05，查得分位数F 0. 95(1, 9) = 5.12，由于F ＞F 0. 95(1, 9) = 5.12，故拒绝H 0，

认为已求得的回归方程效果是显著的．（2）由（5.1.24）式得

2r =

l yy

= 0.9936 | r | = 0.9968

由| r |接近于1，又一次说明y 与 x之间的线性关系是非常显著的．

（3）由α=0.05，1-α/2 = 0.975，查得t 0. 975(9) = 2.2622，则有

t 0. 975(9)

= 2.2622×0. 5583=0.0241

2750l xx

∧

由（4.1.25）式得β1的置信度为0.95的置信区间为 [0.3759，0.4241]．

四、回归诊断

对回归模型进行回归诊断的方法有很多，最重要的方法是残

差分析和共线诊断（对多元回归的情况）。 1．残差分析

残差分析的基本思想是用能够计算出来的残差e i 作为随机误差εi 的估计，利用残差的特征来考察原模型的合理性，主要是对于误差假设的合理性。残差分析就是检验：

● 误差项正态分布的假设 ● 误差项的独立性假设 ● 误差项的等方差假设

● 观测值中是否有异常值存在

1) 误差项正态分布的假设是否成立的判断：残差的正态性检验，对所得的残差数据作正态性检验。

2) 误差项的独立性假设是否成立的判断：当误差项存在序列相关时，可能导致最小二乘估计的方差变大，回归系数的t 检验失效。 ①可用D-W 检验（J.Durbin 和G .S.Watson 于1951年提出的一种适用于小样本的检验方法）

随机扰动项的一阶自回归的形式为：εt =ρεt -1+u t

H 0：ρ=0

∑(e t -e t -1)

t =2n

DW=t =2

∑(e t )

0≤DW ≤4

在给定样本容量n 、自变量个数及显著性水平之后，在D-W 检验临界值表中可以查到D-W 检验的下临界值d l 和上临界值d u

②残差的序列图和残差的散点图

残差的序列图：以e t 为纵轴，以时间t 为横轴来绘制的残差的散点图：分别以e t 和e t -1为纵轴和横轴来绘制的序列图呈随机走势，散点图呈随机分布，则认为不存在序列相关

3）误差项的等方差假设是否成立的判断：

残差图：凡是以残差e t 为纵坐标，而以观测值y i ，预测值y i ，自变量Xj （j = 1，2，„，p ）或序号、观测时间等为横坐标的散点图，均称为残差图。

如果线性回归模型的等方差假定成立， e i ，(i=1， 2，„，n ) 应相互独立且近似服从N(0，1) ，那么残差图中散点应随机地分布在–2到+2的带子里。这样的残差图称为正常的残差图。 4）样本奇异值的诊断：

样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。

一般认为，如果某样本点对应的标准化残差的值超出了-3—+3的范围，就可以判定该样本数据为奇异值。

∧

五．预测

若经过检验，拒绝了H 0，说明回归方程是有意义的，即回归方程与实际数据的拟合效果是显著的，则可用已求得的回归方程y =β+βx 来进行预测．

所谓预测是指对自变量x 的某一确定值x 0用已求得的回归方程y =β+βx 来估计因变量y 的相应值y 0所在的范围． 10

设变量y 与x 满足模型(5.1.3)，且由数据（x i ，y i ）(i =1，2， „，n ) 求得回归方程y =β+βx ，x 0为x 的某一确定值，

∧

y 0=β+βx 0+ε0，ε0～N （0，σ2）且ε0，ε1， „，εn 相互

∧

∧∧

独立．

在以上假设下先给出E y 0的置信区间，然后再给出y 0的预测

区间．

由y 0=β+βx 0+ε0和定理5.1.1可知

10∧

∧

y 0= y +β1（x 0- x ）～N （β0+β1

∧

1(x 0-x )

]σ2）x 0，[+

n l xx

（5.1.25）

∧

且y 0与Q e 独立，再由t -分布的定义有

(y 0-E y 0) /σ1+(x 0-x )

n l xx

∧

Q e

σ2(n -2)

（n -2）

∧

(y 0-E y 0) ∧1(x -x ) σ+0

n l xx

～ t

于是E y 0的置信度为1-α的置信区间为 [y 0- t 1-α/2(n -2) σ∧

，y 0+ t 1-α/2(n -2) σ

∧

1(x 0-x ) + n l xx

1(x 0-x ) +] （5.1.26） n l xx

∧

由y 0是y i 的线性组合(i =1，2， „，n ) ，y 0与y i (i =1，∧∧∧

2， „，n ) 独立，所以y 0与y 0独立，又y 0与Q e 独立，故有y 0-y 0

与Q e 独立．

又y 0～N （β0+β1x 0，σ2），

∧1(x 0-x )

～N （+，[+]σ2） ββy 01x 00

n l xx

故

1(x -x )

]σ2） y 0-y 0～N （0，[1++0

n l xx

∧

再由t -分布的定义有

1(-x )

(y 0-y 0) /σ++x 0

n l xx

∧

Q e

σ2(n -2)

（n -2）

∧

(y 0-y 0)

∧

σ1++(x 0-x )

l xx

～t

于是y 0的置信度为1-α的预测区间为

1(x -x ) ∧

[y 0-t 1-α/2(n -2) σ++0

n l xx

∧

1(x 0-x )

]（5.1.27） y 0+t 1-α/2(n -2) σ++

n l xx

∧

由（5.1.28）式可以看出σ越小y 0的预测区间越窄，则预测精度越高；对给定的样本观测值和置信度，x 0离x 越近，则预测精度越高．

比较（5.1.27）和（5.1.28）式可以看出在同样的置信度下y 0

的预测区间较E y 0的置信区间要宽一些．

由x 0的任意性，及（5.1.28）式可以得到两条曲线： y = y - t 1-α/2(n -2) σ

∧

1(x -x ) ++ n l xx

1(x -x )

y 2= y + t 1-α/2(n -2) σ++

n l xx

∧

夹在这两条曲线之间的部分为y 的置信度为1-α的预测带，如图

5-3

图5-3

特别当n 很大，x 0在x 附近取值时，有

∧1(x 0-x ) σ(n -2) ≈ ，≈ σ1++t 1-α/2u 1-α/2

n l xx

∧

这时y 0的置信度为1-α的预测区间可近似为：

[y 0-u 1-α/2σ

如图5-4

∧

，y 0+u 1-α/2

σ] （5.1.28）

∧

图5-4

在实际中常用的有：

y 的置信度为0.95的预测区间为[y -1.96σ，y +1.96σ]

y 的置信度为0.99的预测区间为[y -2.58σ，y +2.58σ]

例5.1.3 在例5.1.1中求当温度x 0=23时，E y 0的95%的置信区间，y 0的95%的预测区间．

∧∧∧

解 y 0=β+βx 0= 13.4636+0.4×23=22.6636，

∧

∧∧

∧

t 0. 975(9) =2.2622

1(x 0-x ) 1(23-25) σ++=0.5607=0.1705 n 112750l xx ∧

∧

1(23-25) 1(x -x )

=0.56071++=0.5860 1++0

112750n l xx

由（5.1.27）式，E y 0的95%的置信区间为

[22.6636-2.2622×0.1705，22.6636+2.2622×0.1705]=

[22.2779，23.0493]

由（5.1.28）式，y 0的95%的预测区间

[22.6636-2.2622×0.5860，22.6636+2.2622×0.5860]= [21.338，23.9892]

与《应用数理统计叶慈南第五章1》相关的范文

07-09 市工商统计工作经验交流材料

创新思路强化规范-推进统计工作再上新水平 XX市工商行政管理局（20XX年6月5日）　　近几年来，XX市局在省局办公室的指导帮助下，认真贯彻执行省局《统计工作管理方法》和《考评办法》，立足实际，积极创新，强化规范，统计工作整体水平有了新的提高。自20XX年以来，连续3年被评为全省工商系统统计工作先进单位。　　一、明确责任，在齐抓共管上下功夫　　统计工作是一项基础性工作，在当前工商机关监管执 ...

06-16 四年下册数学教学计划

四年下册数学教学计划一、班级情况分析：这学期，我继续执教四年级5班和6班。大部分学生对数学有上进心，但接受能力还有待提高，学习态度还需不断端正。学生在学习水平上差异较大，有的学生的学习习惯差，上课经常走神，学生的自我约束的能力很差，作业不够规范，马虎、粗心现象特别突出。很多家长的重视程度不够，在教学过程中对学生学习习惯和学习行为的教育力度不是很到位，相对来说差生面广，特别是解决问题的能力很差， ...

10-07 2013年-2014年第二学期六年级数学教学工作计划

20xx-20xx第二学期六年级数学教学工作计划学习对象分析：本班学生上册应掌握的知识基本掌握较好，尤其是分数计算方面准确率较高，但在实际应用类，如应用题，还有个别学生对题目难以理解，解题困难。大部分学生学习较主动，能自觉进行课后复习、课前预习，课堂上发言较积极，但有个别学生依赖性较强，思维能力和分析能力都较差，听课时较易分神，学习成绩较不理想。同时，本班同学学习习惯大多较好，课堂听课认真，作业 ...

10-19 统计局工作要点

20*年，青浦区统计部门要深入贯彻党的***、***六中全会、市委八届十次全会和区委第三次党代会精神，按照全国和市统计工作会议要求，紧紧围绕落实科学发展观和努力构建社会主义和谐社会，全面实施“十一五”规划及建设“绿色青浦”总体目标，进一步加强统计改革和建设，坚持以提高统计数据质量为核心，强化统计服务，加强统计法制建设、统计基础队伍和统计信息化建设，进一步解放思想，开拓创新，开创统计工作新局面，为青 ...

10-07 六年级下册数学复习整理和复习建议

六年级下册数学复习整理和复习建议　　一、整理和复习内容　　系统的、全面的回顾与整理小学数学的全部内容。　　二、整理和复习目标　　 1．比较系统地掌握有关整数、小数、分数和百分数、负数、比和比例、方程的基础知识；能比较熟练地进行整数、小数、分数的四则运算，能进行整数、小数加、减、乘、除的估算，会使用学过的简便算法，合理、灵活地进行计算；会解学过的方程；养成检查和验算的习惯。　　 2．巩固常用计 ...

04-23 四年级下学期数学科教学计划

四年级下学期数学科教学计划本册教学要求 1．理解小数的意义和性质，体会小数在日常生活中的应用，进一步发展数感，掌握小数点位置移动引起小数大小变化的规律，掌握小数的加法和减法。 2．掌握四则混合运算的运算顺序，会进行简单的整数四则混合运算；探索和理解加法和乘法的运算定律，会应用它们进行一些简便运算，进一步提高计算能力。 3．认识三角形的特性，会根据三角形的边、角特点给三角形分类，知道三角 ...

05-22 四年级数学下册教学计划

四年级数学下册教学计划一、指导思想：　　教材四年级数学下册，是以《全日制义务教育数学课程标准（实验稿）》的基本理念和所规定的教学内容为依据，在总结现行九年义务教育小学数学教材研究和使用经验的基础上编写的。编者一方面努力体现新的教材观、教学观和学习观，同时注意所采用措施的可行性。使实验教材具有创新实用，开放的特点。另一方面注意处理好继承与发展的关系，既注意反映数学教育改革的新理念，又注意保持我国 ...

12-27 科技花开绽天树业务插上金翅膀-农行分行电子化促进业务发展纪实

　　农行甘肃陇南分行重视加强科技建设，到20XX年未全辖9个县支行43个基层营业网点全部与全国农行“新一代”业务系统对接联网，实现了业务办理电子化。甘肃陇南地处秦岭山脉以南，境内山大沟深，交通不便，还在上世纪之末，全行所有营业网点柜台办理业务仍然沿用传统的手工操作方式，客户排长队等候办业务的事屡见不鲜。面对日益发展的业务和不同客户的需求，为了加快业务发展步伐，自20XX年起，全行在省分行科技处和地 ...

08-28 小学数学第十二册教学计划

小学数学第十二册教学计划一、学生基本情况分析六（2）现有学生56人。学生情况分析：本班学生部分学习基础差，学生思维灵活性差。接受新知识、新事物的能力较强，但家长有一种错误的感觉，从而部分学生平时学习态度不够端正，基础知识不够扎实，后进生紧不慢。特殊家庭的影响，我班有好几个学生或是单亲家庭，或是家长从不管教的，这部分学生不但学习马虎，成绩不理想，而且脾气往往都比较另类分学生能从已有的知识和经 ...

07-23 小学数学第十册教学计划

　　指导思想：　　数学是人们对客观世界定性把握和定量刻画、逐渐抽象概括、形成方法和理论，并进行广泛应用的过程。20世纪中叶以来，数学自身发生了巨大的变化，特别是与计算机的结合，使得数学在研究领域、研究方式和应用范围等方面得到了空前的拓展。数学可以帮助人们更好地探求客观世界的规律，并对现代社会中大量纷繁复杂的信息作出恰当的选择与判断，同时为人们交流信息提供了一种有效、简捷的手段。数学作为一种普遍适 ...

随机推荐

猜你喜欢

应用数理统计叶慈南第五章1

·小学2011年秋季期末考试安全预案

·抗冰救灾心得体会

·学年自我鉴定

·"自由"作文

·科技利弊辩论

·组织行为学考题及答案

·征兵时间由冬季调整为夏秋解决冬训青黄不接难题

·黑头通知9关于信息机群发短信相关工

·住院病人长期医嘱执行单的改进

·工程建设标准解释管理办法-2014-5-20

·小学教师工作总结(音乐)

·经典班主任工作总结(推荐)

·[废墟的召唤]反思

·大班歌唱活动:小鸟小鸟

·书法作品书写落款格式

·电脑蓝屏解决

·你的手机相机,其实也是一台量子随机数发生器

·振动式微型发电机的研究进展

·模具设计冲压件

·[彼岸花开]读后感--天使在人间

应用数理统计 叶慈南 第五章1

与《应用数理统计 叶慈南 第五章1》相关的范文

·小学2011年秋季期末考试安全预案

·抗冰救灾心得体会

·学年自我鉴定

·"自由"作文

·科技利弊辩论

·组织行为学考题及答案

·征兵时间由冬季调整为夏秋解决冬训青黄不接难题

·黑头通知9关于信息机群发短信相关工

·住院病人长期医嘱执行单的改进

·工程建设标准解释管理办法-2014-5-20

·小学教师工作总结(音乐)

·经典班主任工作总结(推荐)

·[废墟的召唤]反思

·大班歌唱活动:小鸟小鸟

·书法作品书写落款格式

·电脑蓝屏解决

·你的手机相机,其实也是一台量子随机数发生器

·振动式微型发电机的研究进展

·模具设计 冲压件

·[彼岸花开]读后感--天使在人间

应用数理统计叶慈南第五章1

与《应用数理统计叶慈南第五章1》相关的范文

·模具设计冲压件