第九章 方差分析和回归分析
第九章 方差分析和回归分析
内 容 提 要
1、方差分析
(1)基本概念
方差分析:通过随机抽样及数据处理,检验试验结果是否受试验条件这一类可控制因素显著影响,从而确认对质量指标影响主要来自哪一类因素,即用来鉴别所谓因素效应的有效统计分析方法.
因素(因子):人为可以控制的实验条件称为因素或因子.
水平:因素或因子的不同等级或因素所处的不同状态称为因素的不同水平. 单因素试验:试验中如果只有一个因素或因子在变化,其它可控条件保持不变,这样的方差试验称为单因素试验.
多因素试验:试验中不止一个因素或因子在变化,称为多因素试验.若只有二个因素在变化就叫双因素试验.
(2)单因素试验的方差分析
设因素A有j个不同水平(j=1,2, ,r),在总的r个水平下均重复试验i次(i=1,2, ,m).每一个水平视为一个独立总体Xj~N(μj,σj),每个水平下总的m次试验结果视为取自Xj的容量为m的样本(X1j,X2j, Xkj, ,Xmj).单因素方差分析的一般方法步骤如下:
1)提出待检假设H0:μ1=μ2= =μr=μ; 2)列方差计算表9-1,计算SA、SE; 3)选取建立F统计量
2
mr-rSA
⋅2~F(r-1,mr-r),并计算F统计量的值; F=
r-1SE
2
2
2
4)对给定的检验水平α,查F分布表,找到F统计量的临界值(表值); 5)比较得出结论:
① 若计算值F>F临界值Fα(r-1,mr-r),拒绝H0,即因素水平影
响显著,或有显著影响;
② 若计算值F
响不显著或没有显著影响.
单因素方差分析见表9-2.
2、回归分析
(1)基本概念
回归分析:利用样本数据建立起相关变量之间相关关系的数学模型,并应用统计推断的一般法则,对相关关系进行有效的统计分析方法.
一元线性回归模型为 Y=a+bx+ε,ε~N(0,σ) 其中,a、b称为回归系数.
(2)最小二乘法
2
表9-2
ˆx,可用最小二乘法求得回归系数的估计ˆ=aˆ+b线性回归方程可表示为 y
值:
n
⎧
xiyi-n∑⎪
ˆ=i=1⎪bn
⎨22 或
x-n∑i⎪
i=1
⎪ˆˆ=-b⎩a
n
⎧
(xi-)(yi-)∑⎪
ˆ=i=1⎪bn
⎨2
(x-)∑i⎪i=1
⎪ˆˆ=-b⎩a
nnn
1n⎧22222
⎪Lxx=∑(xi-)=∑xi-n(∑xi)=∑xi-ni=1i=1i=1i=1⎧ˆLxy⎪nn
⎪b=⎪
令 ⎨Lxy=∑(xi-)(yi-)=∑xiyi-n则⎨Lxx
i=1i=1⎪a⎪ˆˆ=-bnn⎩⎪L=(y-)2=22
y-n∑∑yyii⎪i=1i=1⎩
(3)线性相关显著性检验
ˆx是否有效,或x、y之间线性相关关系是否显著,只ˆ=aˆ+b检验回归方程y
ˆ=0是否成立.这个问题只存在下面两种可能 要检验回归系数b
ˆ=aˆ;⎧是,即⇒y
ˆxˆ=0⎪ˆ=aˆ+bb⎨否,即b≠0⇒⎧y
⎨⎪ˆxˆ=b⎩y⎩
1)
ˆ≠0)(a
ˆ=0)(a
2)
ˆ与x无关 即y与x没有线性相关关系,反过来,若不能否定1)1)表示y,
就表示线性相关显著;
2)有二种可能,都表示y与x之间线性相关关系成立.
运用R检验法进行线性相关显著性检验.R检验法检验线性相关显著性或回归方程有效性的一般步骤为:
ˆ=0; 1)提出检验假设:H0:b
2)选用统计量R=
LxyLxxLyy
~R(n-2),并计算R值;
3)在给定α下,查相关系数表得到临界值Rα(n-2); 4)比较得出结论:
① 若R>Rα(n-2),拒绝H0,所求回归方程有效或线性相关显著; ② 若R
疑 难 分 析
1、怎样区分讨论的问题是方差分析还是回归分析?
实际问题所考察的指标y往往既受因素xi的影响,又受随机误差的影响.而因素又分为属性的和数量的.属性的因素一般无数量大小可言,只是性质的不同,如:种子的品种、机器的型号、加工的工艺、材料的品质等等.数量的因素,可以在一定范围内取值,如:人的身高、体重,试验的温度,产品的合格率等等.当所
考虑的因素是属性时,问题属于方差分析的范围;当所考虑的因素是数量时,问题属于回归分析的范围.
例 题 解 析
【例1】设某地区酿酒公司下属有A1、A2、A3、A4共4个酒厂.公司总经理为提高酒的质量,开展质量评优活动,随机地从4个酒厂各抽取3瓶样酒,指定同一名品酒员按事先规定的色、香、味质量标准评分,评分结果的原始数据如表9-3所示.
表9-3
试问:不同酒厂对酒的质量有无显著影响()?
解:(1)提出待检假设H0:μ1=μ2= =μr=μ; (2)列方差计算表,如表9-4所示. 利用表中最后一列,即(
表9-4
∑
)列的数据计算
2SE=T2-
*T=820-⨯2444=5.33 m3
1*x⋅21962⋅
S=⋅T-=⨯2444-=46.67
mmr312
2A
(3)选F统计量并求F计算值和临界值
22
8⋅SA12-4SA
F=⋅2=~F(3,8) 2
4-1SE3⋅SE
F=
8⨯46.67
=23.35
3⨯5.33
又查附表5, F0.05(3.8)=4.07
(4)比较得出结论
因为F
=23.35>>F0.05(3,8),拒绝H0,即表示不同酒厂对酒的质量有显著影响.这里F>>Fα,可认为因素水平影响特别显著,事实上由原始数据可见,A4评分特别高,直观上已可判断有显著差异,说明分析的结论是符合实际情况的,也证明了方差分析的科学性.
【例2】设有某种创汇商品在国际市场上需求量q(单位:万件),价格p(单位:万美元/件).根据往年市场调查获悉q与p之间的一组调查数据如表9-5所示.
表9-5
如果今年该商品预定价为p=4.6(万美元/件),要求根据往年资料建立的q对p的回归方程,进行线性相关性是否显著,并预测国际市场上今年的需求量大致为多大?(α=0.05)
ˆ的值. ˆ、b解:根据样本数据,用最小二乘法求a
∑pq-1097.17-10⨯3.4⨯3.2ˆ===-2.04 b
121.8-10⨯3.4p-10()
ii
i
2
i
2
2
i
ˆ=3.2-(-2.04)⨯3.4=10.136 ˆ=-b a
ˆ的值代入得到所要求的引例中需求量q对价格p的回归方程为 ˆ、b将a
ˆ=10.136-2.04p. q
对所建立的q对p的回归方程进行线性相关性显著检验:
ˆ=0; 1)提出待检假设H0:b
2)选用统计量R=
LqpLppLqq
~R(n-2),并利用回归计算的结果计算
R:
因为Lpp=
10
∑p
i=1
10
2
i
-10()=5.68;Lpq=∑piqi-10=-11.63;
2
i=1
10
Lqq=∑qi2-10()2=126.3-10⨯(3.2)2=23.9
i=1
所以 R=
-11.63.68⨯23.9
=0.998;
3)查附表7得到 R0.05(8)=0.632; 4)结论
∵R>Rα(n-2),拒绝H0,即q对p的回归方程有效或线性相关性显著.
ˆ=10.136-2.04p有效,可以用于预测. 经检验说明:回归方程q
当p=4.6时,国际市场上今年对该商品的需求量大致为:10.136-2.04×
4.6=0.752(万件).