单因素方差分析的数学模型及其应用_田兵
2013年6月第27卷第2期阴山学刊
YINSHANACADEMICJOURNALJun.2013Vo1.27No.2
单因素方差分析的数学模型及其应用
田
兵
(包头师范学院《阴山学刊》编辑部,内蒙古包头014030)
*
摘要:本文主要介绍了单因素方差分析的数学模型。同时结合实例演示了利用单因素方差分析通过R
软件编程解决实际问题的过程。
关键词:单因素方差分析;模型;平方和分解;检验统计量中图分类号:O212.1
文献标识码:A
文章编号:1004-1869(2013)02-0024-04
在日常的工作和生活中,影响一件事的因素有很多,人们希望根据各种实验来判断不同的因素对实验结
果的影响。例如:不同的生产厂家、不同的原材料、不同的操作规程及不同的技术指标等对产品的质量、性能都会有影响,然而不同因素的影响大小不等。方差分析是研究一种或多种因素的变化对实验结果的观测值是否有显著影响,从而找出较优的试验条件或生产条件的一种常用数理统计的方法。在实验中所关注的数量指标如产量、性能等称为观测值。影响观测值的条件称为因素。因素的不同状态称为水平,一个因素可以采用多个水平。在一项试验中,可以得到一系列不同的观测值。引起观测值不同的原因是多方面的。有的是因为处理方式不同或条件不同引起的,称作因素效应;有的是实验过程中偶然性
称作试验误差。因素的干扰或观测误差所导致的,
方差分析的主要工作是将测量数据的总变异按照变异原因的不同分解为因素效应和试验误差,并对其
作出数量分析,比较各种原因在总变异中所占的重要程度,作为统计推断的依据,由此确定进一步的工作方向
——在研究实际问题时,我们通常是从最简单的情形入手。单因素方差分析是方差分析的最简单情形—影响其因素只有一个。
1单因素方差分析的数学模型
A有r个水平A1A2…,Ar,通常假设试验只有一个因素A在发生变化,其余的因素没有变化。在水平Ai下
得到试验指标如表1所示。进行ni次独立观测,
表1:单因素方差分析数据
水平A1A2Ar
x11x21xr1
x12x22xr2
…
观测值
……
x1n1x2n2x2nr
总体N(μ1,σ2)N(μ2,σ2)
N(μr,σ2)
其中xij表示在因素A的第i个水平下的第j次试验的试验结果。
收稿日期:2013-05-21
作者简介:田兵(1982-),男,山西五台人,硕士,研究方向:数理统计。
*
24
2
xi2…,xini看作是来自第i正态总体Xi~N(μi,将水平Ai下的试验结果xi1,σ)的样本观测值,其中μi,
σ都是未知的。而且对于每个总体Xi是相互独立的,考虑线性统计模型
2
{
xij=μi+εij,i=1,2,…,r,j=1,2,…ni,εij~N(0,σ)且相互独立,
2
(1)
其中μi是第i个总体的均值,εij是相应的试验误差。
比较因素A的r个水平的差异归结为比较这r总体的均值。即检验假设
H0:μ1=μ2=…=μr,H1:μ1,…,μ2,μr不全相等。记
1
n=μ=∑niμi,
ni=1
r
r
(2)
ni,αi∑i=1
=μi-μ
r
这里μ表示总和的均值,αi为水平Ai所对应指标的效应。因此有∑niαi=0.
i=1
上述模型又可以等价的写成
{
2
xij=μ+αi+εij,I=1,2,…,r,j=1,2,…,ni,
2
εij~N(0,σ)且相互独立,r
(3)
niαi∑i=1
=0.
称模型(3)为单因素方差分析的数学模型,其是一种线性模型。
方差分析
假设(2)式等价于
H0:α1=α2=…=αr=0,H1:α1,…,α2,αr不全为零。
如果H0被拒绝,那么就说明因素A的个水平的效应之间有显著的差异;否则,差异不明显。为了导出H0的检验统计量,方差分析法建立在平方和分解和自由度分解的基础上,考察统计量1ST=∑∑(xij-x),x=∑∑xij,
ni=1j=1i=1j=1
2
r
ni
r
ni
称Sr为总离差平方和(或称为总变差),其实全部试验数据xij与总平均值x差的平方和,描述了所有观测数据
的离散程度,可以证明如下的平方和分解公式:
ST=SE+SA
其中
r
ni
(4)
1
=∑xij,SA=nij=1
ni
r
ni
2
r
SE=
∑∑(xiji=1j=1
-xi·),xi·
2
∑∑(xi·-x)
i=1j=1
=
ni(xi·-x)2.∑j=1
xi2,…,xini是来自同一个正态总体这里SE是代表随机误差的影响。这是因为对于固定的i来讲,观测值xi1,
ni
2
N(μi,σ)的样本,因此,它们之间的差异是有随机误差多引起的。而∑(xij-xi·)是这ni个数据的变动平方
2
j=1
和,正是它们差异大小的度量。将r组这样的变动平方和相加,就得到了SE,一般称SE为误差平方或组内平方。
SA表示在Ai水平下的样本均值和总平均值之间的差异之和,它反映了r个总体均值之间的差异,因为xi·
…,x2,是第i个总体的样本均值,是μi的估计,因此r个总体均值μ1,μ2,μr之间的差异越大,这些样本均值x1,
r
2
…,xr之间的差异也就越大。平方和∑ni(xi·-x)正是这种差异大小的度量,这里ni反映了第i个总体样本
i=1
大小在平方和SA中的作用,称SA为因素A的效应平方和或组间平方和。
式(4)表明,总平方和ST可按其来源分解成两部分,一部分是误差平方和SE,是由随机误差所致;另一部分是因素A的平方和SA,是由因素A的各水平的差异一起的。
25
22
由模型假设(2)经过统计分析可以得到E(SE)=(n-r)σ,即SE/(n-r)是σ的一个无偏估计,且SE2
2~χ(n-r).σ
如果原假设H0成立,则有,即此时SA/(r-1)也是的无偏估计,且SAσ
2
~χ2(r-1),
并且SA与SE相互独立,因此当H0成立时有
SA/(r-1)F=~F(r-1,n-r).
SE/(n-r)
n-r)表示F分布的上α分为于是F可以作为H0的检验统计量,对给定的显著性水平α,用Fα(r-1,
n-r),若F>Fα(r-1,则拒绝原假设,认为因素A的r个水平有显著差异。也可以通过计算P值的方法点。
P值为p=P{F(r-1,n-r)>F},n-来决定是接受还是拒绝原假设H0。它表示的是服从自由度为(r-1,r)的F分布的随机变量取值大于F的概率。P值小于α等价于F>Fα(r-1,n-r),显然,表示在显著性水
这意味着应该拒绝原假设H0。当P值大于α,则无法拒绝原假设H0,所以应接受平α下的小概率事件发生了。原假设H0。
将上述分析整理成表的形式,就可以得到方差分析表2。
表2:单因素方差分析表
方差来源因素A误差总和
自由度r-1n-rn-1
平方和SASEST
均方
MSE(SA)=MSE(SE)=
SA
(r-1)SE(n-r)
F=
F比MSE(SA)MSE(SE)
P值p
3相关实例
3个工厂生产同一种零部件。现在从各厂产品中分别出取4件产品做检测,其检测强度见表3所示。
表3:产品检测数据
工厂103ABCD
[1**********]
[1**********]
9811885109
8311697114
零件强度[1**********]
[1**********]
9912191117
[1**********]
106108
107104
判断3个厂生产的产品零件强度是否有显著差异。利用R软件解决上述问题,相应的R软件计算过程如下。
3个不同工厂生产能力为3个水平,解:设零部件的强度为为所考察的因素。从各厂取出的产品所做得检测强度值,视为来自3个正态分布总体的样本观测值。
问题归结为检验:
H0:μ1=μ2=μ3=μ4,H1:μ1,μ2,μ3,μ4不全相等。程序如下:
>intensity<-data.frame(
X=c(115,116,98,83,120,114,99,101,106,107,103,108,107,118,116,104,117,121,111,108,104,73,89,85,97,99,89,91,72,26
120,111,109,114,101,121,117,115),
A=factor(c(rep(1,11),rep(2,10),rep(3,8),rep(4,8))));>intensity.aov<-aov(X~A,data=intensity);>tab<-summary(intensity.aov);>k<-length(tab[[1]])-2;
>temp<-c(sum(tab[[1]][,1]),sum(tab[[1]][,2]),rep(NA,k));>tab[[1]][
运行结果如下:
DfSumSqMeanSqFvaluePr(>F)
A33619.21206.416.2771.146e-06***Residuals332445.874.1Total366065.0---
Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1
上述程序中aov()函数提供了方差分析表的计算,运行结果得到的数据与方差分析表2中的内容相对应,其中Df表示自由度;SumSq表示平方和;MeanSq表示均方;Fvalue表示F值,即F比;Pr(>F)表示PA就是因素A;Residuals是残差,值,即误差。
从上述运行结果中的p值远小于0.01应该拒绝原假设,即认为3个厂生产的零件强度有显著的差异。
2007.出版社,〔参考文献〕
[1].北京:高等教育出版何书元.概率论与数理统计[M]
2006,6.社,
[2]薛毅,M].北京:清华大学陈立萍.统计建模与R软件[
[3]M].北京;高等教王松桂,陈敏,陈立萍.线性统计模型[
1999.育出版社,
SingleFactorAnalysisVarianceandItsApplication
TIANBing
(EditorofAcademicJournal,BaotouTeachersCollege;Baotou014030)
Abstract:Inthisarticle,wechieflyintroducethestatisticideaandthemathematicalmodelofsinglefactora-nalysisvariance.WedemonstratetheappliedprogressofsinglefactoranalysisvariancethroughusingthesoftwareofRtosolveanexample
Keywords:One-wayanalysisofvariance;model;quadraticsumresolution;teststatistic
27