第六章第一节方差分析基本原理
教学内容及组织安排:
授课章节 授课对象 授课时间
第六章 方差分析 生物科学本科 第三学年下学期 授课时数 授课地点 10 学时 教学楼
教 学 目 的 与 掌握:方差分析的基本原理。 要求 熟悉:单因素、二因素试验设计的方差分析;多个样本均数的两 两比较方法。 了解:方差齐性检验和变量变换;缺失数据的估计。 教 学 重 点 与 重点:方差分析的基本思想,平方和、自由度的分解。 难点 难点:方差分析的基本思想;多个样本均数的两两比较。
教 学 方 法 与 教学方法:课堂讲授为主,课堂提问、练习、实习为辅。 组织安排 教学方法 教具 时间安排:分四次进行教学,每次教学教师讲授内容 90 分钟。 讲授、CAI课件、举例 。 多媒体
教学提纲、 一、教学提纲 课 堂 小 结 与 课 (一)方差分析的概述 后练习 计量资料完全随机化设计多组比较为什么不能采用 t 检验 (二)方差分析的基本原理 1、方差分析的基本思想 2、总变异、组间变异、组内变异的概念、计算及意义 3、F 分布及 F 值 4、方差分析表 5、方差分析的基本步骤 (三)单因素试验设计资料的方差分析 1、组内观测次数相等的单因素试验设计方差分析 2、组内观测次数相等的单因素试验设计方差分析 (四)二因素方差分析 1、无重复观测值的二因素方差分析 2、有重复观测值的二因素方差分析
1
3、无(有)重复观测值的二因素方差分析的总变异的划分 4、 (有) 无 重复观测值的二因素方差分析的基本步骤 (结合例题) (五)多组样本均数间的多重比较 多重比较的概述 三种常用的多重比较方法。 LSD 法 SSR 法 Q法 (六)方差分析缺失数据的估计 1、缺失一个数据的估计 2、缺失二个数据的估计 (七)方差分析的基本假定与数据转换 1、方差分析的基本假定 2、数据转换 2.1 数据转换的目的 2.2 数据变换的常见的几种形式 :平方根转换、对数转换、反 正弦转换。 (八)案例讨论及小结 二、课堂小结 方差分析常用于三个及以上均数的比较,当用于两个均数的比较 时,同一资料所得的结果与 t 检验等价,即有如下关系:t2=F 方差分析的基本思想是把测量数据的总变异根据变异来源不同分 解为处理效应和试验误差,并做出其数量估计。 单因素试验设计方差分析是考虑一个因素的不同水平(状态)的 平均数差异显著性;二因素方差分析是考虑不同因素在另一因素 不同水平上表现的差异显著性(主效应)以及二因素间的互作效 应。 三、课后练习 1. 方差分析的基本思想是什么?总离均差平方和以及总自由度 怎样计算? 2. 方差分析的应用条件。
2
3. 两样本 t 检验
与完全随机设计资料的 ANOVA 有何关系?配对 样本 t 检验与随机区组设计资料的 ANOVA 又有何关系? 4. SNK-q 检验和 Dunnett-t 检验都可用于均数的多重比较, 他们有 何不同? 5. 常用的变量变换的方法有哪些?数据变换在资料处理中的作 用是什么?
3
教学内容及组织安排:回顾卡方检验和 T 检验讲授的有关知识,引进方差分析 的概念。
第六章方差分析
方差分析的定义 方差分析(Analysis of variance,ANOVA):又叫变量分析,是英国著名统计学家 R . A . Fisher 于 20 世纪提出的。它是用以检验两个或多个均数间差异的假设检验方法。它是一类 特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。 方差分析的基本功能
t 检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验, 但在生产和科学研究中经 常会遇到比较多个处理优劣的问题, 即需进行多个平均数间的差异显著性检验。这时,若仍采用 t 检验 法就不适宜了。这是因为: 1、检验过程烦琐 例如,一试验包含 5 个处理,采用 t 检验法要进行 理,则要作 k(k-1)/2 次类似的检验。 2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的多个处理进行比较时,应该有一个统一的试验误差的估计值。若用 t 检验法作两两比较, 由于每次比较需计算一个 ,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信 息而使误差估计的精确性降低,从而降低检验的灵敏性。 例如,试验有 5 个处理,每个处理重复 6 次,共有 30 个观测值。进行 t 检验时,每次只能利用两个处理 共 12 个观测值估计试验误差,误差自由度为 2(6-1)=10 ;若利用整个试验的 30 个观测值估计试验误差, 显然估计的精确性高,且误差自由度为 5(6-1)=25。可见,在用 t 检法进行检验时 ,由于估计误差的精确 性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。 3、推断的可靠性低,检验的 I 型错误率大 即使利用资料所提供的全部信息估计了试验误差,若用 t 检验法进行多个处理平均数间的差异显著性检 验, 由于没有考虑相互比较的两个平均数的秩次问题, 因而会增大犯 I 型错误的概率, 降低推断的可靠性。 由于上述原因,多个平均数的差异显著性检验不宜用 t 检验,须采用方差分析法。 方差分析 (analysis of variance) 是由英国统计学家 R.A.Fisher 于 1923 年提出的。 这种方法是将 k 个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同 变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这
些总体方差的估计值的 适当比值,就能检验各样本所属总体平均数是否相等。 “方差分析法是一种在若干能相互比较的资料组中,把产生变异的原因加以区分开来的方法与技术” , 方差分析实质上是关于观测值变异原因的数量分析。 =10 次两两平均数的差异显著性检验;若有 k 个处
几个常用术语: 1、试验指标(experimental index) 为衡量试验结果的好坏或处理效应的高低 ,在试验中具体测定的性状或观测的项目称为试验指标。由于 试验目的不同,选择的试验指标也不相同。在畜禽 、水产试验中常用的试验指标有:日增重 、产仔数 、 产奶量 、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。
4
2、试验因素(experimental
factor)
试验中所研究的影响试验指标的因素叫试验因素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、 饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。 当试验中考察的因素只有一个时,称为单因素试验; 若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用 大写字母 A、B、C、„等表示。 3、因素水平(level of factor) 试验因素所处的某种特定状态或数量等级称为因素水平,简称水平。 如比较 3 个品种奶牛产奶量的高低,这 3 个品种就是奶牛品种这个试验因素的 3 个水平; 研究某种饲料中 4 种不同能量水平对肥育猪瘦肉率的影响,这 4 种特定的能量水平就是饲料能量这一试验 因素的 4 个水平。 因素水平用代表该因素的字母加添足标 1,2,„ , 来表示。如 4、试验处理(treatment) 事先设计好的实施在试验单位上的具体项目叫试验处理,简称处理。 在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验 时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的 一个水平就是一个处理。 在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行 3 种饲料和 3 个品种 对猪日增重影响的两因素试验,整个试验共有 3×3=9 个水平组合,实施在试验单位(试验猪)上的具体项 目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。 5、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫试验单位。 在畜禽、水产试验中, 一只家禽、 一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、 几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单
位。试验单位往往也是观测数据的单位。 A1 、 A2 、„ , B1 、B2、„,等。
重复(repetition): 在实验中,将一个处理实施在两个或两个以上的试验单位上, 称为处理有重复; 一处理实施的试验单位数称为处理的重复数。 例如, 用某种饲料喂 4 头猪, 就说这个处理(饲料)有 4 个重复。
第一节 方差分析的基本原理 一、方差分析的基本思想、目的和用途 方差:又叫均方,是标准差的平方,是表示变异的量。 在一个多处理试验中,可以得出一系列不同的观测值。
5
观 测 值 不 同 的 原 因
处理效应(treatment effect): 处理不同引起
试验误差:试验过程中偶然性 因素的干扰和测量误差所致。
方差分析的基本思想: 处理效应 总变异 试验误差 方差分析的目的 确定各种原因在总变异中所占的重要程度。
处理效应 试验误差
相差不大,说明试验处理对指标影响不大。 相差较大,即处理效应比试验误差大得多,说明 试验处理影响是很大的,不可忽视。
方差分析的用途 1. 2. 3. 4. 用于多个样本平均数的比较 分析多个因素间的交互作用 回归方程的假设检验 方差的同质性检验
二、数学模型 假定有 k 组观测数据,每组有 n 个观测值,则共有 nk 个观测值
6
处 理 重复
2 … j … 1
1 x11 x12 … x1j … T1 x1n x1
2 x21 x22 … x2j … T2 x2n x2
… … … … … … … …
i xi1 xi2 … xij … Ti xin xi
… … … … … … … …
k xk1 xk2 … xkj … Tk xkn xk T=∑xij x
总和 n 平均
用线性模型(linear model)来描述每一观测值: xij =μ + τ i +ε ij (i=1,2,3…,k j=1,2,3…,n) μ -总体平均数 τ i -处理效应 ε ij -试验误差 xij -是在第 i 次处理下的第 j 次观测值 要求ε ij 是相互独立的,且服从标准正态分布 N(0,σ 2 ) 对于由样本估计的线性模型为:xij =x + ti +eij
xij =μ + τ
ij
i
+ε
x -样本平均数 ti -样本处理效应 eij -试验误差 根据的τ i 不同假定,可将数学模型分为以下三种: 固定模型 随机模型 混合模型 (一)固定模型(fixed model) 指各个处理的效应值τ i 是固定值,各个的平均效应τ i = μ i - μ 是一个常量,且 ∑τ i =0。就是说除去随机误差以后每个处理所产生的效应是固定的。 实验因素的各水平是根据试验目的事先主观选定的而不是随机选定的。 在固定模型中,除去随机误差之后的每个处理所产生的效应是固定的,试验重复时会 得到相同的结果 方差分析所得到的结论只适合于选定的那几个水平,并不能将其结论扩展到未加考虑 的其它水平上。 (二)随机模型(random model) 指各处理的效应值τ i 不是固定的数值,而是由随机因素所引起的效应。 这里τ i 是一个随机变量,是从期望均值
为 0,方差为σ 2 的标准正态总体中得到的随 机变量。得出的结论可以推广到多个随机因素的所有水平上。
7
在随机模型中, 水平确定之后其处理所产生的效应并不是固定的, 试验重复时也很难得 到相同的结果 在随机模型中, 水平确定之后其处理所产生的效应并不是固定的, 试验重复时也很难得 到相同的结果 方差分析所得到的结论,可以推广到这个因素的所有水平上 固定模型与随机模型的比较 1. 两者在设计思想和统计推断上有明显不同,因此进行方差分析时的公式推导也有所 不同。其平方和与 df 的分解公式没有区别,但在进行统计推断时假设检验构成的统计数是 不同的。 2. 模型分析的侧重点也不完全相同,方差期望值也不一样,固定模型主要侧重于效应 值的估计和比较,而随机模型则侧重效应方差的估计和检验 3. 对于单因素方差分析来说,两者并无多大区别 (三)混合模型(mixed model) 指多因素试验中既有固定因素又有随机因素时所用的模型. 在实际应用中,固定模型应用最多,随机模型和混合模型相对较少 三、平方和与 df 的分解 方差是离均差平方和除以自由度的商
∑(x-μ)2 σ
2
= N ∑(x- x )2 n-1
s2 =
方差分析的基本思想 引起观测值出现变异分解为处理效应的变异和试验误差的变异。 要把一个试验的总变异依据变异来源分为相应的变异,首先要将总平方和和总 df 分解 为各个变异来源的的相应部分。
8
处理 重复
1 2 … j … n
1 x11 x12 … x1j … x1n
T1
x1
2 x21 x22 … x2j … x2n
T2 x2
… … … … … … …
…
i
…
k
xi1 … xk1 xi2 … xk2 … … … xij … xkj … … … xin … xkn … Tk Ti
xi … xk T=∑xij x
总和 平均
…
处理间平均数的差异是由处理效应引起的:( xi – x ) 处理内的变异是由随机误差引起:(x- xi ) 每一个处理 n 个观测值离均差平方和累加: n n
∑(x - x )2 = 1 ∑ 1
SST = SSt + SSe 总 平 方 和 = 处
(x- xi )2 +
n
n
2 ( 2∑(x- xi ) ( xi – x ) +∑ xi – x )
1
1
0 理 间 平 方 和 + 处 理 内 平 方 和
SST =∑∑ (x - x ) =
2
1
∑x2 -
T2 (∑x) = ∑x kn kn
2
2
令矫正数 C=
T2 kn
则:
SST = ∑x2 -C 总平方和:SST = ∑x2 -C 处理间平方和: SSt = ∑ Ti2 处理内平方和:SSe = SST - SSt
-C
(x x)
2
x
2
( x ) n
2
9
总自由度也可分解为处理间自由度和处理内自由度: dfT = dft + dfe 总 df 处理间 df 处理内 df
处理 重复
1 2 … j … n
1
2
…
i
…
k
dfT = nk-1 dft = k-1 dfe = dfT - dft = nk-1-(k-1) =nk-k = k(n-1)
x11 x12 … x1j … x1n T1 x1
x21 x22 … x2j … x2n T2 x2
… … … … … … … …
xi1 … xk1 xi2 … xk2 … xij … … …
… xkj … …
总和 平均
xin … xkn Ti … Tk T=∑xij
xi … xk x
根据各变异部分的平方和和自由度, 可求得处理间方差 st2 ) ( 和处理内方差 se2 ) ( :
SSt st = dft
2
se =
2
SSe dfe
10
平方和 处理 间 误差 内 总变 异
SS t 1 n
自由度
df t k 1
df e k ( n 1)
df T nk 1
方差
st
2
Ti C
2
SS df
t t
SS e SS T SS t
SS T
se
2
SS df
e e
x
2
C
某猪场对 4 个不同品种幼猪进行 4 个月增重量的测定,每个品种选择体重接近的幼猪 4 头,测定结果列于下表,试进行方差分析。
重 复 1 2 3 4 Ti 大白 31.9 24.0 31.8 35.9 123.6 30.9
品 沈白 24.8 25.7 26.8 25.9 103.2 25.8
种 沈黑 22.2 23.0 26.7 24.3 96.2 24.1 沈花 27.0 30.8 29.0 24.6 111.4 27.9 T=434.4
xi
x =27.2
k=4,n=4,nk=16 课堂小结
11