标准偏差为什么要除以N-1
「标准偏差」为什么要除以「n1」
印象中,在我的求学过程里并未接触到「标准偏差」的概念,师大毕业后在国中任教了十三年,也只有在「资料整理」中教学生画画统计图表而已;后来转进高中教学,才开始研讨「离差」及「相关系数」等教材(说白一点,第一次教高二数学时,我跟学生一样是个「初学者」)。一晃又是十三年多,对统编本「S
1n
(xiX)2」的公式,无论正的、ni1
倒的、横的、竖的都可以跟学生解释得头头是道之时,ㄧ纲多本的数学教材中突然冒出了「S
1n
(xiX)2」这样一个「莫名其妙」的公式(即「样本标准偏差」)。好长ㄧn1i1
段时间,心里既自责又彷徨更气愤,自责的是这十三年来被我教到的学生全被我「误」了;
彷徨的是我该如何去解释这「n1」?要学生死背吗?(这那是我的教学态度?)还是另编一套理论来「误人子弟」,硬是将公式说得清清楚楚?(那又该怎么说才好呢?)气愤的是为什么不继续沿用「S
1n
(xiX)2」呢?(新教材简直就是在整人吗?)……这个问ni1
题在很多的研讨会中被提出来讨论(原来我并不孤独,与我一样心路历程的人还真不少),
勉强接受了「不偏估计」的说法,但会后讨论、抱怨声仍不断,多数人还是希望统一使用「S
1n
(xiX)2」这个公式,不要再分什么「母群体标准偏差」或「样本标准偏ni1
差」,徒增「教」、「学」之困扰。(说的也对,您怎么分辨是「母群体」还是「样本」?
题目是「求标准偏差」时,到底要算哪一个?总不会两个都要算吧?)
抱怨归抱怨,心想新书既敢出版,表示「S
1n
(xiX)2」这样的定义应该是无n1i1
庸置疑的,不妨先弄清楚它的理论根据再说吧。没想到经过一段时间的摸索、学习之后,不但接受了这个说法,更认为「S
1n
(xiX)2」应该是「高中数学」中「标准偏差」n1i1
的唯一定义,略举数项个人论点如下:(仅提供参考,非论教材之是非)
一、 高中数学的「统计」教材,开宗明义就是「统计抽样」,其目的是想藉由抽取之「样
本」所提供的信息来推估、了解「母群体」的状况。重点既然在于「由小看大」、
「以少推多」,因此一概看成「样本数据」而直接采用「S定义似较合理,「母群体标准偏差」应该是可以不必讨论的。
二、 「样本标准偏差」一词很容易被解释成「被抽取之样本数据的标准偏差」,其实不
然,它应该还是「母群体」的标准偏差,因它是藉由「样本」来推估全体的标准偏差,才称之为「样本标准偏差」的。 三、 「班上40位同学之数学成绩的标准偏差为多少?」看到这个题目,不免要问:要除
以39还是要除以40?除数为39很难算耶?只要出题者多用心,将数据凑得好,欲求近似值之小数位数给的巧,让两种算法之答案一样,争议其实不大。但如果将题目设计如「某校高一学生数百人,利用系统抽样得40位同学之成绩如下…,试估算该校高一学生成绩之标准偏差…」多点情境,或标准偏差的定义只有一个,疑问、争议
1n
(xiX)2」的n1i1
都没了。
四、 「Microsoft Excel」试算软件中,标准偏差函数「STDEV」所传回之值就是「样本标
准偏差S
1n
(xiX)2」(不信,您可试试;人家老外早就这样算),难怪以n1i1
前在教统编本时,用计算机算的都非标准答案,今天才恍然大悟。
五、 若取母群体的算术平均数E(X)(即整群资料的中央趋势)来算离均差,因为
nnn21n2222
(xiX)的(xiX)xiE(X)nE(X)XxiE(X),为了使
i1i1i1ni1
1n1n22值与(xiX)的值适度放大,通常采用xiE(X)更接近,就必须将
ni1ni11n2
(xiX)作为样本标准偏差的定义,至于为什么要取「n1」,请参考大同n1i1
信息教师手册中详细的说明(如附录)。
1n2
(xiX)很好ni1
解释(「平均」除以「n」是天经地义的事),那除以「n1」该怎么讲呢?我是这样「骗」学生的,也提供您当参考。
【附录】所述,老师们看看可以,要跟学生讨论,那就难了! S
【例】某家庭10个成员的年纪为: 33, 47, 51, 57, 61, 65, 75, 80, 87, 94(岁)
当家的是65岁的老杨,请问这个家中平均一个人差老杨几岁? 【解】|33-65|=32,|47-65|=18,|51-65|=14,
|57-65|=8,|61-65|=4,|75-65|=10, |80-65|=15,|87-65|=22,|94-65|=29, 32+18+14+8+4+10+15+22+29=152 152
16.89(是除以9喔,居然少了ㄧ头「杨」!) 9
平均一个人差老杨16.89岁。
【注】这个例题是在未教「离差」之前即让学生练习,结果95%的学生是这样解的(除以
9),另外5%的学生也不是除以10,他们是不屑算(我没有强迫他们非算不可)。 【注】65岁恰为岁数平均数,16.89岁应可称为平均绝对离差。
【附录】(摘录自大同信息第四册教师手册第274页至第277页)
设全体数据数值有N个,它们分别为X1, X2, X3,…,Xn,如果以简单随机抽样法,从全体
1N
中抽出n个数值,它们分别为x1, x2, x3,…,xn,则全体的平均数XXi,全体的变异数
Ni1
1N1n22
(XiX)。而抽到的n个数值的样本x1, x2, x3,…,xn的平均数为xxi,且
Ni1ni1在N个数值中取n个的方法数为Cn。因此,就有Cn个样本的平均数x,这些平均数x的平均数以E(x)表示时,E(x)的值为何呢?下面就来推算它,并讨论样本的标准偏差的处理原则。
(1)E(x)X(此处X为全体的平均数)
1,若X1,X2,...,XN中的第i個數值Xi被選入樣本時,证明:令i
0,若X,X,...,X中的第i個數值X沒被選入樣本時,12Ni
n1
则P(i1)(因为每个数值被抽到的机率为),
NN
nNn
, P(i0)1P(i1)1
NN
nNnn
因此E(i0)10,
NNN
22
而变异数Var(i)E(i)E(i),
nNnn2
其中E(i)1202,
NNNnnnn
即可得Var(i)()2(1),
NNNN
1N
又xiXi,
ni1
1N1N1Nn1N
因此E(x)E(iXi)E(i)XiXiXiX。
ni1ni1ni1NNi1
Nn2
)(2)x的变异数x( N1n
证明:对两个变数i,j而言,iE(i)jE(j)之积也是一变数,
2
N
N
记EiE(i)jE(j)cov(i,j)称为i与j的互变异数,
nnNN
cov(i,j)E(ij)E(i)E(j)
P(i1且j1)
n2 )N
nn1nn(Nn)()22,NN1NN(N1)
N
1n1N12
因此,xVar(x)Var(xi)Var(iXi)2Var(iXi)
ni1ni1ni1
P(i1)P(j1i1)(
1N2
2XiVar(i)2XiXjcov(i,j)ni11ijNn(Nn)1Nn2n2Xi[(1)]2XiXj2NNni1N(N1)1ijN1n(Nn)Nn(Nn)22X2XXiij2
nN2N(N1)i11ijN
NnN1N22
XXXiN21iijn(N1)N2i1jNNn1n(N1)NNn1n(N1)N
2
X
i1Ni1
N
2i
1N2
2(Xi2XiXj)Ni11ijN1NNn12(Xi)2
n(N1)Ni1N
Nn
XX2ii1n(N1)
2
2
N
Xi
2
Nn2
因此,x N1nNn
亦即x,通常称N1n
Nn
为有限全体的修正系数。 N1
又
Nn
N1Nnn1n
1(), NN2N
Nnn
1。 很小,或N无穷大时,
N1N
(3)如何选择样本标准偏差的求法
n
1n1N2
(A)设s(xix),其中xxi,XXi,
ni1Ni1i1
因此,当样本抽出率
则s[(xiX)(Xx)](xiX)2n(Xx)2,
2
i1
i1
nn
因此,可知(xix)(xiX)2,
2
i1
i1
nn
1n1n2
亦即(xix)(xiX)2,
ni1ni1
1n12
(xx)所以要以来评估全体的标准偏差时,必须将根式中的的n i
ni1n
稍微缩小些,较能代表全体的标准偏差。 (B)由(A)的结果与(2)的推论,可得
n
E(s)E(xiX)2n(Xx)2
i1
n
E(xiX)2nE(Xx)2
i1
,
E(xiX)n
2
i1
n
2
n
n22(n1)2,
s1n
ˆˆ2用来估计2之值。 亦可表成(xix)2,此处n1n1i1
2
1n
(xix)2求之, 所以,求n个数值样本的标准偏差以n1i1
1n
(xix)2适合。 较ni1