试论抽样误差
作者:秦哲勇
当代经济科学 1995年05期
一、抽样调查误差与抽样误差
在社会经济统计中将调查结果所得的统计数据与被认识的总体的真实数据之差称为调查误差。抽样调查方式所产生的调查误差则称为抽样调查误差。
抽样调查误差按其产生的来源可分为登记性误差、系统性误差和代表性误差三部分。其相互关系可表示如下:
登记性误差是指调查统计过程中由于测量、登记、抄录、计算错误以及被调查者申报不实、调查者的有意篡改等主客观原因所产生的调查结果与调查对象真实情况之间的误差。这部分误差是所有调查方式都有可能产生的一种误差,抽样调查这种方式也不例外。
系统性误差是指调查过程中由于计量器具失准、人为的心理倾向而使调查结果出现偏高(多)或偏低(少)的一种误差。所以也称为偏差。这部分误差与抽样调查并没有必然的联系。只要组织工作和宣传工作做得好,不违背随机原则,系统性的偏误是可以预防和基本消除的。
代表性误差是指调查过程中由于所调查的只是总体的一部分单位而不是总体的全部单位所产生的样本指标与总体指标在数值上的差别。这部分误差是抽样调查这种方式所固有的,只能减少而不可避免和彻底消除的一种误差。要彻底消除这种误差,只有一个办法,那就是把所要调查的单位数增加到与总体单位数一样多。不过那时,也就不叫抽样调查而叫全面调查了。正由于这种代表性误差是抽样调查这种方式所固有的,所以统计理论中便将抽样调查误差中的代表性误差称为抽样误差。
通过以上分析,我们可以得出如下三点结论。
1.抽样误差和抽样调查误差是既有联系又有区别的两个概念而不是一个概念。
2.抽样误差只是抽样调查误差的一部分。
3.当登记性误差和系统性误差都等于“0”时,抽样误差就等于抽样调查误差。
二、抽样误差的性质
抽样误差的大小随着样本的不同而变化。有多少个样本就相应地可以计算出多少个样本平均数或样本成数。每一个样本平均数和总体平均数之间,或样本成数与总体成数之间都会产生或大或小的离差。这种离差可以叫作抽样实际误差。有多少个样本就会计算出多少个抽样实际误差来。
就某一次所抽取的具体样本而言,抽样实际误差应该是一个确定的数值。但在总体指标数值为未知的情况下,这个数值是无法计算的。但就整个抽样而言,因为样本是随机抽取的,所有样本都有被抽中的可能性。究竟中选的是那一个具体样本,在调查之前是无法肯定的。因此,样本指标的数值也无法确定其大小。由于样本抽取的随机性,样本指标便成为随着样本的变化而变化的随机变量。抽样实际误差也相应地成为随着样本指标数值的变化而变化的随机变量。在这种情况下,即使总体指标的数值为已知,由于样本指标的数值无法确定,抽样实际误差的数值仍然不可能被计算出来。
抽样实际误差虽然不能计算出来,但由于它一方面可以直观地表明抽样误差是个什么东西;另一方面可以揭示出抽样误差所具有的随机性质。因此,抽样实际误差具有重要的理论意义。人们常说,抽样误差是一种随机误差,其实就是指抽样实际误差而言的。
三、抽样误差的实质
抽样实际误差仅仅表明抽样误差的直观形式而并没有揭示出抽样误差的实质。其实,抽样误差并不是就某一个具体样本而言的抽样实际误差,而是就所有可能样本而言的抽样实际误差的平均值。即抽样平均误差或平均抽样误差。这是因为,虽然各个具体样本的实际误差会随着样本的变化而可能有着种种不同的数值,但所有可能样本实际误差的平均数却永远是一个固定的数值。也正因为它是所有可能抽样实际误差的平均数,所以被称为抽样平均误差或平均抽样误差。不论在抽样理论还是在抽样实践中,都是以抽样平均误差的大小为尺度反映抽样误差的一般水平的。这也正是抽样平均误差被称为抽样标准误的根由。
综上所述,我们可以将抽样误差这一概念的内涵作如下概括。即:所谓抽样误差是指假定抽样调查过程中不存在或没有发生登记性误差和系统性偏差的条件下,由于样本抽取的随机性而产生的抽样调查所固有的一种代表性误差。注意这个“假定”条件,对于理解抽样误差有着重要的意义。
四、抽样误差的计算
抽样误差有直接计算法和间接计算法之分。为了说明抽样误差的直接计算法,我们不妨由样本平均数的标准差讲起。
样本平均数的标准差其计算公式可表示如下:
公式②表明在重复抽样条件下,样本平均数的标准差;公式③表明在不重复抽样条件下,样本平均数的标准差。它们都等于样本平均数与总体平均数实际误差平方之和的平均数的平方根。而这正是我们所说的抽样实际误差的平均数或抽样平均误差。
在上述两个公式中,一方面由于总体指标的数值往往为未知数。另一方面,不论重复抽样还是不重复抽样,其可能抽到的样本个数都相当的多。有人曾经做过计算,若从总体单位数为6000的总体中,随机抽取一个容量为30的样本,在不重复抽样条件下,根据其组合公式计算出的样本可能个数M将为7751×10[77]个。要将这么多样本全部抽取出来,计算其样本平均数实际上是不可能做到的。不用说这还是一个较小的有限总体和小样本呢?至于重复抽样与大样本条件下的可能样本个数其数量之多,读者是不难想象的。
显然,上述两个公式只具有重要的理论意义,并没有实际的应用价值。要解决抽样误差的计算问题,还必须另辟蹊径。这就是抽样误差的间接计算法。
数理统计也已经证明:
公式④所表明的是在重复抽样条件下,样本平均数的抽样误差公式;公式⑤所表明的是在不重复抽样条件下样本平均数的抽样误差公式。有的书上,抽样误差的符号不用来表示,而用来表示,其实两者并无本质的不同。
将上述公式中的σ[2]用成数的方差P(1-P)来替换,就可得到重复与不重复抽样条件下,样本成数的抽样误差的计算公式。即:
公式④⑤⑥⑦中的总体方差往往也是不知道的,在大样本条件下,往往用样本方差来替换之。上述公式将依次变形为:
总之,上述抽样误差的①至(11)个计算公式都是就简单随机抽样或纯随机抽样而言的。至于其他抽样方式下抽样误差的计算都是以此为基础而充实、发展起来的。读者可参阅有关教材,这里不再赘述。
五、估计误差与抽样误差
估计误差与抽样误差也是一对既有联系又有区别的概念。有必要划分清楚,不得混淆。
首先,估计误差是指用样本指标估计相应的总体指标时,其误差可能达到的最大范围或进行抽样设计时,方案中可以接受或能够允许的误差。估计误差的大小可以用样本指标与总体指标离差的绝对值来表示。代表符号为△。为了区别样本平均数的估计误差还是样本成数的估计差,估计误差的符号常常附以不同的下标。因此,样本平均数和样本成数的估计误差其关系式可表示如下:
上述不等式表明:
1.在有限总体内进行随机抽样,尽管样本指标数值的大小会随着所抽取的样本的不同而有所不同。但其变动都有一定的范围。这个范围的总长度为2△。在这个范围内,样本指标与总体指标离差的绝对值不会超过△。
通过抽样调查,样本指数或p的数值是不难得到的。只要我们知道估计误差△的大小,那么,我们虽然不能确切地说出相应的总体指数的具体数值,但表明总体指标数值的变化范围却是可以办到的。这就是估计误差或允许误差这一概念的揭示的理论内涵和表明的现实意义。
其次,估计误差的大小往往是根据需要与可能由人们主观设定的。那么如何设计估计误差的大小呢?
我们知道,由于样本指标是一个随机变量,而总体指标或P又未知,根据估计误差的定义公式是无法直接求得估计误差的具体数值的。我们不妨用抽样误差或σ[,P]为尺度,对估计误差或△[,p],进行度量或测定。或者说,我们可以将估计误差(或△[,p])与抽样误差(或σ[,p])进行对比,其比值是可以求得的。假定其比值为“Z”,则估计误差与抽样误差之间将存在如下关系。即:
也就是说,估计误差虽不能直接根据定义公式进行计算,但它可以用抽样误差的“Z”倍来表示。在求得抽样误差的基础上,只要将抽样误差乘以“Z”,估计误差就可以被测算出来。作为衡量估计误差的尺度或标准,正是抽样误差的重要用途之一。
从估计误差与抽样误差的关系式可以看出,估计误差的大小不仅受抽样误差大小的影响,同时还受“Z”值大小的制约。在抽样误差一定的条体下,估计误差的大小将由“Z”值的大小来决定。那么“Z”究竟应做何解释呢?“Z”在抽样设计中被称为概率度。它是衡量估计可靠程度的一个重要尺度。它和概率既有区别又有联系。区别在于“Z”的取值可以是任意实数,而概率的取值只能在“0”与“1”之间。其联系在于概率度与概率具有函数关系。即对应于不同的Z值,将有不同的概率F(Z)与之对应。求概率度的过程,正是把样本指标所服从的一般正态分布转化为标准正态分布的过程。经过这种变换,有了概率度“Z”,我们就可以依据标准正态分布概率积分表求出与概率度Z(标准正态随机变量)相对应的概率F(Z)的值来。
再次,估计误差与估计的精确性和可靠性之间存在着密切的关系。
就估计的精确性来看,因为估计误差所表明的是用样本指标对相应的总体指标进行估计时,总体指标变动的可能范围而不是一个确切的误差数值。这一范围的大小是用Z倍的抽样误差即Z来表示的。在概率度Z值一定的条件下,抽样误差越小,估计误差的范围也就越小。可见,估计误差范围的大小与抽样误差的变化成正比关系;而估计误差范围越大,表明用样本指标估计相应的总体指标时,总体指标的变化范围也就越大,而总体指标变化范围越大,意味着对总体指标的估计越不精确。可见,估计误差范围的大小与估计的精确性成反比关系。要提高抽样估计的精确性,就必须缩小估计误差的范围。在概率度Z一定的条件下,要使估计误差范围缩小,其唯一的办法就是减少抽样误差。
就估计的可靠性而言,当抽样误差值一定的条件下,估计误差范围的大小与概率度Z从而与Z的函数值F(Z)即概率的变化成正比关系。即估计误差越大,Z值越大,Z的函数值F(Z)也就越大;反之,估计误差越小,Z的函数值F(Z)也就越小。也就是说,估计误差越大,当以样本指标估计相应的总体指标时,总体指标落在该误差范围的可能性也就越大,从而估计的结果也就越可靠;反之,估计误差越小,当以样本指标估计相应的总体指标时,总体指标落在该误差范围内的可能性也就越小。从而估计结果也就越不可靠。
总之,估计误差范围的大小与估计结果的精确性成反比,而与估计结果的可靠性成正比。要提高估计的可靠性,必须增大估计误差,而估计误差的增大,势必降低其估计的精确性;反之,要提高估计的精确性,就必须缩小估计误差,而估计误差的缩小,势必降低其估计的可靠性。我们不能要求设计的抽样方案,既具有最高的精确性,又具有最大的可靠性。这是永远办不到的。我们只能依据调查的目的确定出适当的精确性和必要的可靠性。能够使估计误差的变动范围处于人为的控制之中,正是随机抽样所具有的最大的优越性之所在。也是现代统计学理论研究所取得的重大成果之一。
值得注意的是,我们在这里不说估计的准确性而说估计的精确性。其用意在于,准确性往往指统计数字偏离于真实的总体均值的大小;而精确性则指统计数字偏离于反复使用同一抽样方法所获得的样本均值的大小。由于总体均值往往是未知的。所以,用精确性比用准确性似乎显得更确切一些。
作者介绍:秦哲勇 陕西财经学院统计系副教授