08-第八章整群抽样
第八章 整群抽样
8.1 概述
8.1.1 什么是整群抽样
一个新建的居民区由近百幢居民楼组成,其中住户总数达数千户。欲用抽样调查方法估计该居民区现有的电话拥有率,考虑以下两种抽样方法。一种是用简单随机抽样抽取一定样本量的住户,譬如说一共抽取n=250户进行调查,然后用3.3节所述方法对全居民区的电话拥有率进行估计。另一种方法是按一定方法抽取一定数量的居民楼,譬如说15幢或20幢楼,然后对这些楼中的每个住户都进行调查,根据调查结果来估计整个居民区的电话拥有率。这两种抽样方法的主要差别是抽样单元不一样,前者以住户为抽样单元,后者以居民楼为抽样单元。后一种抽样方法称为整群抽样(cluster sampling)。一般地说,如果总体中所有较小的基本单元可以某种形式组成数量较少但规模较大的单元;或反过来说,每个“大”单元都由若干个“小”单元组成,称这些“大”单元为初级抽样单元(primary sampling unit),“小”单元为次级(抽样)单元(secondary sampling unit)。在总体中按一定方式抽取若干初级单元,调查每个被抽中的初级单元中所包含的全部次级单元,则这种抽样称为整群抽样,也称为集团抽样。这里的群(cluster)就是指初级单元,整群抽样就是指将总体中的小单元整群整群地进行抽取。在前面的例子中,居民楼就是群(初级单元),而住户则是次级单元,对居民楼的抽样就是一种对住户的整群抽样。
8.1.2 整群抽样的特点及适用场合
在实际中整群抽样是一种常用的抽样方法。在前面举的居民区住户电话拥有率调查的例子中,若采用对住户的简单随机抽样,则首先要有该居民区所有住户的抽样框,否则无法进行抽样。其次即使有全体住户的抽样框,当抽到一个简单随机样本时,这个样本在位置上必然是很分散的。例如一个250户的样本很可能分布在数十幢楼,甚至全部居民楼中。因此调查这样一个样本意味着要跑很多路,实施显然不便,调查的费用也相对较高。而若采用对居民楼的整群抽样,一则可以不需要所有住户的抽样框,二则由于样本相对集中,可以节省调查时间和费用,因而总的抽样效率较高。
在下面两节中我们将看到对于整群抽样,抽样精度(估计量的方差)与群的性质有很大关系。在多数情形,由于每个群内的小单元多少有点相似,因此如果抽同样数量的小单元,整群抽样的抽样误差要比直接用简单随机抽样抽小单元的抽样误差大。但由于整群抽样的费用省,因此完全可以兼顾两方面,即用较多的小单元而同时做到误差小且总费用也省,对于某些少数情
形,由于群的特殊结构,群内小单元的差异很大,此时即便同样数目的小单元,整群抽样的精度也比简单随机抽样高。在这种情形,整群抽样的优点就更为明显。
采用整群抽样时,当群的大小(群内包含的小单元的个数)接近时,常采用简单随机抽样抽取群;当群的大小相差比较大时,为提高效率则更多地采用不等概率抽样(按与群的大小成比例的概率抽样)方法。
8.2 群大小相等情形,对群进行简单随机抽样时的估计量及其方差
我们首先讨论总体中的N个初级单元即群的大小都相等(设为M)的情形,此时对群的抽取一般采用简单随机抽样。在实际问题中,只要群大小相接近,就可采用本节的方法,此时代替M的是群的平均大小M。
8.2.1 记号
记Yij为总体第i群中第j的小单元(次级单元)的指标值,
i=1,2,,N;j=1,2,,M。记yij为样本第i群中第j的小单元(次级
单元)的指标值,i=1,2,,n;j=1,2,,M,又f=
n
是抽样比。 N
Yi=åYij,yi=åyij
j=1
j=1
MM
分别是总体和样本中第i群的指标和,简称为群和。
Yi=
Yiy,yi=i MM
分别为总体和样本中第i群(按小单元)的平均数。
1Y=
N1n
Yi,y=åyi åni=1i=1
N
分别为总体和样本的平均群和。
1
Y=
NMY1,y=Yij=ååMnMi=1j=1
NM
ååy
i=1j=1
nM
ij
=
y
M
分别为总体和样本(按小单元)的均值(平均数)。
NMnM
1122
S=(Yij-Y),s=(yij-y)2 ååååNM-1i=1j=1nM-1i=1j=12
分别为总体和样本(按小单元)的总方差。
MN1NM2S=(i-Y)=(i-Y)2, åååN-1i=1N-1i=1j=1
2b
Mn1nM2
s=(i-y)=(i-y)2 ååån-1i=1n-1i=1j=1
2b
分别为总体和样本的群间方差。
NM
112
()S=YY-=iååij
N(M-1)i=1j=1N2w
é1Mù2
(Yij-Yi)ú, êåå1M-i=1ëj=1û
N
nMù11né1M22
()()s=yyyy-=-êú ååååijijii
n(M-1)i=1j=1ni=1ëM-1j=1
û2w
分别是总体和样本的群内方差。
8.2.2 估计量及其性质
本小节我们求总体均值Y的无偏估计量y,估计量方差V(y)及方差估计量v(y)。
群大小相等时的整群抽样,对群的抽样常采用简单随机抽样。此时若将群和Yi作为群(初级单元)的指标值,则Yi的总体平均值Y的简单估计应为:
1n
=åyi=My
ni=1
根据简单随机抽样的性质,y是Y的无偏估计,因此样本(按小单元的)均值
y1y==
MnM
ååy
i=1j=1
nM
ij
是总体(按小单元的)均值
NM
Y=
1YNM
ååYij=
i=1j=1
M
的无偏估计。
为推导y的方差V(y)的公式,我们注意到y的方差为:
V(y)=1-fn×1N
N-1å(Yi-Y)2 i=1
下面我们通过上式求V(y)。先给出结论:
y)=1-f1NV(n×N-1å(Yi-Y)2i=1
=1-f
nM
×S2b
过程如下: 已知
V(y)=V(
V(M)=M
2 又知
V()=1-f1N
n×N-1å(Yi-)2i=1
=1-fn×1éNN-1êëå(Mi-MY)2ùi=1úûN
=
1-fn×1é2N-1êëMå(i-Y)2ùi=1
úû1-fM2N
=×N-1(i-Y)2nåi=1
1-fM2N将V(y)=n×N-1å(Yi-Y)2
代入V(y)=V(),有i=1M2
V(y)=
V(y)M21
=2V(y)M
1é1-fM2N2ùY=2ê×(-) iåúMënN-1i=1û1-f1N
(i-Y)2=ånN-1i=1
1-f2
Sb=nM
过程完毕。
在求出了总体均值Y的无偏估计量y及其方差V(y)后,我们现在求估计量方差的估计量v(y)。
容易知道,v(y)=过程如下:
因为对群的抽样是简单随机的,若将Yi=
1-f2
sb nM
Yi
看作是单元指标值,则YiM
2sbSb222
的样本方差是总体方差的无偏估计,从而sb是Sb的无偏估计。也
MM
就是说,v(y)=过程完毕。
备注:
1-f21-f2
sb是V(y)=Sb的无偏估计。 nMnM
Yi的样本方差为
1n
v(i)=(i-y)2ån-1i=1
1Mn
=(yi-y)2 åMn-1i=1
12=sb
M
Yi的总体方差为
1N
V(Yi)=(Yi-Y)2åN-1i=1
1MN
=(i-Y)2 åMN-1i=1
12=Sb
M
备注完毕。
下面我们看一看样本群内方差sw是否是总体群内方差Sw的无偏估计。先给出结论:
22sw是Sw的无偏估计。
2
2
过程如下:
1M
(Yij-Yi)2作为单元的指标值,则它的样本均值 如果将Zi=åM-1j=1
nM
1né1M12ù2
(yij-yi)ú=(yij-yi)2=swêååååni=1ëM-1j=1
ûn(M-1)i=1j=1
是总体均值
1N
NMé1M12ù2
(Yij-Yi)ú=(Yij-Yi)2=SwêååååM-NM-1(1)i=1ëj=1i=1j=1ûN
的无偏估计。
过程完毕。
ˆ。先给出结论: 下面我们求总体方差S的无偏估计S
2
2
总体方差
S2=
12
N(M-1)Sw+(N-1)Sb2
NM-1
[]
的无偏估计为:
ˆ2=S
122
N(M-1)sw+(N-1)sb
NM-1
[]
详细过程如下:
根据方差分析,我们知道总体按小单元的总离差平方和
ååNM
(Y
ij
-Y)2=(NM-1)S2
i=1j=1
可以分解成群间平方和与群内平方和两部分:
(NM-1)S2
NNM
=Må(Yi-Y)2
+=1
åå(Yij-Yi)2
ii=1j=1
=(N-1)S22
b+N(M-1)Sw
过程如下:
因为S2
=1
NM
NM-1åå(Yij-Y)2, i=1j=1
N
M
所以总离差平方和
åå(Y
ij
-Y)2=(NM-1)S2
i=1j=1下面我们将总离差平方和分解
ååNMM(Y2
N
2
ij-Y)=i=1j=1ååé(Yij-Yi)+(Yi-Y)ùi=1j=1
êëúûN
M
=åå(Y2
N
M
2ij-Yi)+i=1j=1åå(Yi-Y)i=1j=1
N
M
+2åå(Yij-Yi)(Yi-Y)
i=1j=1NMNM
=åå(Y2
2
ij-Yi)+i=1j=1
åå(Yi-Y)i=1j=1
因为中间项等于零
ååN
M
N
(YéM(Yù
ij-Yi)(Yi-Y)=åêi-Y)å(Yij-Yi)úi=1j=1i=1ëj=1ûN
=å(i-Y)×0
i=1
=0
所以平方和的分解式变为
ååN
M
2
N
M
N
M
(Y
ij
-Y)=-i)2
+i=1j=1
åå(Yiji=1j=1
åå(i-Y)2i=1j=1
NM
11NM22
又因为S=(Yij-i),Sb=(i-Y)2 ååååN(M-1)i=1j=1N-1i=1j=1
2
w
所以
åå(Y
i=1j=1
NM
ij
-Y)=åå(Yij-Yi)+åå(Yi-Y)2
2
2
i=1j=1
i=1j=1
NMé12ùYY=N(M-1)ê(-)iååúij
NM(-1)==ij11ëû é1NM2ù+(N-1)ê(i-Y)úååN-1i=1j=1ëû2
=N(M-1)Sw+(N-1)Sb2
NMNM
过程完毕。
因此总体方差可以表示成:
S2=
12
N(M-1)Sw+(N-1)Sb2
NM-1
[]
完全类似地,样本方差可以表示成:
s2=
122
n(M-1)sw+(n-1)sb
nM-1
[]
2222
这里的Sb,Sw及sb,sw分别是总体和样本的群间方差和群内方差。
由于抽样对小单元是整群而不是简单随机的,因此这里的样本方差s不再是总体方差S2的无偏估计。
2
222
从上面的论述得知,Sb2的无偏估计量是sb,Sw的无偏估计量是sw,
因此可以构造总体方差S的无偏估计如下:
2
ˆ2=S
122
N(M-1)sw+(N-1)sb
NM-1
[]
详细过程完毕。
ˆ2»当N很大时,S
122
(M-1)sw+sb M
[]
过程如下:
当N很大时,可将NM-1看作NM,将N-1看作N,则
ˆ2=S
122
N(M-1)sw+(N-1)sb
NM-1122
N(M-1)sw»+Nsb NM122=(M-1)sw+sb
M
[]
[]
[]
过程完毕。
估计量方差及方差估计量可从上面的结总体总和Y=NMY的估计量、果直接推出。下面为相关结论:
1. 估计量
ˆ=NMy Y
2. 估计量方差
ˆ)=(NM)2×1-fS2 V(Yb
nM
3. 估计量方差的估计量
ˆ)=(NM)2×1-fs2 v(Yb
nM
例8.1 在一次某城市居民小区居民食品消费量调查中,以每个楼层(相当于居民小组)为群进行整群抽样。每个楼层都有M=8个住户。用简单随机抽样在全部N=510个楼层中抽取n=12个楼层。全部96个样本户人均月食品消费额yij及按楼层的平均数yi与标准差si如下表所示。试估计该居民小区人均食品消费额的户平均值Y,并给出其95%的置信区间。
解:N=510,n=12,M=8,f=
12
510
根据表8.1中所列数据,可计算yi的平均数与标准差:
1n1121
y=åyi=åyi=×2620.5=218.375
ni=112i=112Mns=(yi-y)2=14186.18 ån-1i=1
2b
因此Y的估计量y的方差估计为:
v(y)=
1-f2
sb
nM121-´14186.18 =
12´8=144.3089
s(y)=v(y)=.3089=12.013
于是Y置信度为95%的置信限为:
218.375±1.96×12.013,
从而置信区间为(194.83元,241.92元)。
8.2.3 群内相关系数与设计效应
整群抽样估计量的方差既然与群间方差有关,那么它也可以用总体方差与群内方差表示。事实上,整群抽样的方差确与群内小单元之间的差异或它们的同质性(相似程度)有关,为此我们引进群内相关系数这个概念。群内相关系数(interclass correlation coefficient)rc表示同一群内不同小单元的指标值对总体均值的离差乘积的期望值与总体中所有小单元指标值对总体均值离差平方的期望值之比,即:
rc=
E(Yij-Y)(Yik-Y)E(Yij-Y)
2
对固定的群i,两个不同的小单元指标离差的乘积可表示为
(Yij-Y)(Yik-Y),j¹k
2
每个群中共有CM=
M(M-1)
个这样的离差乘积,而总体中这样的离差乘2
积的总数为NC分子为:
2M
E(Yij-Y)(Yik-Y)M(M-1)
=N个,因此rc=中的
2E(Y-Y)
ij
åå(Y
i=1j
NM
ij
-Y)(Yik-Y)
=
åå(Y
i=1j
NM
ij
-Y)(Yik-Y)
M(M-1)N
2NM(M-1)
2
rc=
E(Yij-Y)(Yik-Y)
E(Yij-Y)
N
M
ij
中的分母为:
åå(Y
i=1j=1
-Y)2
=
MN
故
N
M
NM-12
S MN
åå(Y
i=1j
ij
-Y)(Yik-Y)
2åå(Yij-Y)(Yik-Y)=
i=1j
M
rc=
N
-2
SMN
2åå(Yij-Y)(Yik-Y)
Mi=1j
éNM-12ù
NM(M-1)êSú
MNëû
=
(M-1)(NM-1)S22åå(Yij-Y)(Yik-Y)
N
M
即 rc=
i=1j
(M-1)(NM-1)S2
(rc的形式一)
下面我们将rc用另外一种形式表达。先给出结论:
M(N-1)Sb2-(NM-1)S2
rc=2
(M-1)(NM-1)S
详细过程如下:
N
1
注意到S=(Yi-Y)2 åM(N-1)i=1
2
b
(rc的形式二)
过程如下:
S2
b
=MN-1åN
(i-Y)2i=1
=MNYiN-1å(-Y2i=1MM
=M1N
N-1M2å(Yi
-Y)2i=1
N
=1(N-1)(Yi-Y)2Måi=1
过程完毕。
而
åN
N
M
2
(Yi-Y)2
=é(Y-Y)ùi=1åêi=1ëåijúj=1û
N=åéMêå(Y2
M
ùij-Y)+2å(Yij-Y)(Yik-Y)úi=1ëj=1j
NMNM
=åå(Y2
ij-Y)+2åå(Yij-Y)(Yik-Y)
i=1j=1
i=1j
=(NM-1)S2+(M-1)(NM-1)S2rc=(NM-1)S2+(NM-1)S2(M-1)rc=(NM-1)S2[1+(M-1)rc]
上式中用到的两个结论的过程为:
2NM
因为S=1
NM-1åå(Yij-Y)2, i=1j=1
N
M
所以
åå(Y
ij
-Y)2=(NM-1)S2;
i=1j=1
N
M
2åå(Yij-Y)(Yik-Y)
因为ri=1j
c=
(M-1)(NM-1)S2
,
N
M
所以2
åå(Y
ij
-Y)(Yik-Y)=(M-1)(NM-1)S2rc
i=1j
过程完毕。
因此
M(N-1)Sb2
1+(M-1)rc=2
(NM-1)S
过程如下:
N
1
因为S=(Yi-2, åM(N-1)i=1
2
bN
所以
å(Y-Y)
i
i=1
2
=M(N-1)Sb2
M(N-1)Sb2= 即 1+(M-1)rc=
(NM-1)S2(NM-1)S2
i
i=1
å(Y-Y)
N
2
过程完毕。 因此
M(N-1)Sb2M(N-1)Sb2-(NM-1)S2
(M-1)rc=-1=
(NM-1)S2(NM-1)S2
那么
M(N-1)Sb2-(NM-1)S2
rc=2
(M-1)(NM-1)S
详细过程完毕。
当N大时,上式可写成
Sb2-S2
rc»2
(M-1)S
(rc的形式二的简化形式)
过程如下:
将N-1看成N,NM-1看成NM,则
rM(N-1)S2b-(NM-1)S2
c=
(M-1)(NM-1)S2
»
MNS2b-NMS2(M-1)NMS2
S22=
b-S(M-1)S2
过程完毕。
将S2S2b用S2与w来表示,代入rc的形式二,有rNMS2
w
c=1-(NM-1)S2
过程如下:
因为(NM-1)S2=N(M-1)S2
2w+(N-1)Sb 所以S2(NM-1)S2-N(M-1)S2
w
b
=N-1
那么
rc的形式三)
(
M(N-1)Sb2-(NM-1)S2
rc=
(M-1)(NM-1)S2
2
é(NM-1)S2-N(M-1)Swù2
M(N-1)ê-(NM-1)S
N-1ëû=
(M-1)(NM-1)S22
-(NM-1)S2M(NM-1)S2-N(M-1)Sw
=
(M-1)(NM-1)S22
-(NM-1)S2M(NM-1)S2-NM(M-1)Sw
=
(M-1)(NM-1)S22
M(NM-1)S2-(NM-1)S2-NM(M-1)Sw=
(M-1)(NM-1)S22
(M-1)(NM-1)S2-NM(M-1)Sw=
(M-1)(NM-1)S22
NM(M-1)Sw
=1-(M-1)(NM-1)S22
NMSw
=1-(NM-1)S2
[]
过程完毕。
当N大时,NM-1可看成NM,则上式简化为
22
NMSwSw
rc=1-»1-2
(NM-1)S2S
(rc的形式三的简化形式)
在求出了总体群内相关系数rc的三种形式后,我们需要对rc作出估计。
我们可以利用Sb2和S2的无偏估计,从rc的形式二的简化形式
Sb2-S2
rc»2
(M-1)S
出发估计rc。先给出结论:
22sb-sw
ˆc»2 r2
sb+(M-1)sw
过程如下:
ˆ2-Sˆ2Sb
ˆc»r
2(M-1)S1222
ù(1)sb-éM-s+swbëû»
ì122üù(M-1)íé(-1)+MsswbëûýîMþM-12122-sbsw-sb
=
-22
éù(M-1)sw+sbëûM
12M-122
-sb-sbsw=
22
éù(1)-+MsswbûëM
M-12M-12
sb-sw
=
22
éù(1)-+MsswbûMë
M-122
(sb-sw)=
22
éù(M-1)s+swbûMë22sb-sw
=22(M-1)sw+sb
过程完毕。
下面利用群内相关系数rc,将总体均值Y的估计量y的方差用另外一种形式表示。
利用群内相关系数rc,总体均值Y的估计量y的方差可写成以下的形式:
1-f(NM-1)S2
V(y)=[1+(M-1)rc]2
nM(N-1)
1-f2»S[1+(M-1)rc]nM
过程如下:
V(y)=V(
=
y)M
1
V()M2
11-f1N=2(Yi-Y)2 ånN-1i=1M
11-f1=2(NM-1)S2[1+(M-1)rc]
nN-1M
1-f(NM-1)S2
[1+(M-1)rc]=
nM2(N-1)
当N大时,将N-1看成N,NM-1看成NM,则上式化为
1-f(NM-1)S2
V(y)=[1+(M-1)rc]2
nM(N-1)
1-f»
n1-f=
n1-f=nM
过程完毕。 思考:
NMS2
[1+(M-1)rc]2
MNS2
[1+(M-1)rc]M
S2[1+(M-1)rc]
1-f(NM-1)S2
从V(y)=[1+(M-1)rc]中可以看出,群内相关系数rc2
nM(N-1)
与估计量方差V(y)是什么关系? 参考答案:
rc增大,则V(y)增大,两者呈正方向关系。
下面计算整群抽样的设计效应deff。 首先给出结论:
deff=
V(y)Vsrs(y)
»1+(M-1)rc
过程如下:
注意到若按简单随机抽样直接从总体中抽取nM个小单元,样本均值y的方差应为
Vsrs(y)=
1-f2
S nM
因此整群抽样的设计效应
deff=
V(y)Vsrs(y)
1-f2
S[1+(M-1)rc]
»2
SnM
=1+(M-1)rc
过程完毕。
思考:整群抽样设计效应有何意义? 参考答案:
deff»1+(M-1)rc意味着按同样的样本量(以小单元计),整群抽样
的方差约为简单随机抽样的1+(M-1)rc倍。换句话说,为了获得同样的精度,整群抽样的样本量是简单随机抽样的1+(M-1)rc倍。 现在我们来研究rc的取值范围。 先给出结论:
-
1
£rc£1 M-1
过程如下:
已知rc的形式二为:
M(N-1)Sb2-(NM-1)S2
rc=2
(M-1)(NM-1)S
22
容易知道,rc是有关Sb的增函数。当Sb取最小值0时,rc达到最小值
rc=-
1
。 M-1
过程如下: 当Sb2=0时,有
M(N-1)Sb2-(NM-1)S2
rc=
(M-1)(NM-1)S2
(NM-1)S2
=-(M-1)(NM-1)S2S(M-1)S2
1=-M-1=-过程完毕。
已知rc的形式三为:
2
NMSw
rc=1-(NM-1)S2
2
容易知道,rc是有关Sw的减函数。当Sw取最小值0时,rc达到最大值
22
rc=1。
过程完毕。
下面看一看对rc的不同取值,V(y)的相应取值及其与简单随机抽样
Vsrs(y)的大小关系。
我们分五种情况讨论。
先给出结论:
(1)当rc=-
1
时,V(y)=0,即取最小值; M-1
1-f2NM-1
S×,即取最大值; (2)当rc=1时,V(y)=nMN-1
1
(3)当rc=-时,V(y)=Vsrs(y);
NM-11
(4)当rc
NM-11
时,V(y)>Vsrs(y)。 (5)当rc>-NM-1
过程如下: (1)当rc=-
1
时, M-1
1-f(NM-1)S21-f2
V(y)=1+(M-1)r=0
nM(N-1)nM
此时整群抽样估计量方差为零,抽样效率最高,当然比简单随机抽样高。 (2)当rc=1时,
1-f(NM-1)S2
[1+(M-1)rc]V(y)=2
nM(N-1)
1-f(NM-1)S2
M=
nM2(N-1)1-f(NM-1)S2=
nM(N-1)1-f2NM-1
S×=nMN-11-f2>SnM
此时整群抽样估计量方差达到最大值,抽样效率最低,当然比简单随机抽样低。
(3)当rc=-
1
时,
NM-1
1-f(NM-1)S2
[1+(M-1)rc]V(y)=
nM2(N-1)
1-f(NM-1)S2=
nM2(N-1)
M-1ùé1-ê
ëNM-1úû
1-f(NM-1)S2éNM-1-(M-1)ù
=únM2(N-1)êNM-1ëû1-f(NM-1)S2éNM-Mù
=ú1nM2(N-1)êNM-ëû1-f(NM-1)S2(N-1)M
=
nM2(N-1)NM-11-f2
S=nM=Vsrs(y)
此时整群抽样估计量方差与简单随机抽样相同,两者抽样效率一样。 (4)当rc
1
时,
NM-1
V(y)
即整群抽样的估计量方差小,效率较高。 (5)当rc>-
1
时,
NM-1
V(y)>Vsrs(y)
即整群抽样的估计量方差大,效率较低。
实际当中,总有rc>-简单随机抽样。 过程完毕。
8.3 估计总体比例的整群抽样
8.3.1 问题的提出
在这一节中,我们讨论估计总体中具有某种特定特征的小单元比例的整群抽样。例如在8.1节中提到的居民小区住户电话拥有情况调查中,需要估计的即是装有电话的住户在小区总住户中所占的比例。由于在这类调查
1
,所以整群抽样的估计效率通常低于
NM-1
中,判别一个单元是否具有所考察的特征一般是很容易的,需要的费用很低,而调查的组织及交通费用在调查总费用中所占的比例较大,因此在这一类调查中,普遍采用整群抽样,因它总的效率较高。
与目的是估计总体均值或总和的整群抽样不同的是,在估计总体比例的情形,群大小无论相等或不相等,对群的抽样均可采用简单随机抽样。不过此时估计量需要采用不同的形式:在群大小相等情形,一般仍采用简单估计;而在群大小不等情形,则需要采用比估计。
8.3.2 群大小相等情形
在群大小相等(设为M)情形,可以直接应用8.2节中的结果。注意此时小单元的指标值Yij(yij)只能取0和1两种可能的数值。记号如下:
ì1,若总体第i群第j个单元具有某种特征
Yij=í
0,若总体第i群第j个单元不具有某种特征îi=1,2,,N;j=1,2,,M
ì1,若样本第i群第j个单元具有某种特征
yij=í
0,若样本第i群第j个单元不具有某种特征îi=1,2,,n;j=1,2,,M
Ai表示总体第i群具有所考虑特征的小单元数,i=1,2,,N ai表示样本第i群具有所考虑特征的小单元数,i=1,2,,n
Pi表示总体第i群具有所考虑特征的小单元数占该群总单元数的比例,i=1,2,,N
pi表示样本第i群具有所考虑特征的小单元数占该群总单元数的比例,i=1,2,,n
备注:
与8.2节相对应:Ai相等Yi;ai相等yi;Pi相等Yi;pi相等yi。 根据8.2节中的结果,如果在总体中按简单随机抽样抽取n个群,则样本中具有所考虑特征的小单元对样本小单元总数之比例
nM
p=
1ååy1nMij
=nMån
y=1
ån
1nan
i
a=i=1j=1
i=1
nMi=1
nåi=1iåpi i=1Mni=1是总体比例P
NM
P=
1
ååY1åN
AN
iNMij==1
ii=1j=1
Ni=1M
NåP
i=1
的无偏估计。
容易知道,估计量的方差为:
V(p)=1-fn×1N
N-1å(Pi-P)2 i=1
其中N是总体中群的总数,而f是抽样比。 估计量方差的估计量为:
v(p)=1-f1n
n×n-1å(pi-p)2 i=1
下面我们计算估计总体比例时整群抽样的设计效应。
先给出结论:
V(p)MN
deff=V»(Pi-P)2srs(p)NPQå i=1
过程如下:
从(3.30)式知,样本量为nM的简单随机抽样的方差为:
VP(1-P)NM-nM
srs(p)=nMNM-1
当N较大时,可将NM-1看成NM,则上式化为
Vsrs(p)=
P(1-P)NM-nMnMNM-1»
P(1-P)NM-nMnMNM
=P(1-P)
nM(1-nN=P(1-P)nM
(1-f)
因而此时整群抽样的设计效应为:
deff=
V(p)Vsrs(p)
1-f1N
×å(Pi-P)2nNi=1»
(1-f)nM
1N2
å(P-P)Ni=1i=
-M=
Må(Pi-P)2
i=1N
NP(1-P)
过程完毕。
例8.5 在例8.1中,对某居民小区居民进行食品消费调查的同时,也进行了电话拥有情况的调查。表8.7是12个样本楼层装有电话的住户数ai及在楼层的8户居民中所占的比例pi的资料,试对该小区的电话拥有率P进行估计。
表8.7 居民小区样本楼层电话装有情况的数据
i
4 ai
6 pi
0.75 i
10 ai
4 pi
0.5 解:根据例8.1中的数据,这里N=510,n=12,M=8,f=从表8.7的数据,小区电话拥有率的估计为:
12
。而510
1n1p=åpi=
ni=1nM
它的方差估计为
åai=
i=1
n
50
=52.08% 12´8
1-f1n
×v(p)=(pi-p)2ånn-1i=1121-510´0.02509 =
12
=0.0020445
标准差的估计为:
s(p)=v(p)=.0020445=4.52%
8.3.3 群大小不等情形
当群大小不相等时,若对群的抽样仍按简单随机抽样,记所抽群的大小为mi,群中具有所考虑特征的小单元数为ai,则很自然地,总体比例P的估计可采用:
p=
åa
i=1ni=1
n
i
i
åm
将Ai(ai)作为第i群的指标值,群大小Mi(mi)看作是第五章中
ˆ。于是的辅助变量Xi(xi)的值,则上式中的p即是5.2节中的比估计R
根据该节的讨论,当抽的群数n大时,
E(p)»P
V(p)»
1-fnM
2
×
å(A-PM)
i
i
i=1
N
2
N-1
=
1-fnM
2
×
åM
i=1
N
2
i(Pi-P)2
N-1
方差公式的过程如下:
V(p)»
1-f2
×
å(A-PM)
i
i
i=1
N
2
N-1
=
1-f2
×
å(MP-PM)
ii
i
i=1
N
2
N-1
MiPi=Ai
=
1
其中=
N
过程完毕。
1-fnM
N
2
×
åM
i=1
N
2i(Pi-P)2
N-1
是总体群的平均大小。
åM
i=1
i
V(p)的估计则可用:
v(p)=
1-fn1-f
2
22(sa+p2sm-2psam)
nnn1222
(åai+påmi-2påaimi)=2
i=1i=1nmn-1i=12
2
其中,sa,sm及sam分别是ai,mi的样本方差和样本协方差。
例8.6 为估计城市居民中男女性别的比例,用简单随机抽样抽取
n=56户,每户的人口数mi,男性与女性人口数ai与bi的数据见表8.8。
试对男、女性别比例作出估计(1-f可忽略),并估计deff的值。
表8.8 56个家庭的总人口数mi,男性人口数ai及女性人口数bi
i
1
2 3 4 5
mi
4 3 4 5 3
ai
1 1 3 3 1
bi
3 2 1 2 2
i
29 30 31 32 33
mi
3 4 2 2 4
ai
1 2 1 2 2
bi
2 2 1 0 2
6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
n
2 5 4 3 2 3 4 3 6 1 2 6 4 3 2 4 2 1 3 6 4 4 5 1 3 1 2 1 2 3 2 4 0 1 3 2 1 1 2 2 1 2 4 2 2 2
n
1 2 3 1 1 1 1 1 2 1 1 3 2 2 1 2 0 0 1 2 2 2 3 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 3 7 2 5 4 6 2 3 4 3 5 2 3 3 2 3 5 4 2 3 3 5 4
n
1 3 1 2 2 3 2 1 2 2 3 0 0 2 1 1 3 2 1 2 1 3 2 2 4 1 3 2 3 0 2 2 1 2 2 3 1 1 2 2 2 1 1 2 2 2
解:根据表8.8中的数据有:
n=56,åmi=196,åai=101,åbi=95,
i=1
i=1
i=1
nn
1n1962
m=åmi==3.5,åai=229,åbi2=201
ni=156i=1i=1n
n
n
åm
i=1
2i
=786,åaimi=407,åbimi=379
i=1
i=1(1)
男性在总人口中所占的比例P估计分别为:
与女性在总人口中所占的比例P
(2)
的
ˆP
(1)
=
åa
i=1
ni=1n
n
i
=
i
åm
ˆP
(2)
101
=51.53% 196
=
åb
i=1ni=1
i
=
i
åm
ˆ(1)的方差为: P
95
=48.47% 196
ˆ(1)=1-f1(åa2+p2åm2-2påam)vPiiiin-1i=1i=1i=12
ù11é101æ101ö
=´ê229+ç´407ú ÷´786-2´56´3.5255ê196196èøúëû=0.0004838
()
nnn
ˆ(2)的方差为: P
ˆvP
()
(2)
nnn
1222
=(åbi+påmi-2påbimi)2
n-1i=1i=1i=12
ù11é95æ95ö
=´ê229+ç´379ú ÷´786-2´56´3.5255ê196196èøúëû=0.0004838
1-f
ˆ可以看出P
(1)
ˆ与P
(1)
(2)
的方差估计是相等的。
(2)
ˆ思考:为什么Pˆ与P
的方差估计相等?
于是标准差的估计为:
(1))=v(P(2))=0.0220=2.20% v(P
为估计deff,我们先求样本量为196的简单随机抽样的方差,取
P=0.5,则 0.25Vran==0.001276
196
deff=
0.0004838
=0.38
0.001276
可见在此情形,整群抽样的效果要显著地高于简单随机抽样。取M=3.5,还可进一步计算群内相关系数rc:
ˆc=0.38 1+(-1)rˆc=r
0.38-1
=-0.248 2.5
群内相关系数为负值表明以家庭住户为群,群内性别差异大于随机分组。事实上一个家庭往往由夫妻为核心加上子女或父母组成,性别结构是比较均衡的,群(家庭)内差异大,群间差异小。因此对于这种特殊的群结构,整群抽样是最为适宜的。
8.4 群大小不相等的一般情形
在多数实际问题中,群大小Mi是不相等的。若Mi相差不大,以平均群大小M代替M,则可按群大小相等的情形处理。如果Mi相差很大,则有两种处理方法。一种是将群按大小分层,使每一层内群的大小基本相等,从而仍可使用群大小相等时的处理方法,本节则讨论处理群大小不等情形的一般方法。
8.4.1 记号
为便于讨论,将8.2.1中的记号做相应的改变。
记Yij为总体第i群中第j个小单元的指标值,i=1,2,,N;
j=1,2,,Mi,其中Mi是群的大小。yij为样本第i群中第j个小单元的
指标值,i=1,2,,n;j=1,2,,mi,mi是群的大小。
M0=åMi是总体中小单元的总数;
i=1
N
Yi=åYij,yi=åyij
j=1
j=1
Mimi
1i=
Mi1Y=
N
N
1
,=Yåiji
mij=1
i
Mi
åy
j=1
mi
ij
åY,
i=1
1
Y=
M01n
Yij,y=åyi ååni=1i=1j=1
N
Mi
注意尽管Y是总体按小单元的均值,但y并不是样本按小单元的平均数,因此它不等于
1
åm
i=1
N
Mi
n
ååy
i=1j=1
nmi
ij
。为简化公式便于讨论起见,在本节中,我
i
们主要讨论对总体总和
Y=ååYij=åYi
i=1j=1
i=1
N
的估计。因为若将Yi作为群的指标值,则作为总和的Y的估计可根据对群的抽样方法应用前几章已有的结果。而对Y的估计则可从对Y的估计中推出。
8.4.2 按简单随机抽样抽群
此时对Y的我们首先考虑按简单随机抽样抽取群,设群的样本量为n。
估计有两种方法,一种是简单估计,另一种是比估计。
根据简单随机抽样简单估计的定义及性质,以样本群和yi为样本观测值,y为样本平均数,则总体总和的估计为:
ˆ=N×1åy=Ny Yi
ni=1
ˆ是无偏的,它的方差为: Y
n
ˆ)=N21-f×V(Y
n
其中f=
å(Y
i=1
N
i
-Y)2
N-1
nˆ)的一个无偏估计是: 。V(YN
2
(yy)-åii=1n
ˆ)=N21-f×v(Y
n
n
n-1
ˆ=N×1åy=Ny可以得到总体均值Y的简单估计: 从Yi
ni=1
ˆYy1n
Y===åyi
M0MMni=1
其中=
^
M0
是总体群大小的平均值。 N
ˆ)=N从V(Y
2
1-f
×n
å(Y
i=1
N
i
-Y)2
N-1
ˆ的方差取决于群和Y可知,简单估计Yi
的差异。当每个小单元指标值变化不大而群大小Mi相差较大时,Yi的差异一般很大,因此简单估计的方差可能较大。为了改进精度,采用8.3.3小节中已考虑过的方法,对总体均值Y采用以群大小Mi为辅助变量的比估计,即
Ù
YR=
åy
i=1
ni=1
n
i
i
åm
从而Y的比估计为:
Ù
ˆ=MYR=MY0
i=1
0ni=1
åy
n
i
i
åm
ˆ是有偏的,但当n大时,偏倚很小,可以看成是近似无偏的。此时YR与Y
它们的方差近似为:
Ù
2
(Y-YM)åiii=1N
Ù
V(YR)»
1-fn2
×
N-1
=
1-fn2
2
×
Ù
åM
i=1
N
2i
(Yi-Y)2
N-1
2
2
Ù
ˆR)=MV(YR)=NMV(YR)V(Y
»N22
1-fn2
×
å(Y
i=1N
N
i
-YMi)2
N-1
=N2M
2
1-fnM
2N
×
åMi2(i-Y)2
i=1
N-1
2
i
=N2
1-f
×n
Ù
åM
i=1
(Yi-Y)2
N-1
ˆ的方差取决于Yi的差异。在通常情况下,从上两式可以看出YR与YR
这个差异比较小,因而一般来说比估计的方差要比简单估计的方差要小,从
而精度较高。
Ù
ˆ)的估计可采用以下公式: V(YR)与V(YR
ÙÙnnù1én22
v(YR)=×êåyi+YRåmi-2YRåmiyiú 2
i=1i=1únmn-1êëi=1ûÙ
1-f
ÙÙnnnéù-f11222ˆ×v(YR)=Nêåyi+YRåmi-2YRåmiyiú
nn-1êi=1i=1úëi=1û
例8.7 从共有790个单位的某系统中按简单随机抽样抽取n=20个单位,这些单位的职工人数mi,月奖金总额yi及人均月奖金yi如表8.9所示。假设该系统共有职工人数M0=337208人,试用简单估计与比估计两种方法估计该系统人均月奖金Y,并比较其精度。
解:N=790,n=20,1-f=(1)简单估计
N-n
=0.9747,M0=337208 N
ˆ=NY
n
Ù
åyi=
i=1
n
790
´1078566=42603357(元) 20
ˆY42603357Y===126.34(元)
M0337208
N2(1-f)1n
v(Y)=(yi-y)2=1035.3166 å2
n-1i=1nM0
Ù
Ù
Ù
s(Y)=v(Y)=32.18(元)
(2)比估计
Ù
YR=
åy
i=1
ni=1
n
i
=
i
åm
Ù
1078566
=105.55(元)
10219
ÙÙnnù1én22
v(YR)=×êåyi+YRåmi-2YRåmiyiú2
n-1i=1i=1êúnëi=1û
1-f
=13.2422
Ù
Ù
s(YR)=v(YR)=3.64(元)
比较这两个估计量的方差或标准差,可知在此情形比估计要比简单估计精确得多。
8.4.3 按与群大小成比例的不等概率抽样抽群
在群大小不等时的整群抽样中,最有效的方法是对群进行与其大小Mi
成比例的不等概率抽样,即采用第七章中讨论的放回PPS抽样或不放回pPS抽样,并采用相应的估计量。
若群的抽取是按与Mi成比例的放回PPS抽样抽取的,即进行n次独立的抽样,每次按
Zi=
Mi
,i=1,2,,N M0
的概率抽取第i个群。设观测到的群和与群的大小分别为体总和Y的估计采用汉森——赫维茨估计量:
åy
j=1
mi
ij
与mi,则总
1nyiM0
ˆYHH=å=
ni=1zin
其中
yi
=M0y åi=1mi
n
(8.44)
1nyi1n
y=å=åyi
ni=1mini=1
(8.45)
可作为总体(按小单元)均值Y的估计。
ˆ与y都是无偏的,且 根据汉森——赫维茨估计量的性质,YHH
N
öYi1ˆ)=åZæ-V(YY÷HHiç
ni=1èZiøM0N=åMii-Yni=1
2
()
2
2
(8.46)
1
V(y)=
nM0
过程如下:
åM
i=1
N
i
(Y-Y)
i
(8.47)
N
2
V(YˆHH)=1nåZæYi
öiç
-Y÷i=1èZiø
æö
2
=1NMiçnåMçYi
-Y÷÷i=10ççi÷èM0÷ø
2
=1
N
MiæYiönåçM0-Y÷i=1M0èMiø
2
=1NMiæ
nåMçMYi0-MYö0
÷i=10èMiM0ø
1N2
=Mi
nå(M0Yi-M0Yi=1M0
)
=1NMinåM2
0(Yi-Yi=1M0)
2
=MN
0nåMi(Yi-Yi=1
)
2
V(y)=VæçY
ˆHHöèM÷
0ø=1M2VYˆHH0
()
=
1éMN
0M2M(Y-Y)
2
ù
0êënåiii=1úû
1nMåN(Y2
=Mii-Y0i=1
)
过程完毕。
它们的方差估计分别为:
n
2
v(YˆHH
)=1n(n-1)åæçyi-YˆöHH÷i=1èziø
2
n=M0
n(n-1)åi-yi=1
()
2
8.48)
(
n
1
v(y)=i-yån(n-1)i=1
()
2
(8.49)
过程如下:
æyiˆö1ˆ)=v(Yç-YHH÷åHH
n(n-1)i=1èziø
n
2
æö
÷nçyi1
ç=-M0y÷ån(n-1)i=1çi÷çM÷è0ø
2
næöyi1
=M-Myåç0m0÷ n(n-1)i=1èiø
2
(M=y-y)å(n(n-1)
2
n
i
i=1
n
1=åM0i-M0yn(n-1)i=1
2
)
2
ˆöæY
v(y)=vçHH÷
èM0ø1ˆ=2vYHHM0
=12M0
()
20
n
éMù
y-yåêiú
n(n-1)i=1ëûn2
1
i-y=ån(n-1)i=1
2
()
()
过程完毕。
例8.8 某市建筑行业集团共有48个单位,有载货汽车186辆。按每
共抽10次。对抽个单位的车辆拥有量成比例的概率进行放回的PPS抽样,
中单位的所有车辆调查季度运量(单位:吨)。样本数据如表8.10所示(其中有一单位被抽中两次,即i=3,7)。试估计全集团的季度总运量。
表8.10 按PPS抽样抽取单位的载货汽车运量
解:本例中以单位为群,汽车为小单元。M0=186,n=10。
1n
y=åyi=2663.4(吨)
ni=1
因此全集团季度总运量Y的估计为:
ˆ=My=186´2663.4=495392.4(吨) YHH0
n
1
v(y)=åi-y
n(n-1)i=1
()
2
=2740.182
s(y)==52.34675(吨) ˆ)=Ms(y)=9736.495(吨) s(YHH0ˆ)=cv(YHH
9736.495
=0.01965
495392.4
ˆ,最大相对误差为 因而在95%置信度下,作为Y的估计YHH
1.96´0.01965=0.0385=3.85%
若群的抽取是用任何一种不放回的pPS抽样抽取时,总体总和Y的估
计应用霍维茨——汤普森估计量:
n
yˆYHT=åi i=1pi
其中
pi=nzi=
nmi
M0
ˆ也是有偏的,其方差与方差估计与包含概率p,p有关。 YHTiij
作为例子,若用布鲁尔或德宾方法抽取n=2个群,群和分别为y1,y2,群的相对大小分别为z1,z2,则Y的估计为:
ˆ=y1+y2 YB
p1p2
y1y2öˆ=p1p2-p12ævYç-÷ B
p12èp1p2ø
()
2
其中
pi=2zi=
2mi
,i=1,2 M0
4z1z2(1-z1-z2)
p12=
N
éZiù
(1-2z1)(1-2z2)ê1+åú
1-2Zëi=1iû
习题
8.4 汽车运输公司抽样检查在使用的车辆中不安全轮胎的比例,在175辆车中随机抽了25辆,其不安全轮胎数如下:
不安全轮胎数 汽车数
1 8 2 7 已知该运输公司的车辆均有四个轮胎,试以95%的可靠程度估计该运输公司的汽车中不安全轮胎的比例。
解:
分析:如果以每辆车作为一个群,每辆车的4个轮胎作为群的大小,则本题就是整群抽样中群大小相等情形估计总体比例的问题。
已知N=175,n=25,M=4,f=25175=1
7
, 则总体比例的估计量为
p=1n
clnåpi
i=1=1nå4
fjpjj=0
=
1
25(5´0+8´0.25+7´0.5+2´0.75+3´1) =1025=0.4估计量方差的估计量为
v(p1-f125
cl)=nn-1å(pi-pcl)2i=1
=1-f14
nn-1åfj(pj-pcl)2j=0
1-1
=12525-1
éë5´(0-0.4)2+8´(0.25-0.4)2+7´(0.5-0.4)2+2´(0.75-0.4)2+3´(1-0.4)2)ùû=3.3929´10-3=0.0033929
则估计量的标准误为
v(pcl)=0.0033929=0.0582
即总体比例在95%置信度下的置信区间为40%±1.96×5.82% 即(28.59%,51.41%)。