08-第八章整群抽样

10-21

第八章整群抽样

8.1 概述

8.1.1 什么是整群抽样

一个新建的居民区由近百幢居民楼组成，其中住户总数达数千户。欲用抽样调查方法估计该居民区现有的电话拥有率，考虑以下两种抽样方法。一种是用简单随机抽样抽取一定样本量的住户，譬如说一共抽取n=250户进行调查，然后用3.3节所述方法对全居民区的电话拥有率进行估计。另一种方法是按一定方法抽取一定数量的居民楼，譬如说15幢或20幢楼，然后对这些楼中的每个住户都进行调查，根据调查结果来估计整个居民区的电话拥有率。这两种抽样方法的主要差别是抽样单元不一样，前者以住户为抽样单元，后者以居民楼为抽样单元。后一种抽样方法称为整群抽样（cluster sampling）。一般地说，如果总体中所有较小的基本单元可以某种形式组成数量较少但规模较大的单元；或反过来说，每个“大”单元都由若干个“小”单元组成，称这些“大”单元为初级抽样单元（primary sampling unit），“小”单元为次级（抽样）单元（secondary sampling unit）。在总体中按一定方式抽取若干初级单元，调查每个被抽中的初级单元中所包含的全部次级单元，则这种抽样称为整群抽样，也称为集团抽样。这里的群（cluster）就是指初级单元，整群抽样就是指将总体中的小单元整群整群地进行抽取。在前面的例子中，居民楼就是群（初级单元），而住户则是次级单元，对居民楼的抽样就是一种对住户的整群抽样。

8.1.2 整群抽样的特点及适用场合

在实际中整群抽样是一种常用的抽样方法。在前面举的居民区住户电话拥有率调查的例子中，若采用对住户的简单随机抽样，则首先要有该居民区所有住户的抽样框，否则无法进行抽样。其次即使有全体住户的抽样框，当抽到一个简单随机样本时，这个样本在位置上必然是很分散的。例如一个250户的样本很可能分布在数十幢楼，甚至全部居民楼中。因此调查这样一个样本意味着要跑很多路，实施显然不便，调查的费用也相对较高。而若采用对居民楼的整群抽样，一则可以不需要所有住户的抽样框，二则由于样本相对集中，可以节省调查时间和费用，因而总的抽样效率较高。

在下面两节中我们将看到对于整群抽样，抽样精度（估计量的方差）与群的性质有很大关系。在多数情形，由于每个群内的小单元多少有点相似，因此如果抽同样数量的小单元，整群抽样的抽样误差要比直接用简单随机抽样抽小单元的抽样误差大。但由于整群抽样的费用省，因此完全可以兼顾两方面，即用较多的小单元而同时做到误差小且总费用也省，对于某些少数情

形，由于群的特殊结构，群内小单元的差异很大，此时即便同样数目的小单元，整群抽样的精度也比简单随机抽样高。在这种情形，整群抽样的优点就更为明显。

采用整群抽样时，当群的大小（群内包含的小单元的个数）接近时，常采用简单随机抽样抽取群；当群的大小相差比较大时，为提高效率则更多地采用不等概率抽样（按与群的大小成比例的概率抽样）方法。

8.2 群大小相等情形，对群进行简单随机抽样时的估计量及其方差

我们首先讨论总体中的N个初级单元即群的大小都相等（设为M）的情形，此时对群的抽取一般采用简单随机抽样。在实际问题中，只要群大小相接近，就可采用本节的方法，此时代替M的是群的平均大小M。

8.2.1 记号

记Yij为总体第i群中第j的小单元（次级单元）的指标值，

i=1,2,,N；j=1,2,,M。记yij为样本第i群中第j的小单元（次级

单元）的指标值，i=1,2,,n；j=1,2,,M，又f=

是抽样比。 N

Yi=åYij，yi=åyij

j=1

分别是总体和样本中第i群的指标和，简称为群和。

Yi=

Yiy，yi=i MM

分别为总体和样本中第i群（按小单元）的平均数。

1Y=

N1n

Yi，y=åyi åni=1i=1

分别为总体和样本的平均群和。

NMY1，y=Yij=ååMnMi=1j=1

ååy

i=1j=1

分别为总体和样本（按小单元）的均值（平均数）。

NMnM

1122

S=(Yij-Y)，s=(yij-y)2 ååååNM-1i=1j=1nM-1i=1j=12

分别为总体和样本（按小单元）的总方差。

MN1NM2S=(i-Y)=(i-Y)2， åååN-1i=1N-1i=1j=1

Mn1nM2

s=(i-y)=(i-y)2 ååån-1i=1n-1i=1j=1

分别为总体和样本的群间方差。

112

()S=YY-=iååij

N(M-1)i=1j=1N2w

é1Mù2

(Yij-Yi)ú， êåå1M-i=1ëj=1û

nMù11né1M22

()()s=yyyy-=-êú ååååijijii

n(M-1)i=1j=1ni=1ëM-1j=1

û2w

分别是总体和样本的群内方差。

8.2.2 估计量及其性质

本小节我们求总体均值Y的无偏估计量y，估计量方差V(y)及方差估计量v(y)。

群大小相等时的整群抽样，对群的抽样常采用简单随机抽样。此时若将群和Yi作为群（初级单元）的指标值，则Yi的总体平均值Y的简单估计应为：

=åyi=My

ni=1

根据简单随机抽样的性质，y是Y的无偏估计，因此样本（按小单元的）均值

y1y==

MnM

ååy

i=1j=1

是总体（按小单元的）均值

1YNM

ååYij=

i=1j=1

的无偏估计。

为推导y的方差V(y)的公式，我们注意到y的方差为：

V(y)=1-fn×1N

N-1å(Yi-Y)2 i=1

下面我们通过上式求V(y)。先给出结论：

y)=1-f1NV(n×N-1å(Yi-Y)2i=1

=1-f

×S2b

过程如下：已知

V(y)=V(

V(M)=M

2 又知

V()=1-f1N

n×N-1å(Yi-)2i=1

=1-fn×1éNN-1êëå(Mi-MY)2ùi=1úûN

1-fn×1é2N-1êëMå(i-Y)2ùi=1

úû1-fM2N

=×N-1(i-Y)2nåi=1

1-fM2N将V(y)=n×N-1å(Yi-Y)2

代入V(y)=V()，有i=1M2

V(y)=

V(y)M21

=2V(y)M

1é1-fM2N2ùY=2ê×(-) iåúMënN-1i=1û1-f1N

(i-Y)2=ånN-1i=1

1-f2

Sb=nM

过程完毕。

在求出了总体均值Y的无偏估计量y及其方差V(y)后，我们现在求估计量方差的估计量v(y)。

容易知道，v(y)=过程如下：

因为对群的抽样是简单随机的，若将Yi=

1-f2

sb nM

看作是单元指标值，则YiM

2sbSb222

的样本方差是总体方差的无偏估计，从而sb是Sb的无偏估计。也

就是说，v(y)=过程完毕。

备注：

1-f21-f2

sb是V(y)=Sb的无偏估计。 nMnM

Yi的样本方差为

v(i)=(i-y)2ån-1i=1

1Mn

=(yi-y)2 åMn-1i=1

12=sb

Yi的总体方差为

V(Yi)=(Yi-Y)2åN-1i=1

1MN

=(i-Y)2 åMN-1i=1

12=Sb

备注完毕。

下面我们看一看样本群内方差sw是否是总体群内方差Sw的无偏估计。先给出结论：

22sw是Sw的无偏估计。

过程如下：

(Yij-Yi)2作为单元的指标值，则它的样本均值如果将Zi=åM-1j=1

1né1M12ù2

(yij-yi)ú=(yij-yi)2=swêååååni=1ëM-1j=1

ûn(M-1)i=1j=1

是总体均值

NMé1M12ù2

(Yij-Yi)ú=(Yij-Yi)2=SwêååååM-NM-1(1)i=1ëj=1i=1j=1ûN

的无偏估计。

过程完毕。

ˆ。先给出结论：下面我们求总体方差S的无偏估计S

总体方差

S2=

N(M-1)Sw+(N-1)Sb2

NM-1

[]

的无偏估计为：

ˆ2=S

122

N(M-1)sw+(N-1)sb

NM-1

[]

详细过程如下：

根据方差分析，我们知道总体按小单元的总离差平方和

ååNM

-Y)2=(NM-1)S2

i=1j=1

可以分解成群间平方和与群内平方和两部分：

(NM-1)S2

NNM

=Må(Yi-Y)2

+=1

åå(Yij-Yi)2

ii=1j=1

=(N-1)S22

b+N(M-1)Sw

过程如下：

因为S2

NM-1åå(Yij-Y)2， i=1j=1

所以总离差平方和

åå(Y

-Y)2=(NM-1)S2

i=1j=1下面我们将总离差平方和分解

ååNMM(Y2

ij-Y)=i=1j=1ååé(Yij-Yi)+(Yi-Y)ùi=1j=1

êëúûN

=åå(Y2

2ij-Yi)+i=1j=1åå(Yi-Y)i=1j=1

+2åå(Yij-Yi)(Yi-Y)

i=1j=1NMNM

=åå(Y2

ij-Yi)+i=1j=1

åå(Yi-Y)i=1j=1

因为中间项等于零

ååN

(YéM(Yù

ij-Yi)(Yi-Y)=åêi-Y)å(Yij-Yi)úi=1j=1i=1ëj=1ûN

=å(i-Y)×0

i=1

所以平方和的分解式变为

ååN

-Y)=-i)2

+i=1j=1

åå(Yiji=1j=1

åå(i-Y)2i=1j=1

11NM22

又因为S=(Yij-i)，Sb=(i-Y)2 ååååN(M-1)i=1j=1N-1i=1j=1

所以

åå(Y

i=1j=1

-Y)=åå(Yij-Yi)+åå(Yi-Y)2

i=1j=1

NMé12ùYY=N(M-1)ê(-)iååúij

NM(-1)==ij11ëû é1NM2ù+(N-1)ê(i-Y)úååN-1i=1j=1ëû2

=N(M-1)Sw+(N-1)Sb2

NMNM

过程完毕。

因此总体方差可以表示成：

S2=

N(M-1)Sw+(N-1)Sb2

NM-1

[]

完全类似地，样本方差可以表示成：

s2=

122

n(M-1)sw+(n-1)sb

nM-1

[]

2222

这里的Sb,Sw及sb,sw分别是总体和样本的群间方差和群内方差。

由于抽样对小单元是整群而不是简单随机的，因此这里的样本方差s不再是总体方差S2的无偏估计。

222

从上面的论述得知，Sb2的无偏估计量是sb，Sw的无偏估计量是sw，

因此可以构造总体方差S的无偏估计如下：

ˆ2=S

122

N(M-1)sw+(N-1)sb

NM-1

[]

详细过程完毕。

ˆ2»当N很大时，S

122

(M-1)sw+sb M

[]

过程如下：

当N很大时，可将NM-1看作NM，将N-1看作N，则

ˆ2=S

122

N(M-1)sw+(N-1)sb

NM-1122

N(M-1)sw»+Nsb NM122=(M-1)sw+sb

[]

过程完毕。

估计量方差及方差估计量可从上面的结总体总和Y=NMY的估计量、果直接推出。下面为相关结论：

1. 估计量

ˆ=NMy Y

2. 估计量方差

ˆ)=(NM)2×1-fS2 V(Yb

3. 估计量方差的估计量

ˆ)=(NM)2×1-fs2 v(Yb

例8.1 在一次某城市居民小区居民食品消费量调查中，以每个楼层（相当于居民小组）为群进行整群抽样。每个楼层都有M=8个住户。用简单随机抽样在全部N=510个楼层中抽取n=12个楼层。全部96个样本户人均月食品消费额yij及按楼层的平均数yi与标准差si如下表所示。试估计该居民小区人均食品消费额的户平均值Y，并给出其95％的置信区间。

解：N=510，n=12，M=8，f=

510

根据表8.1中所列数据，可计算yi的平均数与标准差：

1n1121

y=åyi=åyi=×2620.5=218.375

ni=112i=112Mns=(yi-y)2=14186.18 ån-1i=1

因此Y的估计量y的方差估计为：

v(y)=

1-f2

nM121-´14186.18 =

12´8=144.3089

s(y)=v(y)=.3089=12.013

于是Y置信度为95％的置信限为：

218.375±1.96×12.013，

从而置信区间为（194.83元，241.92元）。

8.2.3 群内相关系数与设计效应

整群抽样估计量的方差既然与群间方差有关，那么它也可以用总体方差与群内方差表示。事实上，整群抽样的方差确与群内小单元之间的差异或它们的同质性（相似程度）有关，为此我们引进群内相关系数这个概念。群内相关系数（interclass correlation coefficient）rc表示同一群内不同小单元的指标值对总体均值的离差乘积的期望值与总体中所有小单元指标值对总体均值离差平方的期望值之比，即：

rc=

E(Yij-Y)(Yik-Y)E(Yij-Y)

对固定的群i，两个不同的小单元指标离差的乘积可表示为

(Yij-Y)(Yik-Y)，j¹k

每个群中共有CM=

M(M-1)

个这样的离差乘积，而总体中这样的离差乘2

积的总数为NC分子为：

E(Yij-Y)(Yik-Y)M(M-1)

=N个，因此rc=中的

2E(Y-Y)

åå(Y

i=1j

-Y)(Yik-Y)

åå(Y

i=1j

-Y)(Yik-Y)

M(M-1)N

2NM(M-1)

rc=

E(Yij-Y)(Yik-Y)

E(Yij-Y)

中的分母为：

åå(Y

i=1j=1

-Y)2

故

NM-12

S MN

åå(Y

i=1j

-Y)(Yik-Y)

2åå(Yij-Y)(Yik-Y)=

i=1j

rc=

-2

SMN

2åå(Yij-Y)(Yik-Y)

Mi=1j

éNM-12ù

NM(M-1)êSú

MNëû

(M-1)(NM-1)S22åå(Yij-Y)(Yik-Y)

即 rc=

i=1j

(M-1)(NM-1)S2

（rc的形式一）

下面我们将rc用另外一种形式表达。先给出结论：

M(N-1)Sb2-(NM-1)S2

rc=2

(M-1)(NM-1)S

详细过程如下：

注意到S=(Yi-Y)2 åM(N-1)i=1

（rc的形式二）

过程如下：

=MN-1åN

(i-Y)2i=1

=MNYiN-1å(-Y2i=1MM

=M1N

N-1M2å(Yi

-Y)2i=1

=1(N-1)(Yi-Y)2Måi=1

过程完毕。

而

åN

(Yi-Y)2

=é(Y-Y)ùi=1åêi=1ëåijúj=1û

N=åéMêå(Y2

ùij-Y)+2å(Yij-Y)(Yik-Y)úi=1ëj=1j

NMNM

=åå(Y2

ij-Y)+2åå(Yij-Y)(Yik-Y)

i=1j=1

i=1j

=(NM-1)S2+(M-1)(NM-1)S2rc=(NM-1)S2+(NM-1)S2(M-1)rc=(NM-1)S2[1+(M-1)rc]

上式中用到的两个结论的过程为：

2NM

因为S=1

NM-1åå(Yij-Y)2， i=1j=1

所以

åå(Y

-Y)2=(NM-1)S2；

i=1j=1

2åå(Yij-Y)(Yik-Y)

因为ri=1j

(M-1)(NM-1)S2

，

所以2

åå(Y

-Y)(Yik-Y)=(M-1)(NM-1)S2rc

i=1j

过程完毕。

因此

M(N-1)Sb2

1+(M-1)rc=2

(NM-1)S

过程如下：

因为S=(Yi-2， åM(N-1)i=1

所以

å(Y-Y)

i=1

=M(N-1)Sb2

M(N-1)Sb2= 即 1+(M-1)rc=

(NM-1)S2(NM-1)S2

i=1

å(Y-Y)

过程完毕。因此

M(N-1)Sb2M(N-1)Sb2-(NM-1)S2

(M-1)rc=-1=

(NM-1)S2(NM-1)S2

那么

M(N-1)Sb2-(NM-1)S2

rc=2

(M-1)(NM-1)S

详细过程完毕。

当N大时，上式可写成

Sb2-S2

rc»2

(M-1)S

（rc的形式二的简化形式）

过程如下：

将N-1看成N，NM-1看成NM，则

rM(N-1)S2b-(NM-1)S2

(M-1)(NM-1)S2

MNS2b-NMS2(M-1)NMS2

S22=

b-S(M-1)S2

过程完毕。

将S2S2b用S2与w来表示，代入rc的形式二，有rNMS2

c=1-(NM-1)S2

过程如下：

因为(NM-1)S2=N(M-1)S2

2w+(N-1)Sb 所以S2(NM-1)S2-N(M-1)S2

=N-1

那么

rc的形式三）

（

M(N-1)Sb2-(NM-1)S2

rc=

(M-1)(NM-1)S2

é(NM-1)S2-N(M-1)Swù2

M(N-1)ê-(NM-1)S

N-1ëû=

(M-1)(NM-1)S22

-(NM-1)S2M(NM-1)S2-N(M-1)Sw

(M-1)(NM-1)S22

-(NM-1)S2M(NM-1)S2-NM(M-1)Sw

(M-1)(NM-1)S22

M(NM-1)S2-(NM-1)S2-NM(M-1)Sw=

(M-1)(NM-1)S22

(M-1)(NM-1)S2-NM(M-1)Sw=

(M-1)(NM-1)S22

NM(M-1)Sw

=1-(M-1)(NM-1)S22

NMSw

=1-(NM-1)S2

[]

过程完毕。

当N大时，NM-1可看成NM，则上式简化为

NMSwSw

rc=1-»1-2

(NM-1)S2S

（rc的形式三的简化形式）

在求出了总体群内相关系数rc的三种形式后，我们需要对rc作出估计。

我们可以利用Sb2和S2的无偏估计，从rc的形式二的简化形式

Sb2-S2

rc»2

(M-1)S

出发估计rc。先给出结论：

22sb-sw

ˆc»2 r2

sb+(M-1)sw

过程如下：

ˆ2-Sˆ2Sb

ˆc»r

2(M-1)S1222

ù(1)sb-éM-s+swbëû»

ì122üù(M-1)íé(-1)+MsswbëûýîMþM-12122-sbsw-sb

-22

éù(M-1)sw+sbëûM

12M-122

-sb-sbsw=

éù(1)-+MsswbûëM

M-12M-12

sb-sw

éù(1)-+MsswbûMë

M-122

(sb-sw)=

éù(M-1)s+swbûMë22sb-sw

=22(M-1)sw+sb

过程完毕。

下面利用群内相关系数rc，将总体均值Y的估计量y的方差用另外一种形式表示。

利用群内相关系数rc，总体均值Y的估计量y的方差可写成以下的形式：

1-f(NM-1)S2

V(y)=[1+(M-1)rc]2

nM(N-1)

1-f2»S[1+(M-1)rc]nM

过程如下：

V(y)=V(

y)M

V()M2

11-f1N=2(Yi-Y)2 ånN-1i=1M

11-f1=2(NM-1)S2[1+(M-1)rc]

nN-1M

1-f(NM-1)S2

[1+(M-1)rc]=

nM2(N-1)

当N大时，将N-1看成N，NM-1看成NM，则上式化为

1-f(NM-1)S2

V(y)=[1+(M-1)rc]2

nM(N-1)

1-f»

n1-f=

n1-f=nM

过程完毕。思考：

NMS2

[1+(M-1)rc]2

MNS2

[1+(M-1)rc]M

S2[1+(M-1)rc]

1-f(NM-1)S2

从V(y)=[1+(M-1)rc]中可以看出，群内相关系数rc2

nM(N-1)

与估计量方差V(y)是什么关系？参考答案：

rc增大，则V(y)增大，两者呈正方向关系。

下面计算整群抽样的设计效应deff。首先给出结论：

deff=

V(y)Vsrs(y)

»1+(M-1)rc

过程如下：

注意到若按简单随机抽样直接从总体中抽取nM个小单元，样本均值y的方差应为

Vsrs(y)=

1-f2

S nM

因此整群抽样的设计效应

deff=

V(y)Vsrs(y)

1-f2

S[1+(M-1)rc]

»2

SnM

=1+(M-1)rc

过程完毕。

思考：整群抽样设计效应有何意义？参考答案：

deff»1+(M-1)rc意味着按同样的样本量（以小单元计），整群抽样

的方差约为简单随机抽样的1+(M-1)rc倍。换句话说，为了获得同样的精度，整群抽样的样本量是简单随机抽样的1+(M-1)rc倍。现在我们来研究rc的取值范围。先给出结论：

£rc£1 M-1

过程如下：

已知rc的形式二为：

M(N-1)Sb2-(NM-1)S2

rc=2

(M-1)(NM-1)S

容易知道，rc是有关Sb的增函数。当Sb取最小值0时，rc达到最小值

rc=-

。 M-1

过程如下：当Sb2=0时，有

M(N-1)Sb2-(NM-1)S2

rc=

(M-1)(NM-1)S2

(NM-1)S2

=-(M-1)(NM-1)S2S(M-1)S2

1=-M-1=-过程完毕。

已知rc的形式三为：

NMSw

rc=1-(NM-1)S2

容易知道，rc是有关Sw的减函数。当Sw取最小值0时，rc达到最大值

rc=1。

过程完毕。

下面看一看对rc的不同取值，V(y)的相应取值及其与简单随机抽样

Vsrs(y)的大小关系。

我们分五种情况讨论。

先给出结论：

（1）当rc=-

时，V(y)=0，即取最小值； M-1

1-f2NM-1

S×，即取最大值；（2）当rc=1时，V(y)=nMN-1

（3）当rc=-时，V(y)=Vsrs(y)；

NM-11

（4）当rc

NM-11

时，V(y)>Vsrs(y)。（5）当rc>-NM-1

过程如下：（1）当rc=-

时， M-1

1-f(NM-1)S21-f2

V(y)=1+(M-1)r=0

nM(N-1)nM

此时整群抽样估计量方差为零，抽样效率最高，当然比简单随机抽样高。（2）当rc=1时，

1-f(NM-1)S2

[1+(M-1)rc]V(y)=2

nM(N-1)

1-f(NM-1)S2

nM2(N-1)1-f(NM-1)S2=

nM(N-1)1-f2NM-1

S×=nMN-11-f2>SnM

此时整群抽样估计量方差达到最大值，抽样效率最低，当然比简单随机抽样低。

（3）当rc=-

时，

NM-1

1-f(NM-1)S2

[1+(M-1)rc]V(y)=

nM2(N-1)

1-f(NM-1)S2=

nM2(N-1)

M-1ùé1-ê

ëNM-1úû

1-f(NM-1)S2éNM-1-(M-1)ù

=únM2(N-1)êNM-1ëû1-f(NM-1)S2éNM-Mù

=ú1nM2(N-1)êNM-ëû1-f(NM-1)S2(N-1)M

nM2(N-1)NM-11-f2

S=nM=Vsrs(y)

此时整群抽样估计量方差与简单随机抽样相同，两者抽样效率一样。（4）当rc

时，

NM-1

V(y)

即整群抽样的估计量方差小，效率较高。（5）当rc>-

时，

NM-1

V(y)>Vsrs(y)

即整群抽样的估计量方差大，效率较低。

实际当中，总有rc>-简单随机抽样。过程完毕。

8.3 估计总体比例的整群抽样

8.3.1 问题的提出

在这一节中，我们讨论估计总体中具有某种特定特征的小单元比例的整群抽样。例如在8.1节中提到的居民小区住户电话拥有情况调查中，需要估计的即是装有电话的住户在小区总住户中所占的比例。由于在这类调查

，所以整群抽样的估计效率通常低于

NM-1

中，判别一个单元是否具有所考察的特征一般是很容易的，需要的费用很低，而调查的组织及交通费用在调查总费用中所占的比例较大，因此在这一类调查中，普遍采用整群抽样，因它总的效率较高。

与目的是估计总体均值或总和的整群抽样不同的是，在估计总体比例的情形，群大小无论相等或不相等，对群的抽样均可采用简单随机抽样。不过此时估计量需要采用不同的形式：在群大小相等情形，一般仍采用简单估计；而在群大小不等情形，则需要采用比估计。

8.3.2 群大小相等情形

在群大小相等（设为M）情形，可以直接应用8.2节中的结果。注意此时小单元的指标值Yij（yij）只能取0和1两种可能的数值。记号如下：

ì1,若总体第i群第j个单元具有某种特征

Yij=í

0,若总体第i群第j个单元不具有某种特征îi=1,2,,N;j=1,2,,M

ì1,若样本第i群第j个单元具有某种特征

yij=í

0,若样本第i群第j个单元不具有某种特征îi=1,2,,n;j=1,2,,M

Ai表示总体第i群具有所考虑特征的小单元数，i=1,2,,N ai表示样本第i群具有所考虑特征的小单元数，i=1,2,,n

Pi表示总体第i群具有所考虑特征的小单元数占该群总单元数的比例，i=1,2,,N

pi表示样本第i群具有所考虑特征的小单元数占该群总单元数的比例，i=1,2,,n

备注：

与8.2节相对应：Ai相等Yi；ai相等yi；Pi相等Yi；pi相等yi。根据8.2节中的结果，如果在总体中按简单随机抽样抽取n个群，则样本中具有所考虑特征的小单元对样本小单元总数之比例

1ååy1nMij

=nMån

y=1

ån

1nan

a=i=1j=1

i=1

nMi=1

nåi=1iåpi i=1Mni=1是总体比例P

ååY1åN

iNMij==1

ii=1j=1

Ni=1M

NåP

i=1

的无偏估计。

容易知道，估计量的方差为：

V(p)=1-fn×1N

N-1å(Pi-P)2 i=1

其中N是总体中群的总数，而f是抽样比。估计量方差的估计量为：

v(p)=1-f1n

n×n-1å(pi-p)2 i=1

下面我们计算估计总体比例时整群抽样的设计效应。

先给出结论：

V(p)MN

deff=V»(Pi-P)2srs(p)NPQå i=1

过程如下：

从（3.30）式知，样本量为nM的简单随机抽样的方差为：

VP(1-P)NM-nM

srs(p)=nMNM-1

当N较大时，可将NM-1看成NM，则上式化为

Vsrs(p)=

P(1-P)NM-nMnMNM-1»

P(1-P)NM-nMnMNM

=P(1-P)

nM(1-nN=P(1-P)nM

(1-f)

因而此时整群抽样的设计效应为：

deff=

V(p)Vsrs(p)

1-f1N

×å(Pi-P)2nNi=1»

(1-f)nM

1N2

å(P-P)Ni=1i=

-M=

Må(Pi-P)2

i=1N

NP(1-P)

过程完毕。

例8.5 在例8.1中，对某居民小区居民进行食品消费调查的同时，也进行了电话拥有情况的调查。表8.7是12个样本楼层装有电话的住户数ai及在楼层的8户居民中所占的比例pi的资料，试对该小区的电话拥有率P进行估计。

表8.7 居民小区样本楼层电话装有情况的数据

4 ai

6 pi

0.75 i

10 ai

4 pi

0.5 解：根据例8.1中的数据，这里N=510,n=12,M=8,f=从表8.7的数据，小区电话拥有率的估计为：

。而510

1n1p=åpi=

ni=1nM

它的方差估计为

åai=

i=1

=52.08% 12´8

1-f1n

×v(p)=(pi-p)2ånn-1i=1121-510´0.02509 =

=0.0020445

标准差的估计为：

s(p)=v(p)=.0020445=4.52%

8.3.3 群大小不等情形

当群大小不相等时，若对群的抽样仍按简单随机抽样，记所抽群的大小为mi，群中具有所考虑特征的小单元数为ai，则很自然地，总体比例P的估计可采用：

åa

i=1ni=1

åm

将Ai（ai）作为第i群的指标值，群大小Mi（mi）看作是第五章中

ˆ。于是的辅助变量Xi（xi）的值，则上式中的p即是5.2节中的比估计R

根据该节的讨论，当抽的群数n大时，

E(p)»P

V(p)»

1-fnM

å(A-PM)

i=1

N-1

1-fnM

åM

i=1

i(Pi-P)2

N-1

方差公式的过程如下：

V(p)»

1-f2

å(A-PM)

i=1

N-1

1-f2

å(MP-PM)

i=1

N-1

MiPi=Ai

其中=

过程完毕。

1-fnM

åM

i=1

2i(Pi-P)2

N-1

是总体群的平均大小。

åM

i=1

V(p)的估计则可用：

v(p)=

1-fn1-f

22(sa+p2sm-2psam)

nnn1222

(åai+påmi-2påaimi)=2

i=1i=1nmn-1i=12

其中，sa，sm及sam分别是ai，mi的样本方差和样本协方差。

例8.6 为估计城市居民中男女性别的比例，用简单随机抽样抽取

n=56户，每户的人口数mi，男性与女性人口数ai与bi的数据见表8.8。

试对男、女性别比例作出估计（1-f可忽略），并估计deff的值。

表8.8 56个家庭的总人口数mi，男性人口数ai及女性人口数bi

2 3 4 5

4 3 4 5 3

1 1 3 3 1

3 2 1 2 2

29 30 31 32 33

3 4 2 2 4

1 2 1 2 2

2 2 1 0 2

6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28

2 5 4 3 2 3 4 3 6 1 2 6 4 3 2 4 2 1 3 6 4 4 5 1 3 1 2 1 2 3 2 4 0 1 3 2 1 1 2 2 1 2 4 2 2 2

1 2 3 1 1 1 1 1 2 1 1 3 2 2 1 2 0 0 1 2 2 2 3 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 3 7 2 5 4 6 2 3 4 3 5 2 3 3 2 3 5 4 2 3 3 5 4

1 3 1 2 2 3 2 1 2 2 3 0 0 2 1 1 3 2 1 2 1 3 2 2 4 1 3 2 3 0 2 2 1 2 2 3 1 1 2 2 2 1 1 2 2 2

解：根据表8.8中的数据有：

n=56，åmi=196，åai=101，åbi=95，

i=1

1n1962

m=åmi==3.5，åai=229，åbi2=201

ni=156i=1i=1n

åm

i=1

=786，åaimi=407，åbimi=379

i=1

i=1(1)

男性在总人口中所占的比例P估计分别为：

与女性在总人口中所占的比例P

(2)

的

ˆP

(1)

åa

i=1

ni=1n

åm

ˆP

(2)

101

=51.53% 196

åb

i=1ni=1

åm

ˆ(1)的方差为： P

=48.47% 196

ˆ(1)=1-f1(åa2+p2åm2-2påam)vPiiiin-1i=1i=1i=12

ù11é101æ101ö

=´ê229+ç´407ú ÷´786-2´56´3.5255ê196196èøúëû=0.0004838

()

nnn

ˆ(2)的方差为： P

ˆvP

()

(2)

nnn

1222

=(åbi+påmi-2påbimi)2

n-1i=1i=1i=12

ù11é95æ95ö

=´ê229+ç´379ú ÷´786-2´56´3.5255ê196196èøúëû=0.0004838

1-f

ˆ可以看出P

(1)

ˆ与P

(1)

(2)

的方差估计是相等的。

(2)

ˆ思考：为什么Pˆ与P

的方差估计相等？

于是标准差的估计为：

(1))=v(P(2))=0.0220=2.20% v(P

为估计deff，我们先求样本量为196的简单随机抽样的方差，取

P=0.5，则 0.25Vran==0.001276

196

deff=

0.0004838

=0.38

0.001276

可见在此情形，整群抽样的效果要显著地高于简单随机抽样。取M=3.5，还可进一步计算群内相关系数rc：

ˆc=0.38 1+(-1)rˆc=r

0.38-1

=-0.248 2.5

群内相关系数为负值表明以家庭住户为群，群内性别差异大于随机分组。事实上一个家庭往往由夫妻为核心加上子女或父母组成，性别结构是比较均衡的，群（家庭）内差异大，群间差异小。因此对于这种特殊的群结构，整群抽样是最为适宜的。

8.4 群大小不相等的一般情形

在多数实际问题中，群大小Mi是不相等的。若Mi相差不大，以平均群大小M代替M，则可按群大小相等的情形处理。如果Mi相差很大，则有两种处理方法。一种是将群按大小分层，使每一层内群的大小基本相等，从而仍可使用群大小相等时的处理方法，本节则讨论处理群大小不等情形的一般方法。

8.4.1 记号

为便于讨论，将8.2.1中的记号做相应的改变。

记Yij为总体第i群中第j个小单元的指标值，i=1,2,,N；

j=1,2,,Mi，其中Mi是群的大小。yij为样本第i群中第j个小单元的

指标值，i=1,2,,n；j=1,2,,mi，mi是群的大小。

M0=åMi是总体中小单元的总数；

i=1

Yi=åYij，yi=åyij

j=1

Mimi

1i=

Mi1Y=

，=Yåiji

mij=1

åy

j=1

åY，

i=1

M01n

Yij，y=åyi ååni=1i=1j=1

注意尽管Y是总体按小单元的均值，但y并不是样本按小单元的平均数，因此它不等于

åm

i=1

ååy

i=1j=1

nmi

。为简化公式便于讨论起见，在本节中，我

们主要讨论对总体总和

Y=ååYij=åYi

i=1j=1

i=1

的估计。因为若将Yi作为群的指标值，则作为总和的Y的估计可根据对群的抽样方法应用前几章已有的结果。而对Y的估计则可从对Y的估计中推出。

8.4.2 按简单随机抽样抽群

此时对Y的我们首先考虑按简单随机抽样抽取群，设群的样本量为n。

估计有两种方法，一种是简单估计，另一种是比估计。

根据简单随机抽样简单估计的定义及性质，以样本群和yi为样本观测值，y为样本平均数，则总体总和的估计为：

ˆ=N×1åy=Ny Yi

ni=1

ˆ是无偏的，它的方差为： Y

ˆ)=N21-f×V(Y

其中f=

å(Y

i=1

-Y)2

N-1

nˆ)的一个无偏估计是：。V(YN

(yy)-åii=1n

ˆ)=N21-f×v(Y

n-1

ˆ=N×1åy=Ny可以得到总体均值Y的简单估计：从Yi

ni=1

ˆYy1n

Y===åyi

M0MMni=1

其中=

是总体群大小的平均值。 N

ˆ)=N从V(Y

1-f

×n

å(Y

i=1

-Y)2

N-1

ˆ的方差取决于群和Y可知，简单估计Yi

的差异。当每个小单元指标值变化不大而群大小Mi相差较大时，Yi的差异一般很大，因此简单估计的方差可能较大。为了改进精度，采用8.3.3小节中已考虑过的方法，对总体均值Y采用以群大小Mi为辅助变量的比估计，即

YR=

åy

i=1

ni=1

åm

从而Y的比估计为：

ˆ=MYR=MY0

i=1

0ni=1

åy

åm

ˆ是有偏的，但当n大时，偏倚很小，可以看成是近似无偏的。此时YR与Y

它们的方差近似为：

(Y-YM)åiii=1N

V(YR)»

1-fn2

N-1

1-fn2

åM

i=1

(Yi-Y)2

N-1

ˆR)=MV(YR)=NMV(YR)V(Y

»N22

1-fn2

å(Y

i=1N

-YMi)2

N-1

=N2M

1-fnM

åMi2(i-Y)2

i=1

N-1

=N2

1-f

×n

åM

i=1

(Yi-Y)2

N-1

ˆ的方差取决于Yi的差异。在通常情况下，从上两式可以看出YR与YR

这个差异比较小，因而一般来说比估计的方差要比简单估计的方差要小，从

而精度较高。

ˆ)的估计可采用以下公式： V(YR)与V(YR

ÙÙnnù1én22

v(YR)=×êåyi+YRåmi-2YRåmiyiú 2

i=1i=1únmn-1êëi=1ûÙ

1-f

ÙÙnnnéù-f11222ˆ×v(YR)=Nêåyi+YRåmi-2YRåmiyiú

nn-1êi=1i=1úëi=1û

例8.7 从共有790个单位的某系统中按简单随机抽样抽取n=20个单位，这些单位的职工人数mi，月奖金总额yi及人均月奖金yi如表8.9所示。假设该系统共有职工人数M0=337208人，试用简单估计与比估计两种方法估计该系统人均月奖金Y，并比较其精度。

解：N=790，n=20，1-f=（1）简单估计

N-n

=0.9747，M0=337208 N

ˆ=NY

åyi=

i=1

790

´1078566=42603357（元） 20

ˆY42603357Y===126.34（元）

M0337208

N2(1-f)1n

v(Y)=(yi-y)2=1035.3166 å2

n-1i=1nM0

s(Y)=v(Y)=32.18（元）

（2）比估计

YR=

åy

i=1

ni=1

åm

1078566

=105.55（元）

10219

ÙÙnnù1én22

v(YR)=×êåyi+YRåmi-2YRåmiyiú2

n-1i=1i=1êúnëi=1û

1-f

=13.2422

s(YR)=v(YR)=3.64（元）

比较这两个估计量的方差或标准差，可知在此情形比估计要比简单估计精确得多。

8.4.3 按与群大小成比例的不等概率抽样抽群

在群大小不等时的整群抽样中，最有效的方法是对群进行与其大小Mi

成比例的不等概率抽样，即采用第七章中讨论的放回PPS抽样或不放回pPS抽样，并采用相应的估计量。

若群的抽取是按与Mi成比例的放回PPS抽样抽取的，即进行n次独立的抽样，每次按

Zi=

，i=1,2,,N M0

的概率抽取第i个群。设观测到的群和与群的大小分别为体总和Y的估计采用汉森——赫维茨估计量：

åy

j=1

与mi，则总

1nyiM0

ˆYHH=å=

ni=1zin

其中

=M0y åi=1mi

（8.44）

1nyi1n

y=å=åyi

ni=1mini=1

（8.45）

可作为总体（按小单元）均值Y的估计。

ˆ与y都是无偏的，且根据汉森——赫维茨估计量的性质，YHH

öYi1ˆ)=åZæ-V(YY÷HHiç

ni=1èZiøM0N=åMii-Yni=1

()

（8.46）

V(y)=

nM0

过程如下：

åM

i=1

(Y-Y)

（8.47）

V(YˆHH)=1nåZæYi

öiç

-Y÷i=1èZiø

æö

=1NMiçnåMçYi

-Y÷÷i=10ççi÷èM0÷ø

MiæYiönåçM0-Y÷i=1M0èMiø

=1NMiæ

nåMçMYi0-MYö0

÷i=10èMiM0ø

1N2

=Mi

nå(M0Yi-M0Yi=1M0

)

=1NMinåM2

0(Yi-Yi=1M0)

=MN

0nåMi(Yi-Yi=1

)

V(y)=VæçY

ˆHHöèM÷

0ø=1M2VYˆHH0

()

1éMN

0M2M(Y-Y)

0êënåiii=1úû

1nMåN(Y2

=Mii-Y0i=1

)

过程完毕。

它们的方差估计分别为：

v(YˆHH

)=1n(n-1)åæçyi-YˆöHH÷i=1èziø

n=M0

n(n-1)åi-yi=1

()

8.48）

（

v(y)=i-yån(n-1)i=1

()

（8.49）

过程如下：

æyiˆö1ˆ)=v(Yç-YHH÷åHH

n(n-1)i=1èziø

æö

÷nçyi1

ç=-M0y÷ån(n-1)i=1çi÷çM÷è0ø

næöyi1

=M-Myåç0m0÷ n(n-1)i=1èiø

(M=y-y)å(n(n-1)

i=1

1=åM0i-M0yn(n-1)i=1

)

ˆöæY

v(y)=vçHH÷

èM0ø1ˆ=2vYHHM0

=12M0

()

éMù

y-yåêiú

n(n-1)i=1ëûn2

i-y=ån(n-1)i=1

()

过程完毕。

例8.8 某市建筑行业集团共有48个单位，有载货汽车186辆。按每

共抽10次。对抽个单位的车辆拥有量成比例的概率进行放回的PPS抽样，

中单位的所有车辆调查季度运量（单位：吨）。样本数据如表8.10所示（其中有一单位被抽中两次，即i=3,7）。试估计全集团的季度总运量。

表8.10 按PPS抽样抽取单位的载货汽车运量

解：本例中以单位为群，汽车为小单元。M0=186，n=10。

y=åyi=2663.4（吨）

ni=1

因此全集团季度总运量Y的估计为：

ˆ=My=186´2663.4=495392.4（吨） YHH0

v(y)=åi-y

n(n-1)i=1

()

=2740.182

s(y)==52.34675（吨） ˆ)=Ms(y)=9736.495（吨） s(YHH0ˆ)=cv(YHH

9736.495

=0.01965

495392.4

ˆ，最大相对误差为因而在95％置信度下，作为Y的估计YHH

1.96´0.01965=0.0385=3.85%

若群的抽取是用任何一种不放回的pPS抽样抽取时，总体总和Y的估

计应用霍维茨——汤普森估计量：

yˆYHT=åi i=1pi

其中

pi=nzi=

nmi

ˆ也是有偏的，其方差与方差估计与包含概率p,p有关。 YHTiij

作为例子，若用布鲁尔或德宾方法抽取n=2个群，群和分别为y1,y2，群的相对大小分别为z1,z2，则Y的估计为：

ˆ=y1+y2 YB

p1p2

y1y2öˆ=p1p2-p12ævYç-÷ B

p12èp1p2ø

()

其中

pi=2zi=

2mi

,i=1,2 M0

4z1z2(1-z1-z2)

p12=

éZiù

(1-2z1)(1-2z2)ê1+åú

1-2Zëi=1iû

习题

8.4 汽车运输公司抽样检查在使用的车辆中不安全轮胎的比例，在175辆车中随机抽了25辆，其不安全轮胎数如下：

不安全轮胎数汽车数

1 8 2 7 已知该运输公司的车辆均有四个轮胎，试以95％的可靠程度估计该运输公司的汽车中不安全轮胎的比例。

解：

分析：如果以每辆车作为一个群，每辆车的4个轮胎作为群的大小，则本题就是整群抽样中群大小相等情形估计总体比例的问题。

已知N=175，n=25，M=4，f=25175=1

，则总体比例的估计量为

p=1n

clnåpi

i=1=1nå4

fjpjj=0

25(5´0+8´0.25+7´0.5+2´0.75+3´1) =1025=0.4估计量方差的估计量为

v(p1-f125

cl)=nn-1å(pi-pcl)2i=1

=1-f14

nn-1åfj(pj-pcl)2j=0

1-1

=12525-1

éë5´(0-0.4)2+8´(0.25-0.4)2+7´(0.5-0.4)2+2´(0.75-0.4)2+3´(1-0.4)2)ùû=3.3929´10-3=0.0033929

则估计量的标准误为

v(pcl)=0.0033929=0.0582

即总体比例在95％置信度下的置信区间为40％±1.96×5.82％即（28.59％，51.41％）。

与《08-第八章整群抽样》相关的范文

06-25 进口药品管理制度

第一章总则第一条为加强进口药品的监督管理，保证进口药品的质量和安全有效，根据《中华人民共和国药品管理法》的规定，制定本办法。第二条国家对进口药品实行注册审批制度。进口药品必须取得中华人民共和国国家药品监督管理局核发的《进口药品注册证》，并经国家药品监督管理局授权的口岸药品检验所检验合格。第三条国家药品监督管理局主管进口药品的审批和监督管理工作，地方各级药品监督管理部门主管辖区内进口药品的监 ...

06-14 药品质量抽验工作方案

为保证我区市场药品质量，保障公众用药安全有效，根据《市药品、医疗器械和药用包装材料质量抽验程序》以及市食品药品监督管理局关于《年市药品、医疗器械和药包材质量抽验计划的通知》的要求，结合我区药品质量监控的实际情况，特拟定区年度药品质量抽验实施方案，计划如下：一、抽验原则：遵循客观、公正、科学、合理的原则。今年重点加强药品生产企业、质量薄弱环节和重点品种抽样的针对性，切实提高发现药品存在质量隐患的 ...

07-01 **县1%人口抽样调查工作方案

　　国务院决定在20XX年进行的1%人口抽样调查，是继20xx年第五次人口普查以来，又一次人口调查。对于摸清我国人口数量、构成以及居住等方面的情况，为制定经济社会发展规划和有关政策提供客观准确的依据，有着十分重要的意义。按照国家和省、市《关于认真做好20XX年1%人口抽样调查的通知》精神，为认真抓好落实，整体推进各阶段工作，高质量完成调查任务，特制定如下方案。　　一、组织实施　　分别在5、6 ...

05-16 农村合作医疗社会实践报告

农村合作医疗社会实践报告杨振远前言新型农村合作医疗直接关系到中国几亿农民的健康和利益，是建设和谐社会的一项重大工程，我省“新农合”围绕着“大病有保障、门诊有补偿、看病花钱少”的目标，从无到有、从局部试点到全省覆盖，从低水平起步到逐年提高补偿水平，力求取得“农民得实惠、卫生得发展、政府得民心”的“三赢”效果。20XX年7月2日-7月9日我班暑期社会实践团队对亳州市谯城区的四个乡镇进行实地调研。 ...

06-11 区县住户调查统计工作方案

　　根据全面建设小康社会和加快推进社会主义现代化的要求，为更加准确、客观、真实地反映我市区县居民收支情况和生活质量，满足市委、市政府和区县在“富民强市、两个率先”战略目标进程中的监测考核需要，特制定本工作方案。　　一、目的和意义　　坚持以人为本，把富民摆在更加突出的地位，是贯彻落实“三个代表”重要思想和科学发展观的重要体现。开展住户调查取得分区县的住户调查资料，是区县党委和政府了解民情民意、分 ...

02-15 关于贯彻执行的工作情况汇报

县卫生局领导：　　为加强对消毒工作的管理，控制医疗感染，防止疾病传播，保障人体健康，中央卫生部于1992年8月31日颁布了《消毒管理办法》。我县在全县县、乡、村全面贯彻实施本法，并逐步开展消毒监督监测工作是从1996年。6年来，在县卫生局的重视和支持下，通过广泛宣传贯彻《消毒管理办法》，使全县的消毒管理工作基本走上了科学管理程序操作，并探索一些管理方法，取得了一定成绩。现将近几年的贯彻实施工作情 ...

10-20 无公害农产品质量安全检测工作的实施意见

　各市、区农林（农业、农发、地发）局、XX市水产局、XX区水产畜牧局：　　为了做好无公害农产品质量安全监管工作，根据《无公害农产品管理办法》和《XＣ市食用农产品安全监督管理办法》，我们将对无公害农产品、绿色食品、有机食品的生产基地实行监督检查和产品质量抽样检验。现将实施意见通知如下：　　一、生产基地的监督检查　　按照无公害农产品生产基地必须两年一次复检要求，对全市357个生产基地进行复查和执 ...

05-25 县残联机关学习贯彻县十届三次党代会精神汇报

　　1月12日我县召开了十届三次党代会，县委王书记在会上代表县委作了题为《立足科学发展，提高执政能力，为“十一五”时期发展开好局起好步》的工作报告。一段时间以来，残联机关把学习贯彻党代会精神做为当前工作的重中之重，在全机关迅速掀起了学习讨论、共谋发展、努力为我县残疾人事业以及全县经济社会又快又好发展奉献力量，推动了各项工作的全面开展。现简要汇报如下：　　一、深入学习贯彻党代会精神，统一思想，提高 ...

01-06 乡镇街道属地统计实施方案

k8kkB2G1G22AjGI0> 为建立与统筹城乡综合配套改革相适应的统计体系,确保统计数据搜集的及时性、准确性和全面性，对全区现行的“条状统计”管理模式进行改革，推行属地统计管理体制。特制订本实施方案。一、实施属地统计工作的必要性和紧迫性（一）属地统计是加强政府管理职能的需要实行属地统计有利于各级党委政府全面掌握镇乡街道辖区经济总量及构成，合理配置区域资源，统筹安排生产、生活和各项 ...

06-18 五年级测试试卷分析

五年级《科学》测试试卷分析 xx乡20xx秋季学期五年级《科学》测试全县统一于20XX年元月12日下午2:30-3:30完成，元月15日上午开始流水作业式阅卷，16日下午阅卷工作结束，各种统计数据得到显现，本次科学测试试卷共设计填空、选择、判断、填图、实验探究五种类型的题，内容涵盖了五年级上册教材中光学、力学、动物、植物等知识内容。试题力图贴近时代、贴近学生生活实际，采用文字、图形、图表等多种方式 ...

随机推荐

猜你喜欢

08-第八章整群抽样

·小学绿色教育总结

·市领导在在金融生态环境建设工作动员大会上的讲话

·新员工交流会发言稿

·谜一样的女人蝴蝶梦读后感

·19一封奇怪的信--学导案

·他是比尔盖茨的偶像,用50年写出编程圣经,被奉为程序员鼻祖

·本学期第一次活动总结

·安全生产规章制度和操作规程评审和修订制度

·新入职护士总结及体会

·2015年度全国文科类大学实力排行榜(完整版)

·计生部门"一创双优"工作汇报

·2010年公司安全工作总结

·美国心理学家布鲁纳倡导的发现学习

·篮球基础训练内容

·党的群众路线教育实践活动个人对照检查材料.1111doc

·[稻草人手记]

·鼓号队训练记录

·重庆师范大学校徽校标

·生命因疯狂追梦而精彩

·加德纳八大智能