分层随机抽样
数据处理——分层随机抽样
研究数据总体取自世界214个国家及地区10年间(2002至2011)的年度数据报告①,总体数量较大,条目繁多,指标横向差距明显;因此,在保证研究成果真实有效的前提下,我们采用分层随机抽样技术进行抽样,以期减少工作量,降低研究成本。
结合数据特征,按照国际标准以“各国及地区人均年收入的高低”为依据,可以将数据分为——High income: nonOECD、High income: OECD、Upper middle income、Lower middle income、Low income共五层,分别记为1、2、3、4、5。由于数据来自世界银行网站,较为完整,各层抽样费用均可记为单位1,故可采用奈曼分配原则②确定样本总量n和各层样本量nh,具体方法如下:
针对总体均值 Y,要求 y 在α=0.05的条件下绝对误差限d=6000,则根据st奈曼分配原则有公式
( hWhSh)^2 hWh(Sh^2)
n=
V+、nh=n∗
、V=d^2 u^2
hWhShα
WhSh
通过计算得出下表:
表1 各国及地区人均GDP调查样本总量和各层样本量的计算③
则在显著性水平α=0.05下,有
6000
V=d^2 u^2==9371095.38 1.96α
2
n=
hWhSh 2V+ hWh(Sh^2)
N=
20310.702
9371095.38+
214
∗470328333.78
≈36
W1S11984.98 n1=n∗=36∗≈4
hhhW2S24944.22
n2=n∗=36∗≈9
hhh
W3S35736.66
n3=n∗=36∗≈10
hhhW4S43398.59
n4=n∗=36∗≈6
hhhW5S54246.25
n5=n∗=36∗≈7
hhh
可以确定:样本总量为36个,各层样本量分别为High income: nonOECD 3个、High income: OECD 9个、Low income 10个、Lower middle income 6个、Upper middle income 8个。根据以上结果,我们对214个国家及地区进行分层随机抽样,抽样结果如下:
表2 抽样结果
注:
①由于一些国家及地区相关数据全部或者部分缺失,没有研究的意义,这类个体在最开始就已被剔除,所以数据总体取自214个世界国家及地区,而不是世界全体国家及地区。
②奈曼分配原则是分层随机抽样技术中最优分配方式的一个特例,前提是各层抽样费用都相等,一般记为单位1,此时可根据公式 n=
V+( hWhSh)^2
hWh(Sh^2)
、nh=n∗
WhSh
hWhSh 、V=d^2 u^2 解出样本总量n及各层样
α
本量nh,其中h为各层编号,N为数据总量,Wh为各层层权(即Nh/N),Sh^2、Sh为各层方差和标准差,V为给定的估计量 y 方差的上限。 st
③表中结果均根据214个世界国家及地区2011年的人均GDP数值计算得出。 employers, female unemployment, female
wage and salary workers,female