抽样推断中比例估计的几种方法及比较
理论探索
抽样推断中比例估计的几种方法及比较
抽样推断中比例估计的几种方法及比较
艾小青
内容提要:本文通过比例估计的例子,揭示了不同抽样理念、统计学派以及估计方法在抽样推断中的应用及特点,特别的分析了基于模型的抽样理念下,贝叶斯思想和极大似然思想的应用。本文反映出统计学科中,面对同一个问题有各种不同角度的理解和解决方法。关键词:比例估计;基于模型;贝叶斯方法;极大似然估计
The Methodology and Comparison of Proportion Estimation
in Sampling Reference
Ai Xiaoqing
Abstract:The paper reveals the application of different kinds of sampling ideas, statistical schools, and estimation methods in sampling reference, especially studies the application of bayesian method and maximum likelihood estimation method under the model-based sampling. The paper reflects that in statistics science, comprehensions and solutions of the same problem can be from different standpoints.
Key words:proportion estimation; model-based; Bayesian method; maximum likelihood estimation
作者简介:艾小青(1982年生),湖南人,北京工业大学经管学院讲师,研究方向:应用统计。
1引言
在简单随机抽样下,如何利用样本去估计总体比例,本文通过这个简单的问题,揭示了两大抽样理念“基于设计和基于模型”,两大统计学派“频率学派和贝叶斯学派”和两种主要估计方法“矩估计和极大似然估计”在抽样推断中的应用及特点。
比例相当于目标变量取值为0或1的均值,总体单元数为N ,总体中具有某特征的个数为T ,比例为P=T/N。在样本量为的不放回简单随机抽样下,设样本中具有该特征的个数为t ,样本比例为p=t/n。如何估计总体比例P 呢,这个问题看似简单,却能带来有益的思考和丰富的信息。
本去推断确定总体。
基于模型:存在一个超总体(模型),总体只是超总体的一个实现(模型生成),可见总体取值即是随机的,抽样也是随机的,样本具有双重随机性。在一定的模型假设下,揭示样本单元与非样本单元的联系,再通过样本数据估计(也可以说是预测)非样本数据,进而得到基于模型下的估计。
可见:基于设计的理念认为总体取值是确定的,立足于抽样设计,考察在一定的抽样设计下,如何用随机样本去推断确定总体;基于模型的理念认为总体取值是随机的,立足于总体之上“超总体”的模型假定,考察在一定的模型假定下,如何用得到的量去推断未得的量以及未知的参数。
值得注意的是,两种理念下,估计量本身的内涵就不一样,对估计量期望或方差的解释也不一样。
2相关概念
2. 1抽样中的两种理念
抽样中有两种理念:基于设计和基于模型。基于设计:传统上把总体取值视为固定的,样本是随机的,其随机性是由抽样导致,并用随机样
2.2统计中的两种学派
数理统计有两大学派:频率学派和贝叶斯学派。
抽样推断中比例估计的几种方法及比
较
统计一般是归纳式推断,同样是利用样本推断总体,由于信息不充分(样本只包含了参数的部分信息),做法有分歧也很正常。
频率学派:需要推断的参数未知但固定,样本是随机的,着眼点在样本空间,针对样本的分布。
贝叶斯学派:样本视为固定而参数视为随机,着眼点在参数空间,针对参数的分布,并且遵循的模式为参数的先验分布(主观意义)通过样本信息加入而改进得参数的后验分布。
两种学派建立在各自的逻辑体系上,其优劣难以比较,取决于具体应用的情况。
得:P 1=p ,也有T 1=Np 。
^^
3.2基于设计、频率学派,极大似然估计
样本中具有该特征的个数t 是个随机变量,服从超几何分布:
P (t )=
C T C N-T C N
n
t n-t
,t =0,1,2,…,min (n ,T )。
现在观测到,事件已经发生了。
在不同的T 下,事件t 发生的概率不同。把
P (t )看作关于T 的函数P T (t ),求出T 为何值时,P T (t )达到最大值。
P T (t )=C T C N-T /C T -1C N-(T -1)
T -1()C N C N
=T (N-T+1-n+t),
P T (t )≥P T -1(t )的充要条件是:T (N-T+1-n+t)≥(T-t )
解得:T ≤N +1t 。
(N-T+1)
t
n-t
t
n-t
2.3估计中的两种主要方法
估计有两种主要方法:矩估计和极大似然估计。矩估计的理论根据是大数定律,也联系了最小二乘法的思想,用各阶样本矩估计相应的总体矩(或参数)。
极大似然估计的思想简单而深刻:产生结果(样本特征)的原因(参数)可能有多个,找出最有可能的原因,该参数下,出现该样本特征的概率最大。
极大似然估计一般优于矩估计,其渐进方差最小,但在非参数领域极大似然估计基本不适用。
可见:P T (t )随着T 的增大先增后减,在
T=
3各种情况下的估计
3.1基于设计、频率学派、矩估计
不放回简单随机抽样下,样本比例p 是总体比例P 的无偏估计。
证明:
定义指标值Y i =有:
N +1t 时达到最大值
。≤t 得:T =,≤n
N +1t 相应的P =/N ≈t =p 。≤^2^2
3.3基于设计、贝叶斯学派、矩估计
总体中具有某特征的个数T 有确定的唯一的值,但却是未知的。对于参数T ,在我们的主观判断中,
1具有该特征
不具有
,i =1,2,…, N ,则
服从一定的概率分布。
在只知道总体单元数为N ,没有其他信息的情况下,T 的先验分布为离散均匀分布:
P =T =1ΣY i =;p =t =1
i =1定义示性函数I i =
N
i =1
ΣY =。
i
n
P (T =k )=1,k =0,1,2,…,N 。
这等价于的先验分布也为离散均匀分布:
1在样本中
不在
,i =1,2,…, N 。
I i 为随机变量,在不放回简单随机抽样下,有E (I i )=n ,所以:E ()=E
Y i /n =ΣY i /n =。
N i =1
即:E (p )=P 。
N
k P P ==,k =0,1,2,…,N 。
N +1
注:这不同于[0,1]之间的连续均匀分布。事件S 为“样本中具有该特征的个数为t ”
≈≈
Σ
i =1
ΣI i Y i /n =ΣE (I i )
i =1
N
Σ
N
T=k下,事件S 的概率为P (S|T=k)=
C k C N-k C N
t n-t
,
抽样推断中比例估计的几种方法及比
较
根据全概率公式,事件S 的概率为:
P (S )=ΣP (T=k)P (S|T=k)
k =0
N
则T =ΣY i ;P=T/N
i =1
N
并且,Y i 看作随机变量,独立同分布,服从两点分布:
=Σk =t N +1
N+t-n
C k C N-k C N
n
t n-t
t n-t
=n ΣC k C N-k 。N +1C N k =t
N+t-n
P (Y i =1)=θ;P (Y i =0)=1-θ。
并有:T 服从二项分布T~B(N-θ)
t
n-t
T 的后验分布为:
C C
P (T=k|S)=()()=N+t-nk N-k ,
P (S )t n-t
ΣC k C N-k
k =t
P 的期望为θ。
值得注意的有:
1. Y i 看作随机变量,而不是传统理念中的确定
值。得到的Y i 值只是随机变量的一个实现值。
k =t ,t +1,…,N+t-n
根据后验分布进行推断,以该后验分布的期望作为T 的估计:
N+t-n
=t
E (T|S)=ΣT *P (T |S )=k 2. 模型类型为独立的两点分布,模型参数只有
一个,为θ。
3. 总体比例P ,个数T 不再是基于设计时的参
t
n-t N-k k
ΣkC C
k =t
数,对应Y i 都是随机的。
。
4. 因为总体比例P 的期望为θ,本例中参数θ
的估计也可作为P 的估计。
抽取样本S ,得到样本数据,即得到i ∈S 中随机变量Y i 的值,但得不到i 埸S 中随机变量Y i 的值。
N
ΣC C
k
t n-t N-k
N+t-n^
=t
得:T 3=k N+t-n
ΣkC C
k
k =t
t n-t N-k
ΣC C
k ^
t n-t N-k
T =ΣY i =ΣY i +ΣY i ,
i =1
i ∈S
i 埸S
t
n-t
N+t-n
^
=t
相应的P 3=T /N =k ΣkC k C N-k ΣC C
k =t
k t
n-t N-k
其中ΣY i 已知。
/N 。
i ∈S
ΣY 待估计。
i
i 埸S
从样本S 中得到参数θ的最小二乘估计是
3.4基于设计、贝叶斯学派、极大似然估计
已有:P (T=k|S)=k =t
=ΣY i /n 。i 埸S 中随机变量Y i 的期望都为θ,则
i ∈S
C k C N-k
t
n-t
t n-t
i 埸S 中Y i 的最优线性无偏估计都为=ΣY ii /n =t/n=p 。
i ∈S
ΣC k C N-k
t 取到最大|S ΣΣΣn
k =t ,t +1,…,N+t-n 。
与第二种情况类似,P T=值。
所以:T=ΣY i +(N-n )
^i ∈S
ΣY /n =N ΣY =Np 。
i
i
i ∈S
i ∈S
并且:E (T -T )=0。得:T 5=N p ,相应的P 5=p 。
^
^
N +1t Σn
N +1t 相应的P =/N ≈t =p 。Σ得:T 4=
^
^4
3.6基于模型、频率学派,极大似然估计
样本中有特定的t 个单元具备某特征,有特定的n-t 个单元不具备。
这是已经观测到的事件S 。并有:P (S )=θt (1-θ)时,P (S )=max。
解得:θ=。
n-t
3.5基于模型、频率学派、矩估计
在不放回简单随机抽样下,采用的简单模型是:
。
把P (S )看作关于θ的函数,坠P (S )/坠θ=0
Y i =
≈0
1具有该特征
不具有
,i =1,2,…, N ,
n
抽样推断中比例估计的几种方法及比较
总体比例的期望即为θ。
^
得:P 6=t =p ,相应的T 6=Np 。
n
^
^^
得:P 8=t =p ,相应的T 8=Np 。
4估计结果的比较
两大抽样理念“基于设计和基于模型”,两大统计学派“频率学派和贝叶斯学派”和两种主要估计方法“矩估计和极大似然估计”,共八种情况下对总体比例P 的估计结果见表1:
表1各种方法下对总体比例P 的估计结果3.7基于模型、贝叶斯学派、矩估计
模型为:Y i 独立同分布:
P (Y i =1)=θ;P (Y i =0)=1-θ。
在没有其他信息的情况下,模型参数θ的先验分布为[0,1]之间的连续均匀分布:
θ~R(0,1),即θ的先验分布概率密度为1。
事件S 为“样本中具有该特征的个数为t ”。有:P θ(S )=C n θ(1-θ)根据全概率公式,有:
t t
n-t
。
P (S )=
乙C θ(1-θ)
t t
n
1
n-t
d θ=。
n +1
也可见在先验分布下,t =0,1,2,…,n 共n +
1个取值,每个取值出现的可能性相等,都为。
n +1
根据全概率公式,还有:
其中,n 为样本量,t 为样本中具有某特征的个数,p 为样本比例,p=t/n。
如当N =10、n =5、t =2时,
P (a ≤θ≤b ,S )=
所以,条件概率:
乙
a
b
C n θ(1-θ)
t t n-t
d θ。
p =t/n=0.400;
N+t-n
P (a ≤θ≤b|S )=(a ≤θ≤b ,S )
()=
N +1t
/N =0.400;n n
t
k =t
ΣkC C
k
k =t
t n-t N-k
/N =0.414;
乙乙C θ(1-θ)
a 0
b
C n θ(1-θ)
t t n
t t n-t
d θd θ
t
n-t
=(n +1)C n
乙θ(1-θ)
t a
b
ΣC C
k
t n-t N-k
n-t
d θ
=0.500。n +1
当总体单元数N 较大,样本量n 不太小时,这几个结果近似相等。即有:
如当N =150,n =40、t =18时,
所以,θ的后验分布密度为:
f (θ|S)=(n +1)C n θ(1-θ)
作为θ的估计:
t n-t
。
根据后验分布进行推断,以该后验分布的期望
p =t/n=0.450;N +1t
/N =0.453;n n
N+t-n
E (θ|S)=
乙θf (θ|S)d θ
=(n +1)C 乙θθ
t
1n
1
t
(1-θ)
n-t
d θ=t +1。
k =t ΣkC C
k
k =t
t n-t N-k
这也作为总体比例P 的估计。
^^
得:P 7=t +1,相应的T 7=N t +1。
ΣC C
k
t n-t N-k
/N =0.451;t +1=0.452。
可见,直接用样本比例去估计总体比例,并不是唯一的方法,别的方法也是可行的,每种方法的应用都有其内在的逻辑和原因。
(下转第36页)
n-t
3.8基于模型、贝叶斯学派、极大似然估计
已有:f (θ|S)=(n +1)C n θ(1-θ)
t t
。
类似的,θ=t 时f (θ|S)取到最大值。
独立逆抽样下优势比的置信区
间
从表中可以看到,当r 比较大(≥50) 时,四种方法构造的置信区间都能有比较好的效果,经验的覆盖率接近给定的覆盖率。通常,FT 方法给出的置信区间比较保守,经验覆盖率比选定的覆盖率要大,相应的置信区间长度也较其他三种方法给出的长。对于较小的r ,DM 方法给出的置信区间覆盖率要比选定的概率小,因此,对于小的r ,我们不建议采用DM 方法。FS 对于较小的p ,效果较好,而对较大的p 表现略差。总的来看, 在各种设定下,SA 表现都比较好,鞍点逼近方法给出的置信区间覆盖率接近于事先给定的覆盖率,并且置信区间长度和覆盖率之间有着较好的均衡。特别是对于小r 和小概率p 的情况,鞍点方法要优于其它三个方法。因此对于稀少病例的优势比研究,鞍点方法构造的置信区间是值得考虑的一个选择。
时候也有较好表现。虽然鞍点逼近技术的数学原理比较深刻,但是根据所给的近似公式,其运用却相对比较简便直接。参考文献
[1]Bennet, B.M.. On the use of the negative binomial in epidemi -ology [J]. Biometrics Journal, 1981, 23:69-72.
[2]Daniels ,H. Saddlepoint approximations in statistics [J].
Annals of mathematical statistics, 1954, 4:631-650.
[3]Goutis ,C. and Casella ,G.. Explaining the Saddlepoint
Approximation [J]. 224. [4]Kolassa ,
J.. Series approximation methods in statistics
[M]. New York:Springer, 1997.
(secondedition)
American Statistician, 1999, 3:216-
[5]Liu ,K.-J. Notes on confidence limits for the odds ratio in
case-control studies under inverse sampling [J]. Biometri -cal Journal, 1996, 38:221-229.
[6]Lugannani, R. and Rice ,S. Saddle point approximation for
the distribution of the sum of independent random variables [J]. Advances in Applied Probability, 1980, 12:475-490.
5结论和讨论
本文讨论了逆抽样设计下,优势比置信区间的四个构造方法,并通过模拟比较了四个置信区间的效果。前三个方法形式上比较简单,运用比较直接,但它们都是基于大样本理论,因此在小样本的时候误差较大,而本文提出的鞍点逼近方法在小样本的
(责任编辑:宁红)
≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥
(上接第32页)
有对错,甚至没有绝对的优劣,而主要是方法的合理性、可解释性和适用性。在面对一个看似简单的问题时,也可以有不同角度的理解和解决方法。参考文献
[1]E.L.Lehmann ,点估计理论(第二版)M. 中国统计出版社,
2005年.
[2]金勇进,蒋妍,李序颖. 抽样技术M. 中国人民大学出版
社,2002年.
5结语
本文的意义在于通过一个不失一般性的简单案例,揭示了两大抽样理念“基于设计和基于模型”,两大统计学派“频率学派和贝叶斯学派”和两种主要估计方法“矩估计和极大似然估计”在抽样推断中的应用及特点。
特别的,基于模型的抽样理念下,贝叶斯思想和极大似然思想的具体应用,在已有文献中鲜有讨论。
本文也反映了统计学的一个重要特点:方法没
[3]陈家鼎,郑忠国,概率与统计M. 北京大学出版社,2007
年.
(责任编辑:王锋)