抽样推断中比例估计的几种方法及比较

07-01

理论探索

抽样推断中比例估计的几种方法及比较

艾小青

内容提要：本文通过比例估计的例子，揭示了不同抽样理念、统计学派以及估计方法在抽样推断中的应用及特点，特别的分析了基于模型的抽样理念下，贝叶斯思想和极大似然思想的应用。本文反映出统计学科中，面对同一个问题有各种不同角度的理解和解决方法。关键词：比例估计；基于模型；贝叶斯方法；极大似然估计

The Methodology and Comparison of Proportion Estimation

in Sampling Reference

Ai Xiaoqing

Abstract:The paper reveals the application of different kinds of sampling ideas, statistical schools, and estimation methods in sampling reference, especially studies the application of bayesian method and maximum likelihood estimation method under the model-based sampling. The paper reflects that in statistics science, comprehensions and solutions of the same problem can be from different standpoints.

Key words:proportion estimation; model-based; Bayesian method; maximum likelihood estimation

作者简介：艾小青（1982年生），湖南人，北京工业大学经管学院讲师，研究方向：应用统计。

1引言

在简单随机抽样下，如何利用样本去估计总体比例，本文通过这个简单的问题，揭示了两大抽样理念“基于设计和基于模型”，两大统计学派“频率学派和贝叶斯学派”和两种主要估计方法“矩估计和极大似然估计”在抽样推断中的应用及特点。

比例相当于目标变量取值为0或1的均值，总体单元数为N ，总体中具有某特征的个数为T ，比例为P=T/N。在样本量为的不放回简单随机抽样下，设样本中具有该特征的个数为t ，样本比例为p=t/n。如何估计总体比例P 呢，这个问题看似简单，却能带来有益的思考和丰富的信息。

本去推断确定总体。

基于模型：存在一个超总体（模型），总体只是超总体的一个实现（模型生成），可见总体取值即是随机的，抽样也是随机的，样本具有双重随机性。在一定的模型假设下，揭示样本单元与非样本单元的联系，再通过样本数据估计（也可以说是预测）非样本数据，进而得到基于模型下的估计。

可见：基于设计的理念认为总体取值是确定的，立足于抽样设计，考察在一定的抽样设计下，如何用随机样本去推断确定总体；基于模型的理念认为总体取值是随机的，立足于总体之上“超总体”的模型假定，考察在一定的模型假定下，如何用得到的量去推断未得的量以及未知的参数。

值得注意的是，两种理念下，估计量本身的内涵就不一样，对估计量期望或方差的解释也不一样。

2相关概念

2. 1抽样中的两种理念

抽样中有两种理念：基于设计和基于模型。基于设计：传统上把总体取值视为固定的，样本是随机的，其随机性是由抽样导致，并用随机样

2.2统计中的两种学派

数理统计有两大学派：频率学派和贝叶斯学派。

抽样推断中比例估计的几种方法及比

较

统计一般是归纳式推断，同样是利用样本推断总体，由于信息不充分（样本只包含了参数的部分信息），做法有分歧也很正常。

频率学派：需要推断的参数未知但固定，样本是随机的，着眼点在样本空间，针对样本的分布。

贝叶斯学派：样本视为固定而参数视为随机，着眼点在参数空间，针对参数的分布，并且遵循的模式为参数的先验分布（主观意义）通过样本信息加入而改进得参数的后验分布。

两种学派建立在各自的逻辑体系上，其优劣难以比较，取决于具体应用的情况。

得：P 1=p ，也有T 1=Np 。

＾＾

3.2基于设计、频率学派，极大似然估计

样本中具有该特征的个数t 是个随机变量，服从超几何分布：

P （t ）=

C T C N-T C N

t n-t

，t =0，1，2，…，min （n ，T ）。

现在观测到，事件已经发生了。

在不同的T 下，事件t 发生的概率不同。把

P （t ）看作关于T 的函数P T （t ），求出T 为何值时，P T （t ）达到最大值。

P T （t ）=C T C N-T /C T -1C N-（T －1）

T -1（）C N C N

＝T （N－T＋1－n+t），

P T （t ）≥P T -1（t ）的充要条件是：T （N－T＋1－n+t）≥（T－t ）

解得：T ≤N ＋1t 。

（N－T＋1）

n-t

2.3估计中的两种主要方法

估计有两种主要方法：矩估计和极大似然估计。矩估计的理论根据是大数定律，也联系了最小二乘法的思想，用各阶样本矩估计相应的总体矩（或参数）。

极大似然估计的思想简单而深刻：产生结果（样本特征）的原因（参数）可能有多个，找出最有可能的原因，该参数下，出现该样本特征的概率最大。

极大似然估计一般优于矩估计，其渐进方差最小，但在非参数领域极大似然估计基本不适用。

可见：P T （t ）随着T 的增大先增后减，在

3各种情况下的估计

3.1基于设计、频率学派、矩估计

不放回简单随机抽样下，样本比例p 是总体比例P 的无偏估计。

证明：

定义指标值Y i =有：

N ＋1t 时达到最大值

。≤t 得：T =，≤n

N ＋1t 相应的P =/N ≈t =p 。≤＾2＾2

3．3基于设计、贝叶斯学派、矩估计

总体中具有某特征的个数T 有确定的唯一的值，但却是未知的。对于参数T ，在我们的主观判断中，

1具有该特征

不具有

，i =1,2,…, N ，则

服从一定的概率分布。

在只知道总体单元数为N ，没有其他信息的情况下，T 的先验分布为离散均匀分布：

P =T =1ΣY i =；p =t =1

i =1定义示性函数I i =

i =1

ΣY =。

P （T ＝k ）=1，k ＝0，1，2，…，N 。

这等价于的先验分布也为离散均匀分布：

1在样本中

不在

，i =1,2,…, N 。

I i 为随机变量，在不放回简单随机抽样下，有E （I i ）=n ，所以：E （）=E

Y i /n =ΣY i /n =。

N i =1

即：E （p ）=P 。

k P P ==，k ＝0，1，2，…，N 。

N ＋1

注：这不同于[0，1]之间的连续均匀分布。事件S 为“样本中具有该特征的个数为t ”

≈≈

i =1

ΣI i Y i /n =ΣE （I i ）

i =1

T=k下，事件S 的概率为P （S|T=k）=

C k C N-k C N

t n-t

，

抽样推断中比例估计的几种方法及比

较

根据全概率公式，事件S 的概率为：

P （S ）＝ΣP （T=k）P （S|T=k）

k =0

则T =ΣY i ；P=T/N

i =1

并且，Y i 看作随机变量，独立同分布，服从两点分布：

=Σk =t N ＋1

N+t-n

C k C N-k C N

t n-t

=n ΣC k C N-k 。N ＋1C N k =t

N+t-n

P （Y i ＝1）＝θ；P （Y i ＝0）＝1－θ。

并有：T 服从二项分布T～B（N-θ）

n-t

T 的后验分布为：

C C

P （T=k|S）=（）（）=N+t-nk N-k ，

P （S ）t n-t

ΣC k C N-k

k =t

P 的期望为θ。

值得注意的有：

1. Y i 看作随机变量，而不是传统理念中的确定

值。得到的Y i 值只是随机变量的一个实现值。

k =t ，t +1，…，N＋t-n

根据后验分布进行推断，以该后验分布的期望作为T 的估计：

N+t-n

E （T|S）＝ΣT *P （T |S ）=k 2. 模型类型为独立的两点分布，模型参数只有

一个，为θ。

3. 总体比例P ，个数T 不再是基于设计时的参

n-t N-k k

ΣkC C

k =t

数，对应Y i 都是随机的。

。

4. 因为总体比例P 的期望为θ，本例中参数θ

的估计也可作为P 的估计。

抽取样本S ，得到样本数据，即得到i ∈S 中随机变量Y i 的值，但得不到i 埸S 中随机变量Y i 的值。

ΣC C

t n-t N-k

N+t-n＾

得：T 3=k N+t-n

ΣkC C

k =t

t n-t N-k

ΣC C

k ＾

t n-t N-k

T =ΣY i =ΣY i +ΣY i ，

i =1

i ∈S

i 埸S

n-t

N+t-n

＾

相应的P 3=T /N =k ΣkC k C N-k ΣC C

k =t

k t

n-t N-k

其中ΣY i 已知。

/N 。

i ∈S

ΣY 待估计。

i 埸S

从样本S 中得到参数θ的最小二乘估计是

3．4基于设计、贝叶斯学派、极大似然估计

已有：P （T=k|S）=k =t

=ΣY i /n 。i 埸S 中随机变量Y i 的期望都为θ，则

i ∈S

C k C N-k

n-t

t n-t

i 埸S 中Y i 的最优线性无偏估计都为=ΣY ii /n =t/n=p 。

i ∈S

ΣC k C N-k

t 取到最大|S ΣΣΣn

k =t ，t +1，…，N＋t-n 。

与第二种情况类似，P T＝值。

所以：T=ΣY i +（N-n ）

＾i ∈S

ΣY /n =N ΣY =Np 。

i ∈S

并且：E （T －T ）＝0。得：T 5＝N p ，相应的P 5＝p 。

＾

N ＋1t Σn

N ＋1t 相应的P =/N ≈t =p 。Σ得：T 4=

＾

＾4

3.6基于模型、频率学派，极大似然估计

样本中有特定的t 个单元具备某特征，有特定的n-t 个单元不具备。

这是已经观测到的事件S 。并有：P （S ）=θt （1－θ）时，P （S ）=max。

解得：θ=。

n-t

3.5基于模型、频率学派、矩估计

在不放回简单随机抽样下，采用的简单模型是：

。

把P （S ）看作关于θ的函数，坠P （S ）/坠θ=0

Y i =

≈0

1具有该特征

不具有

，i =1,2,…, N ，

抽样推断中比例估计的几种方法及比较

总体比例的期望即为θ。

＾

得：P 6=t =p ，相应的T 6=Np 。

＾

＾＾

得：P 8=t =p ，相应的T 8=Np 。

4估计结果的比较

两大抽样理念“基于设计和基于模型”，两大统计学派“频率学派和贝叶斯学派”和两种主要估计方法“矩估计和极大似然估计”，共八种情况下对总体比例P 的估计结果见表1：

表1各种方法下对总体比例P 的估计结果3.7基于模型、贝叶斯学派、矩估计

模型为：Y i 独立同分布：

P （Y i ＝1）＝θ；P （Y i ＝0）＝1－θ。

在没有其他信息的情况下，模型参数θ的先验分布为［0，1］之间的连续均匀分布：

θ～R（0，1），即θ的先验分布概率密度为1。

事件S 为“样本中具有该特征的个数为t ”。有：P θ（S ）＝C n θ（1－θ）根据全概率公式，有：

t t

n-t

。

P （S ）=

乙C θ（1－θ）

t t

n-t

d θ=。

n +1

也可见在先验分布下，t =0，1，2，…，n 共n ＋

1个取值，每个取值出现的可能性相等，都为。

n +1

根据全概率公式，还有：

其中，n 为样本量，t 为样本中具有某特征的个数，p 为样本比例，p=t/n。

如当N =10、n =5、t =2时，

P （a ≤θ≤b ，S ）＝

所以，条件概率：

乙

C n θ（1－θ）

t t n-t

d θ。

p =t/n=0.400；

N+t-n

P （a ≤θ≤b|S ）=（a ≤θ≤b ，S ）

（）＝

N ＋1t

/N =0.400；n n

k =t

ΣkC C

k =t

t n-t N-k

/N =0.414；

乙乙C θ（1－θ）

a 0

C n θ（1－θ）

t t n

t t n-t

d θd θ

n-t

=（n +1）C n

乙θ（1－θ）

t a

ΣC C

t n-t N-k

n-t

d θ

=0.500。n +1

当总体单元数N 较大，样本量n 不太小时，这几个结果近似相等。即有：

如当N =150，n =40、t =18时，

所以，θ的后验分布密度为：

f （θ｜S）＝（n +1）C n θ（1－θ）

作为θ的估计：

t n-t

。

根据后验分布进行推断，以该后验分布的期望

p =t/n=0.450；N ＋1t

/N =0.453；n n

N+t-n

E （θ｜S）=

乙θf （θ｜S）d θ

=（n +1）C 乙θθ

（1－θ）

n-t

d θ=t +1。

k =t ΣkC C

k =t

t n-t N-k

这也作为总体比例P 的估计。

＾＾

得：P 7=t +1，相应的T 7=N t +1。

ΣC C

t n-t N-k

/N =0.451；t ＋1=0.452。

可见，直接用样本比例去估计总体比例，并不是唯一的方法，别的方法也是可行的，每种方法的应用都有其内在的逻辑和原因。

（下转第36页）

n-t

3.8基于模型、贝叶斯学派、极大似然估计

已有：f （θ｜S）＝（n +1）C n θ（1－θ）

t t

。

类似的，θ=t 时f （θ｜S）取到最大值。

独立逆抽样下优势比的置信区

间

从表中可以看到，当r 比较大(≥50) 时，四种方法构造的置信区间都能有比较好的效果，经验的覆盖率接近给定的覆盖率。通常，FT 方法给出的置信区间比较保守，经验覆盖率比选定的覆盖率要大，相应的置信区间长度也较其他三种方法给出的长。对于较小的r ，DM 方法给出的置信区间覆盖率要比选定的概率小，因此，对于小的r ，我们不建议采用DM 方法。FS 对于较小的p ，效果较好，而对较大的p 表现略差。总的来看, 在各种设定下，SA 表现都比较好，鞍点逼近方法给出的置信区间覆盖率接近于事先给定的覆盖率，并且置信区间长度和覆盖率之间有着较好的均衡。特别是对于小r 和小概率p 的情况，鞍点方法要优于其它三个方法。因此对于稀少病例的优势比研究，鞍点方法构造的置信区间是值得考虑的一个选择。

时候也有较好表现。虽然鞍点逼近技术的数学原理比较深刻，但是根据所给的近似公式，其运用却相对比较简便直接。参考文献

[1]Bennet, B.M.. On the use of the negative binomial in epidemi -ology [J]. Biometrics Journal, 1981, 23:69-72.

[2]Daniels ，H. Saddlepoint approximations in statistics [J].

Annals of mathematical statistics, 1954, 4:631-650.

[3]Goutis ，C. and Casella ，G.. Explaining the Saddlepoint

Approximation [J]. 224. [4]Kolassa ，

J.. Series approximation methods in statistics

[M]. New York:Springer, 1997.

(secondedition)

American Statistician, 1999, 3:216-

[5]Liu ，K.-J. Notes on confidence limits for the odds ratio in

case-control studies under inverse sampling [J]. Biometri -cal Journal, 1996, 38:221-229.

[6]Lugannani, R. and Rice ，S. Saddle point approximation for

the distribution of the sum of independent random variables [J]. Advances in Applied Probability, 1980, 12:475-490.

5结论和讨论

本文讨论了逆抽样设计下，优势比置信区间的四个构造方法，并通过模拟比较了四个置信区间的效果。前三个方法形式上比较简单，运用比较直接，但它们都是基于大样本理论，因此在小样本的时候误差较大，而本文提出的鞍点逼近方法在小样本的

（责任编辑：宁红）

≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥≥

（上接第32页）

有对错，甚至没有绝对的优劣，而主要是方法的合理性、可解释性和适用性。在面对一个看似简单的问题时，也可以有不同角度的理解和解决方法。参考文献

[1]E.L.Lehmann ，点估计理论（第二版）M. 中国统计出版社，

2005年.

[2]金勇进，蒋妍，李序颖. 抽样技术M. 中国人民大学出版

社，2002年.

5结语

本文的意义在于通过一个不失一般性的简单案例，揭示了两大抽样理念“基于设计和基于模型”，两大统计学派“频率学派和贝叶斯学派”和两种主要估计方法“矩估计和极大似然估计”在抽样推断中的应用及特点。

特别的，基于模型的抽样理念下，贝叶斯思想和极大似然思想的具体应用，在已有文献中鲜有讨论。

本文也反映了统计学的一个重要特点：方法没

[3]陈家鼎，郑忠国，概率与统计M. 北京大学出版社，2007

年.

（责任编辑：王锋）

与《抽样推断中比例估计的几种方法及比较》相关的范文

11-14 二年级数学试卷分析

二年级数学试卷分析一、基本情况： 20XX年秋期期末考试，我镇实行学生单人单桌（前后、左右距离不少于70厘米，每个试室不超过40人，各学校交叉监考。各校的教导主任为主考。试卷装订一般20份一本（至少有五间学校的试卷），统一编码，集中到中心小学进行流水评卷。从试卷收发、考试、评卷到登分、统分，都是十分严格的。本次期末考试，二年级数学科考生人数为人，参考率为100，总分，平均分为分，及格率人数 ...

05-01 职院生源扩招推广方案

职院生源扩招推广方案序言近年随着国家政策鼓励提高国民整体的素质，各大高校积极响应，扩大生源这一举措也得到深入发展。市场需求的不断变化，各大院校根据不同的需求调整了各自的品牌专业以及扩大生源的招生比例。由于社会分工日益明显，新的需求动态变化，新的专业设立成为各大高校竞争生源的重点。中国电信旗下的实业--xx职业技术学院，成立于1959年，并且多次和xx邮电学院合作开设了特色专业，迎合了市场的需 ...

05-21 九年级化学一诊试卷分析

从学生一诊答卷中的错误想到的西三中谭波这次“一诊”化学试卷是依据《新课程标准》所编制的，与《20XX年考试说明》对比不难看出，“一诊”化学试题坚持以新课程改革的基本理念为指导，命题注重考察了初中化学知识的全面性、学科性、基础性、方向性、时代性、灵活性和开放性，以充分锻炼学生的分析能力。这与上期期末化学试题相比难度略有上升，具体表现为：“送分题”约只有15%左右；“选拔题”约占10%左右；其余大 ...

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

06-14 药品质量抽验工作方案

为保证我区市场药品质量，保障公众用药安全有效，根据《市药品、医疗器械和药用包装材料质量抽验程序》以及市食品药品监督管理局关于《年市药品、医疗器械和药包材质量抽验计划的通知》的要求，结合我区药品质量监控的实际情况，特拟定区年度药品质量抽验实施方案，计划如下：一、抽验原则：遵循客观、公正、科学、合理的原则。今年重点加强药品生产企业、质量薄弱环节和重点品种抽样的针对性，切实提高发现药品存在质量隐患的 ...

05-06 质量控制实习报告范文

质量控制实习报告步入镇达，感到一种大气，非凡的气势。大堂中央‘诚信，卓越，合群’六个大字充分阐释了企业的核心文化。统一着装，佩戴员工证件，正式，规范。‘优秀企业单位，荣誉企业，一块块牌匾，使得企业更具王者风范。我所在的部门是Qc部，即Qualitycontrol，质量控制。在经历的安排，引导下来到QA部培训（镇达所有后勤Qc刚进公司，都必须在QA部培训，一份份受控文件，一叠叠资料都需要我去学习 ...

01-27 七年级上数学教学计划

　　一、学生情况分析　　本期自己担任七年级（初中20xx级）数学，该班共有学生46人。七年级学生往往延用小学的学习方法，死记硬背，这样既没读懂弄透，又使其自学能力和实际应用能力得不到很好的训练，要重视对学生的读法指导。七年级学生往往对课程增多、课堂学习容量加大不适应，顾此失彼，精力分散，使听课效率下降，要重视听法的指导。学习离不开思维，善思则学得活，效率高，不善思则学得死，效果差。七年级学生常常 ...

09-10 统计工作年度计划

年，区统计局将根据新形势、新任务对统计工作提出的要求，为落实科学发展观提供统计保障，用数据说话，为决策服务，不断创新统计观念、统计组织、统计制度、统计方法和统计手段，努力开创统计工作新局面，着力抓好以下八个方面工作。一、能源消耗统计工作。加强能源统计基础工作，提高源头统计数据质量。加强对能耗大户统计跟踪监测，建立企业分品种能耗统计台帐和镇、村分级能耗统计台帐。建立能耗统计数据库，开展能源统计工作 ...

04-30 高一下学期数学教学计划

一、上学期教学回顾高一共四个教学班，共计160余人。杨文国带高一（一）班，高一（二）班；张忠杰带高一(三)班和高一（四）班。其中各班期末八校联考的成绩分别为：50.6分，32.8分，27.2分，34.5分，总平36.9分。学期中途因张忠杰离开学校导致频繁更换老师，（三）班、（四）班的成绩因而受到影响。期末由王山任（三）班、(四)班的数学老师。上学期工作在学生学习的落实环节上做得不太扎实，这将是 ...

随机推荐

猜你喜欢

抽样推断中比例估计的几种方法及比较

·致运动会

·2009年区政务服务中心工作总结和2010年工作要点

·护理专业在校鉴定

·感恩节的作文600字

·冬日阳光下

·企业社会责任与企业财务绩效关系的分析

·美国电影:[偷情许可证]

·2014-2015(二)光纤通信期末考试A卷

·[党章]演变的历史逻辑

·玻璃幕墙工程施工操作规程及质量要求

·市劳教所基层委员会党员大会上的报告

·在广告公司的暑假实践报告

·2012年竞选班长演讲稿

·义务教育阶段教师课堂教学达标晋级活动实施方案

·"八一"演讲稿

·印度总理称印经济增长好于中国港媒:简直笑话|印度经济

·应该大力提倡"第二种忠诚"

·小谈驻波比VSWR的意义

·我国的汽车安全法规及碰撞安全技术

·冒顶处理报告

抽样推断中比例估计的几种方法及比较

与《抽样推断中比例估计的几种方法及比较》相关的范文

·致运动会

·2009年区政务服务中心工作总结和2010年工作要点

·护理专业在校鉴定

·感恩节的作文600字

·冬日阳光下

·企业社会责任与企业财务绩效关系的分析

·美国电影:[偷情许可证]

·2014-2015(二)光纤通信期末考试A卷

·[党章]演变的历史逻辑

·玻璃幕墙工程施工操作规程及质量要求

·市劳教所基层委员会党员大会上的报告

·在广告公司的暑假实践报告

·2012年竞选班长演讲稿

·义务教育阶段教师课堂教学达标晋级活动实施方案

·"八一"演讲稿

·印度总理称印经济增长好于中国 港媒:简直笑话|印度经济

·应该大力提倡"第二种忠诚"

·小谈驻波比VSWR的意义

·我国的汽车安全法规及碰撞安全技术

·冒顶处理报告

·印度总理称印经济增长好于中国港媒:简直笑话|印度经济