高考数学抽样方法与总体分布的估计
*第十二章 统计
●网络体系总览
●考点目标定位
1. 了解简单随机抽样、分层抽样及系统抽样的意义,会用它们对简单实际问题进行抽样. 2. 会用样本频率分布估计总体分布. 3. 会用样本估计总体平均值和方差. ●复习方略指南
在本章的复习中,要理解几种抽样方法的区别与联系. 应充分注意一些重要概念的实际意义,理解概率统计中处理问题的基本思想方法,掌握所学的概率统计知识的实际应用.
这部分内容高考命题趋向主要以选择题、填空题为主,重点考查基础知识、基本概念及其简单的应用.
对有关概率统计的应用题要多加关注.
12.1 抽样方法与总体分布的估计
●知识梳理
1. 简单随机抽样:一般地,设一个总体的个体数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.
2. 分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更充分地反映总体的情况,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样.
3. 两种抽样方法的比较(略).
4. 总体:在数理统计中,通常把被研究的对象的全体叫做总体.
5. 频率分布:用样本估计总体,是研究统计问题的基本思想方法,样本中所有数据(或数据组)的频数和样本容量的比,就是该数据的频率. 所有数据(或数据组)的频率的分布变化规律叫做样本的频率分布. 可以用样本频率表、样本频率分布条形图或频率分布直方图来表示.
6. 总体分布:从总体中抽取一个个体,就是一次随机试验,从总体中抽取一个容量为n 的样本,就是进行了n 次试验,试验连同所出现的结果叫随机事件,所有这些事件的概率分布规律称为总体分布.
●点击双基
1. 为调查参加运动会的1000名运动员的年龄情况,从中抽查了100名运动员的年龄,就这个问题来说,下列说法正确的是
A.1000名运动员是总体 B. 每个运动员是个体 C. 抽取的100名运动员是样本 D. 样本容量是100
解析:这个问题我们研究的是运动员的年龄情况. 因此应选D. 答案:D
2. 一个总体中共有10个个体,用简单随机抽样的方法从中抽取一个容量为3的样本,则某特定个体入样的概率是
A.
3
3C 10
B.
3
10⨯9⨯8
C.
3 10
D.
1 10
3
,所以选C. 10
解析:用简单随机抽样法从中抽取,则每个个体被抽到的概率都相同为
答案:C
3. 一个容量为n 的样本,分成若干组,已知某数的频数和频率分别为40、0.125,则n 的值为
A.640 B.320 C.240 D.160
解析:∵
40
=0.125,∴n =320.故选B. n
答案:B
4. 某单位有老年人27人,中年人54人,青年人81人,为了调查他们的健康状况,需从他们中抽取一个容量为36的样本,在简单随机抽样、系统抽样、分层抽样这三种方法中较合适的抽样方法是___________.
解析:要研究的总体里各部分情况差异较大,因此用分层抽样. 答案:分层抽样
那么分数在[100,110)中的频率和分数不满110分的累积频率分别是______________、
_______(精确到0.01).
解析:由频率计算方法知:总人数=45.
分数在[100,110)中的频率为分数不满110分的累积频率为
8
=0.178≈0.18. 45
2+5+6+821
=≈0.47.
4545
答案:0.18 0.47
●典例剖析
【例1】 某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点. 公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②. 则完成①、②这两项调查宜采用的抽样方法依次是
A. 分层抽样法,系统抽样法 B. 分层抽样法,简单随机抽样法 C. 系统抽样法,分层抽样法 D. 简单随机抽样法,分层抽样法
剖析:此题为抽样方法的选取问题. 当总体中个体较多时宜采用系统抽样;当总体中的
个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.
依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法. 故选B. 答案:B
评述:采用什么样的抽样方法要依据研究的总体中的个体情况来定.
【例2】一个总体中有100个个体,随机编号为0,1,2,„,99,依编号顺序平均分成10个小组,组号依次为1,2,3,„,10. 现用系统抽样方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 小组中抽取的号码个位数字与m +k 的个位数字相同. 若m =6,则在第7组中抽取的号码是___________.
剖析:此问题总体中个体的个数较多,因此采用系统抽样. 按题目中要求的规则抽取即可.
∵m =6,k =7,m +k =13,∴在第7小组中抽取的号码是63. 答案:63
评述:当总体中个体个数较多而差异又不大时可采用系统抽样. 采用系统抽样在每小组内抽取时应按规则进行.
【例3】 把容量为100的某个样本数据分为10组,并填写频率分布表,若前七组的累积频率为0.79,而剩下三组的频数成公比大于2的整数等比数列,则剩下三组中频数最高的一组的频数为___________.
剖析:已知前七组的累积频率为0.79,而要研究后三组的问题,因此应先求出后三组的频率之和为1-0.79=0.21,进而求出后三组的共有频数,或者先求前七组共有频数后,再计算后三组的共有频数.
由已知知前七组的累积频数为0.79×100=79,故后三组共有的频数为21,依题意a 1⋅(1-q 3)
=21,a 1(1+q +q 2)=21.∴a 1=1,q =4.∴后三组频数最高的一组的频数为16.
1-q
答案:16
评述:此题剖析只按第二种思路给出了解答,你能按第一种思路来解吗?
(2)画出频率分布直方图和累积频率分布图;
(3)估计电子元件寿命在100~400 h以内的概率; (4)估计电子元件寿命在400 h以上的概率.
剖析:通过本题可掌握总体分布估计的各种方法和步骤.
(2)频率分布直方图如下:
(h )
1. 0. 0. 0. 0.
(3)由累积频率分布图可以看出,寿命在100~400 h内的电子元件出现的频率为0.65,
所以我们估计电子元件寿命在100~400 h内的概率为0.65.
(4)由频率分布表可知,寿命在400 h以上的电子元件出现的频率为0.20+0.15=0.35,故我们估计电子元件寿命在400 h以上的概率为0.35.
评述:画频率分布条形图、直方图时要注意纵、横坐标轴的意义. ●闯关训练 夯实基础
1.
某校为了了解学生的课外阅读情况,随机调查了50名学生,得到他们在某一天各自课外阅读所用时间的数据,结果用下面的条形图表示,根据条形图可得这50名学生这一天平均每人的课外阅读时间为
A.0.6 h B.0.9 h 解析:
C.1.0 h D.1.5 h
5⨯2+10⨯(1+1. 5) +20⨯0. 5
=0.9.
50
答案:B
2. 某单位有职工100人,不到35岁的有45人,35岁到49岁的有25人,剩下的为50岁以上的人,用分层抽样法从中抽取20人,各年龄段分别抽取的人数为
A.7,5,8 B.9,5,6 C.6,5,9 D.8,5,7
解析:45×
201201
=×45=9,25×=5,30×=6.
51005100
答案:B
3. 某单位共有N 个职工,要从N 个职工中采用分层抽样法抽取n 个样本,已知该单位的某一部门有M 个员工,那么从这一部门中抽取的职工数为___________.
Mn
N
4. 下图是容量为100的样本的频率分布直方图,试根据图形中的数据填空: 答案:
(1)样本数据落在范围[6,10)内的频率为___________;
(2)样本数据落在范围[10,14)内的频数为___________; (3)总体在范围[2,6)内的概率约为___________. 答案:(1)0.32 (2)36 (3)0.08
5. 举例说明简单随机抽样和分层抽样两种抽样方法,无论使用哪一种抽样方法,总体中的每一个个体被抽到的概率都相等.
解:袋中有160个小球,其中红球48个,蓝球64个,白球16个,黄球32个,从中抽取20个作为一个样本.
(1)使用简单随机抽样:每个个体被抽到的概率为
201=. 1608
3
×20=6个;蓝球应抽10
(2)使用分层抽样:四种球的个数比为3∶4∶1∶2. 红球应抽
41268241×20=8个;白球应抽×20=2个;黄球应抽×20=4个. 由于====,[**************]
1所以,按颜色区分,每个球被抽到的概率也都是.
8
培养能力
6. 某工厂生产的产品,可分为一等品、二等品、三等品三类,根据抽样检验的记录有一等品54个、二等品140个、三等品6个.
(1)估计三种产品的概率; (2)画出频率分布条形图. 解:(1)0.27,0.7,0.03. (2)频率分布条形图如下
.
7. 有点难度哟!
某县政府机关在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级人事部门为了了解职工对机构改革的意见,要从中抽取一个容量为20的样本,试说明具体实施办法,并证明用这种抽样方法可使总体中每个个体被抽到的概率相等.
解:因机构改革关系到所有人的利益,故采用分层抽样方法较宜.
201111=,∴10×=2,70×=14,20×=4.
5551005
故从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人. 副处级
21141
以上干部被抽到的概率为=,一般干部被抽到的概率为=,工人被抽到的概率为
105705
∵
41201
=,即每个个体被抽到的概率都是=. 2051005
8. 有点难度哟!
从一个养鱼池中捕得m 条鱼,作上记号后再放入池中,数日后又捕得n 条鱼,其中k 条有记号,请估计池中有多少条鱼.
解:设池中有N 条鱼,第一次捕得m 条作上记号后放入水池中,则池中有记号的鱼占第二次捕得n 条,则这n 条鱼是一个样本,其中有记号的鱼占布,令
m
;N
k
. 我们用样本来估计总体分n
k m mn =,∴N =. n N k 探究创新
9. 有点难度哟!
1936年,美国进行总统选举,竞选的是民主党的罗斯福和共和党的兰登,罗斯福是在任的总统.
美国权威的《文学摘要》杂志社,为了预测总统候选人谁能当选,采用了大规模的模拟选举,他们以电话簿上的地址和俱乐部成员名单上的地址发出1000万封信,收到回信200万封,在调查史上,样本容量这么大是少见的,杂志社花费了大量的人力和物力,他们相信自己的调查统计结果,即兰登将以57%对43%的比例获胜,并大力进行宣传.
最后选举结果却是罗斯福以62%对38%的巨大优势获胜,连任总统. 这个调查使《文学摘要》杂志社威信扫地,不久只得关门停刊. 试分析这次调查失败的原因.
解:失败的原因:抽样方法不正确. 样本不是从总体(全体美国公民)中随机地抽取,1936年,美国有私人电话和参加俱乐部的家庭,都是比较富裕的家庭.1929~1933年的世界经济危机,使美国经济遭到沉重打击,“罗斯福新政”动用行政手段干预市场经济,损害了部分富人的利益,但广大的美国人民却从中得到了好处. 所以,从这部分富人中抽取的样本严重偏离了总体,导致样本不具有代表性.
●思悟小结
1. 采用什么抽样方法,要视情况来定:
当总体中的个体较少时,一般可用随机抽样;当总体中的个体较多时,一般可用系统抽样;当总体由差异明显的几部分组成时,一般可用分层抽样.
2. 用样本估计总体,是研究统计问题的一个基本思想方法. 用样本估计总体,本节主要研究在整体上用样本的频率分布估计总体的分布.
●教师下载中心 教学点睛
1. 常用的抽样方法有三种:简单随机抽样、系统抽样、分层抽样,其中第一种是最简单、最基本的抽样方法. 三种抽样方法的共同点:都是等概率抽样,体现了抽样的公平性;三种抽样方法各有其特点和适用的范围.
2. 总体分布反映了总体在各个范围内取值的概率. 当总体中所取不同数值比较少时,常用条形图表示相应样本的频率分布;否则,常用频率分布直方图表示相应样本的频率分布.
3. 系统抽样的步骤:(1)将总体中的个体随机编号;(2)将编号分段;(3)在第1段中用简单随机抽样确定起始的个体编号;(4)按照事先研究的规则抽取样本.
4. 分层抽样的步骤:(1)分层;(2)按比例确定每层抽取个体的个数;(3)各层抽样(方法可以不同);(4)汇合成样本.
5. 解决总体分布估计问题的一般程序如下:(1)先确定分组的组数(最大数据与最小数
频数
据之差除以组距得组数);(2)分别计算各组的频数及频率(频率=);(3)画出频率
总数
分布直方图,并作出相应的估计.
6. 条形图是用其高度表示取各值的频率;直方图是用图形面积的大小表示在各区间内取值的频率;累积频率分布图是一条折线,利用任意两端值的累积频率之差表示样本数据在这两点值之间的频率.
拓展题例
【例1】用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,„,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是___________.
解析:不妨设在第1组中随机抽到的号码为x ,则在第16组中应抽出的号码为120+x . 设第1组抽出的号码为x ,则第16组应抽出的号码是8×15+x =126,∴x =6. 答案:6
【例2】 (2004年苏、锡、常、镇四市模拟题)某单位有职工160名,其中业务人员120名,管理人员16名,后勤人员24名. 为了解职工的某种情况,要从中抽取一个容量为20的样本. 若用分层抽样的方法,抽取的业务人员、管理人员、后勤人员的人数应分别为____________.
解析:分层抽样应按各层所占的比例从总体中抽取. ∵120∶16∶24=15∶2∶3,又共抽出20人,
∴各层抽取人数分别为20×答案:15人、2人、3人
1523=15人,20×=2人,20×=3人. 202020