高中必修三统计知识点整理
高中数学必修3知识点总结
第二章 统计
2.1.1 简单随机抽样
1.简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。 2.简单随机抽样常用的方法:
(1)抽签法;⑵随机数表法;⑶计算机模拟法;⑷使用统计软件直接抽取。
在简单随机抽样的样本容量设计中,主要考虑:①总体变异情况;②允许误差范围;③概率保证程度。
3.抽签法:
(1)给调查对象群体中的每一个对象编号; (2)准备抽签的工具,实施抽签
(3)对样本中的每一个个体进行测量或调查
例:请调查你所在的学校的学生做喜欢的体育活动情况。 4.随机数表法:
例:利用随机数表在所在的班级中抽取10位同学参加某项活动。
2.1.2系统抽样
1.系统抽样(等距抽样或机械抽样):
把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的办法抽取。
K(抽样距离)=N(总体规模)/n(样本规模)
前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。
2.系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较简单。更为重要的是,如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估计精度。
2.1.3分层抽样
1.分层抽样(类型抽样):
先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。
两种方法:
1.先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。
2.先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。 2.分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有的样本进而代表总体。
分层标准:
(1)以调查所要分析和研究的主要变量或相关的变量作为分层的标准。
(2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。 (3)以那些有明显分层区分的变量作为分层变量。 3.分层的比例问题:
(1)按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。
(2)不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样本中各层的比例,使数据恢复到总体中各层实际的比例结构。
例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请 用抽签法和随机数表法设计抽样方案. 解 抽签法:
第一步:将18名志愿者编号,编号为1,2,3,„,18.
第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号; 第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:
第一步:将18名志愿者编号,编号为01,02,03,„,18.
第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;
第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.
第四步:找出以上号码对应的志愿者,就是志愿小组的成员.
例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000.
1000
(4)分段,取间隔k=10=100将总体均分为10段,每段含100个工人.
(5)从第一段即为0001号到0100号中随机抽取一个号l.
(6)按编号将l,100+l,200+l,„,900+l共10个号码选出,这10个号码所对应的工人组成样本.
例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人 的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程. 解 应采取分层抽样的方法. 过程如下:
(1)将3万人分为五层,其中一个乡镇为一层.
(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 32
300×15=60(人);300×15=40(人); 52
300×15=100(人);300×15=40(人); 3
300×15=60(人),
因此各乡镇抽取人数分别为60人,40人,100人,40人,60人. (3)将300人组到一起即得到一个样本.
2.2.2用样本的数字特征估计总体的数字特征
1、本均值:x
=
x1+x2+ +xn
n
2
(x1-x)2+(x2-x)2+ +(xn-x)2
2、.样本标准差:s=s=
n
3.用样本估计总体时,如果抽样的方法比较合理,那么样本可以反映总体的信息,但从样本得到的信息会有偏差。在随机抽样中,这种偏差是不可避免的。虽然我们用样本数据得到的分布、均值和标准差并不是总体的真正的分布、均值和标准差,而只是一个估计,但这种估计是合理的,特别是当样本量很大时,它们确实反映了总体的信息。 4.(1)如果把一组数据中的每一个数据都加上或减去同一个共同的常数,标准差不变. (2)如果把一组数据中的每一个数据乘以一个共同的常数k,标准差变为原来的k倍.
(3)一组数据中的最大值和最小值对标准差的影响,区间(x-3s,x+3s)的应用;“去掉一个最高分,去掉一个最低分”中的科学道理.
例1 为了解A,B两种轮胎的性能,某汽车制造厂分别从这两种轮胎中随机抽取了8个进行测试,下面列出了每一个轮胎行驶的最远里程数(单位:1 000 km) 轮胎A 96, 112, 97, 108, 100, 103, 86, 98 轮胎B 108, 101, 94, 105, 96, 93, 97, 106 (1)分别计算A,B两种轮胎行驶的最远里程的平均数,中位数; (2)分别计算A,B两种轮胎行驶的最远里程的极差、标准差; (3)根据以上数据你认为哪种型号的轮胎性能更加稳定? 解 (1)A轮胎行驶的最远里程的平均数为: 96+112+97+108+100+103+86+98
8
=100,
中位数为:
100+98
2
=99; B轮胎行驶的最远里程的平均数为: 108+101+94+105+96+93+97+106
8=100,
中位数为:101+97
2
=99.
(2)A轮胎行驶的最远里程的极差为:112-86=26, 标准差为: 2s=
4+122+32+82+0+32+142+22
=
221
8
2
≈7.43; B轮胎行驶的最远里程的极差为:108-93=15, 标准差为:
82+12+62+52+42+72+32s= +628=2
≈5.43.
(3)由于A和B的最远行驶里程的平均数相同,而B轮胎行驶的最远里程的极差和标准差较小,所以B轮胎性能更加稳定.
例2(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98, 99; 乙:110, 115,
90,
85,
75,
115,
110.
(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;
(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样.
(2)茎叶图如下:
(3)甲车间: 平均值: 1=
1
(102+101+99+98+103+98+99)=100, 7
2
方差:s1=乙车间:
1222
[(102-100)+(101-100)+„+(99-100)]≈3.428 6. 7
平均值:2=方差:s2=
2
1
(110+115+90+85+75+115+110)=100, 7
1222
[(110-100)+(115-100)+„+(110-100)]≈228.571 4. 7
2
2
∵1=2,s1<s2,∴甲车间产品稳定.
2.3.2两个变量的线性相关
1、概念:
(1)回归直线方程 (2)回归系数 2.最小二乘法 3.直线回归方程的应用
(1)描述两变量之间的依存关系;利用直线回归方程即可定量描述两个变量间依存的数量关系
(2)利用回归方程进行预测;把预报因子(即自变量x)代入回归方程对预报量(即因变量Y)进行估计,即可得到
个体Y值的容许区间。
(3)利用回归方程进行统计控制规定Y值的变化,通过控制x的范围来实现统计控制的目标。如已经得到了空气中
NO2的浓度和汽车流量间的回归方程,即可通过控制汽车流量来控制空气中NO2的浓度。
4.应用直线回归的注意事项
(1)做回归分析要有实际意义; (2)回归分析前,最好先作出散点图; (3)回归直线不要外延。 5. 回归直线方程的推导
设x与y是具有线性相关关系的两个变量,且相应于样本的一组观测值的n个点的坐标分别是:
(x1,y1),(x2,y2),(x3,y3),
设所求的回归方程为
,(xn,yn),下面给出回归方程的推导。
ˆ=bx+a,其中a,b是待确定的参数,那么: y
ˆi=bxi+ai=1y,23,,,(
n)
,
样本中各个点的偏差是
ˆi=yi-(bxi+a)i=1yi-y,23,,,(
n)
显然,上面的各个偏差的符号有正、有负,如果将他们相加会相互抵消一部分,,因此他们的和不能代表n个点与回归直线在
整体上的接近程度,而是采用n个偏差的平方和
Q来表示n个点与相应直线(回归直线)在整体上的接近程度。
Q=∑nˆn
(yi-y
2
i)=-bxi-a)2即
i=1
∑(yii=1
22=(y1-bx1-a)+(y2-bx2-a)+(y2
3-bx3-a)++(yn-bxn-a)2
求出当
Q取最小值时的a,b的值,就求出了回归方程。
(一) 先证明两个在变形中用到的公式:
nx2
n
i-x)=2
x=
x1+x2+
+xn
公式(1)
∑(=1
∑x2i-nx
ii=1
其中
n
n
(x-x)
2
i
=(x1-x)2+(x2-x)2+
+(xn-x)2
因为
∑i=1
x2+x22(x1+x2+
2
2=
12++xn-2nx
+xn)
n
+nx
=
(x21+x2+
+x2n)-2nx+nx
2
n
2
2
n
2
n
nx
2
=(x21
+x22++x2nx
i-x)=n)-nx=∑xi-i=1
所以
∑(xi=1
∑x2i-i=1
n
n
i
)(yi
-y)=ii
公式(2)
∑(x-x∑xy-nxy
i=1
i=1
n
(xi
-x)(yi
-y)=(x1
-x)(y
1
-y)+(x2-x)(y2-y)++(xn-x)(yn-y)
因为
∑i=1
=
(x1y1+x2y2++xnyn)-(x1y+y1x+x2y+y2x+
+xny+ynx)+nxy
n
xiyi
-[(x1
+x
2
+xn)y+(y1+y2++yn)x]+nxy
=
∑i=1
n
x(x1+x2+xn)n)
iyi-n[
y+(y1+y2
+
+yx]+nxy
=
∑i=1nn
∑n
n
n
n
xiyi
-2nxy+nxyxi
-x)(yi
-y)=ii
y
=
∑xiyi
-nxy
i=1
=
i=1
所以
∑(i=1
∑xy-nxi=1
(二)推导:将Q的表达式的各项先展开,再合并、变形
Q=(y1-bx1-a)2+(y2-bx2-a)2+(y3-bx3-a)2+
+(yn-bxn-a)2
=(y12+y22+
+yn2)-[2y1(bx1+a)+2y2(bx2+a)+
+(bxn+a)2]
2
+2yn(bxn+a)]
-----展开
+[(bx1+a)2+(bx2+a)2+
n
2
n
n
=∑yi-2b∑xiyi-2a∑yi+b
i=1
i=1n
i=1
∑x
i=1
2
n
2
i
+2ab∑xi+na2
i=1
n
-----以a,b为同类项,合并
=na-2na(
2
∑y
i=1
i
n
-b
∑x
i=1
n
i
n
2n
)+b
2
∑x
i=1
n
i
-2b∑xiyi+∑yi2
i=1
i=1
nn
--以a,b的次数为标准整理
=na-2na(y-bx)+b
2
∑x
i=1
2
i
-2b∑xiyi+∑yi2 --将数据转化为平均数x,y
i=1n
i=1
2
nn
=n[a-(y-bx)]-n(y-bx)+b
2
22
∑x
i=1
2
2
i
-2b∑xiyi+∑yi2 ---配方法
i=1n
i=1
2
nn
=n[a-(y-bx)]-ny+2nbxy-nbx+b
n
2
n
2
2
∑x
i=1
2
i
-2b∑xiyi+∑yi2 ---展开
i=1
i=1
n
2
nn
=n[a-(y-bx)]+b(∑xi-nx)-2b(∑xiyi-nxy)+(∑yi2-ny) ---整理
2
2
2i=1
i=1
i=1n
=n[a-(y-bx)]+b
22
∑(x-x)
i
i=1
n
2
-2b∑(xi-x)(yi-y)+∑(yi-y)2
i=1
i=1
n
-----用公式(一)、(二)变形
n
=n[a-(y-bx)]+∑(xi-x)[b-2b
2
2
2
i=1
∑(x-x)(y-y)
i
i
i=1
n
∑(x-x)
i
i=1i
i
n
2
]+∑(yi-y)2 ---配方
i=1
n
=n[a-(y-bx)]+∑(xi-x)[b-
2
2
i=1
n
∑(x-x)(y-y)
i=1
n
∑(x-x)
i
i=1
n
]-
2
[∑(xi-x)(yi-y)]2
i=1
n
2
∑(x-x)
i
i=1
n
2
+∑(yi-y)2
i=1
n
在上式中,共有四项,后两项与a,b无关,为常数;前两项是两个非负数的和,因此要使得Q区的最小值,当且仅当前两项的值都为0。所以
a=y-bxb=
a=y-bx
i
∑(x-x)(y-y) 或
i
i=1
n
∑(x-x)
i
i=1
n
b=
∑xy-nxy ------用公式(一)、(二)变形得
ii
i=1
n
n
2
∑x
i=1
2
i
-nx
(三)总结规律:
上述推倒过程是围绕着待定参数a,b进行的,只含有xi,yi的部分是常数或系数,用到的方法有(1)配方法,有两次配方,分别是a的二次三项式和b的二次三项式;(2)变形时,用到公式(一)、(二)和整体思想;(3)用平方的非负性求最小值。(4)实际计算时,通常是分步计算:先求出x,y,再分别计算
∑(x-x)(y-y), ∑(x-x)
i
i
i
i=1
i=1
nn
2
或
∑xy-nxy,∑x
ii
i=1
i=1
nn
2
i
-nx的值,最后就可以计算出a,b的值。
6.相关系数r
统计中常用相关系数r来衡量两个变量之间的线性相关的强弱,当xi不全为零,yi也不全为零时,则两个变量的相关系数的计算公式是:
n
n
r=
∑(x
i
-x)(yi-y)
=
∑xy
ii
-nxy
r就叫做变量y与x的相关系数(简称相关系数).
说明:(1)对于相关系数r,首先值得注意的是它的符号,当r为正数时,表示变量x,y正相关;当r为负数时,表示两个变量x,y负相关;
,-0.75],那么负相关很强; (2)另外注意r的大小,如果r∈[0.751],那么正相关很强;如果r∈[-1,-0.30]或r∈[0.30,0.75),那么相关性一般;如果r∈[-0.25,0.25],那么相关性较弱. 如果r∈(-0.75,
例1
(1)对变量y与x进行相关性检验;
(2)如果y与x之间具有线性相关关系,求回归直线方程; (3)如果父亲的身高为73英寸,估计儿子身高.
解:(1)x=66.8,y=67,∑x=44794,∑yi2=44929.22,xy=4475.6,x=4462.24,
2
ii=1
i=1
10
10
2
y=4489,∑xiyi=44836.4,
i=1
2
10
所以r=
∑xy
i10
i
-nxy
==
44836.4-10⨯4475.6
(44794-44622.4)(44929.22-44890)≈
80.4
≈0.98, 82.04
10
所以y与x之间具有线性相关关系. (2)设回归直线方程为y=a+bx,则b=
∑xy
ii=110
i
-10xy-10x
2
=
∑x
i=1
2i
44836.4-44756
≈0.4685,
44794-44622.4
a=y-bx=67-0.4685⨯66.8=35.7042.
故所求的回归直线方程为y=0.4685x+35.7042.
(3)当x=73英寸时,y=0.4685⨯73+35.7042=69.9047, 所以当父亲身高为73英寸时,估计儿子的身高约为69.9英寸.
点评:回归直线是对两个变量线性相关关系的定量描述,利用回归直线,可以对一些实际问题进行分析、预测,由一个变量的变化可以推测出另一个变量的变化.这是此类问题常见题型. 例2 10
其中x为高一数学成绩,y为高二数学成绩. (1)y与x是否具有相关关系;
(2)如果y与x是相关关系,求回归直线方程. 解:(1)由已知表格中的数据,利用计算器进行计算得
10
10
10
∑x
i=110i=1
i
=710,∑yi=723,x=71,y=72.3,∑xiyi=51467.
i=1
i=1
∑x
r=
2
i
=50520,∑yi2=52541.
i=1
10
∑xy
i10
i
-10xy
≈0.78.
由于r≈0.78,由0.78>0.75知,有很大的把握认为x与y之间具有线性相关关系. (2)y与x具有线性相关关系,设回归直线方程为y=a+bx,则
10
xiy
i
-10xy b=
∑i=151467-10⨯71⨯72.3
∑10
x
2-10x
2
=
50520-10⨯712
≈1.22,
i
i=1
a=y-bx=72.3-1.22⨯71=-14.32.
所以y关于x的回归直线方程为y=1.22x-14.32.