统计学例题
统计学
一、概念区别
1、 描述统计和推断统计
描述统计:指搜集、整理、分析并提供统计资料的理论和方法。主要任务是使反映客观事物的统计数据可以一目了然,条理清晰,使用方便,可以说明现象的数量特征和数量关系。 推断统计:是只依据样本资料推断总体特征的技术和方法,包括参数估计和假设检验的方法。
关系:描述统计是推断统计的前提,推断统计是描述统计的发展
2、 抽样调查和典型调查
抽样调查是指根据随机原则从调查总体中抽取部分单位进行观察并根据其结果推断总体数量特征的一种非全面调查的方法。抽样调查可节省人力、物力,减少调查质量,因而应用广泛。
典型调查是根据调查的目的和要求,在对研究对象进行全面分析的基础上,有意识地选择部分有代表性的单位进行调查,它是一种非全面调查。特点:即调查单位是在对调查对象全面分析的基础上有意识地选择出来的一种深入细致的调查方法。
区别:抽样调查是从总体中随机地抽取部分单位进行调查,典型调查则是从总体中有意识地选择部分单位作为调查的对象。
3、 中位数和众数
中位数是一种按其在数列中的特殊位置而决定的平均数。把总体各单位标志值按大小顺序排列后,处在中点位次的标志值就是中位数,它将全部标志值分成两个部分,一半标志值比它大,一半标志值比它小,而且比它大的标志值个数和比它小的标志值个数相等。
众数也是一种位置平均数,是指总体单位中,标志值出现次数最多的那个数值。单项数列中,频数最多组的标志值就是众数。但在组距数列的条件下,先要确定众数所在组,然后计算以求得近似的众数值。
4、 方差和标准差(公式见书本第 页)
方差б的平方=∑(X-X 的平均)的平方/N
将方差开平方,得到的即为标准差。标准差也称为均方差。б=√∑
样本统计量:从总体中抽出的部分单位
总体参数:研究对象的全部单位
无论是总体还是样本,都可以用诸如平均数、中位数、众数、比率(或成数)以及标准差和方差等集中趋势指标和离散趋势指标来描述他们的特征。当他们用来描述样本的特征时,称为样本统计量;当他们用来描述总体特征时,称为总体参数。
5、 随机抽样和判断抽样
随机抽样是按随机原则,即按概率规律抽取样本,在总体中所有单位被抽中的机会是均等的。被抽中的样本单位数即样本容量不带任何个人或集体的主观意见。被选的概率可以事先确定,抽样所出现的误差可以通过概率理论加以测量并确定在一定范围之内。
判断抽样是一种非随机抽样,它是根据个人或集体的设想或经验,从总体中有目的地抽取样本。采用这种方法往往是由于人力、物力和财力条件以及时间的限制所致。当然,要想使判断抽样获得比较好的效果,其条件必须是抽样人具有丰富的关于总体的专业知识。但是,由
于判断抽样是凭主观设想和判断抽取样本的,因此抽样的结果就不能用概率方法来加以分析。这是随机抽样和判断抽样的根本区别。
6、 非抽样误差和抽样误差
非抽样误差是指在调查登记过程中发生的误差和由于主观因素破坏了随机原则而产生的系统性的偏差。在全面调查的抽样调查中,都存在着登记性误差,系统性的偏差也是有人为因素所致。因此,这种非抽样误差往往与调查员的训练水平和工作态度有关,通过努力是可以避免这种误差的。
抽样误差是指由于抽样的随机性而带来的偶然的代表性误差,不包括登记性误差和不遵守随机原则造成的偏差。总的来说,抽样误差是进行抽样调查所固有的误差,由于从总体中按随机原则抽取的样本,其结构不可能和总体完全一致,因而样本平均数或比率与总体平均数或比率之间必然会发生误差。抽样误差是具有随机性质的误差,根据抽样结果而作出的决断就有脱离实际而遭受一定损失的风险。但是,一般来说,抽样误差同样受大数定律的支配,因此,我们可运用概率统计的理论和方法把误差控制在最小的限度,从而对总体参数作出科学的推断或估计。
7、 类型抽样和整群抽样
类型抽样又称分类抽样或分层抽样。它是先将全及总体中的所有单位按某一主要标志分组,然后在各组中采用纯随机抽样或等距抽样方式,抽取一定数目的调查单位构成所需的样本。采取这种方法,由于各单位之间的差异因划类或分层而缩小,这就比较容易选 出有代表性的样本。这种方法最适宜于总体情况比较复杂,各类型或层次之间的差异较大,而总体单位又较多的情形。
整群抽样是在全及总体中以群(或组)为单位按绩随机抽样方式或等距抽样方式,抽取若干群(或组),然后对所抽中的各群(或各组)中的全部单位一一进行调查。
8、 重复抽样和不重复抽样
重复抽样就是把已经抽取出来的总体仍旧放回原来的一般总体中,再进行第二次抽取,把第二次抽取出来的总体单位仍放回原来的一般总体中,再进行第三次抽取等。这样在每次抽取时,使已补抽中的总体单位有被重复抽中的可能,总体单位数始终保持不变,而各个单位有被抽选的机会也先后等同。
不重复抽样则是将已经抽选出来的单位数不再放回去,而从剩下的总体中抽选,就是说总体中的每个单位只能被抽中一次,不会被重复抽选出来,(如等距抽样和整群抽样等),都属于不重复抽样。
9、 点估计和区间估计,各举一例说明区别
点估计是根据样本数据计算的一个估计值。例如,要估计一批产品的平均使用寿命,可以从总休整 抽取一个样本并计算这个样本数值来估计这一批产品的平均寿命。假如计算出的平均寿命是1000小时,用这个数值估计这一批产品的平均寿命,就是点估计。
区间估计是通过样本来估计总体参数可能位于的区间。例如,某批产品的平均寿命为1000小时,这是对该批产品平均寿命参数的点估计值,仅靠这样一个点估计值往往是不够的。这是由于该批产品的使用寿命若近似地服从正态分布,那么,将会有一半产品的使用寿命数达不到总体平均数的标准因此,必须提出该产品使用寿命的上限和下限,即给出一个可以控制的范围,从而使这一范围能够承担起必要的风险。如果说,该产品的平均使用寿命在800小时—1200小时之间,这就是它的区间估计值。
10、什么是假设检验
假设检验就是对总体参数所做的一个假设开始,然后搜集样本数据,计算出样本统计量,进而运用这些数据测定假设的总体参数在多大程度上是可靠的,并作出承认还是拒绝该假设的判断。
11、第Ⅰ类错误和第Ⅱ类错误,在具体问题中阐述清楚。
例如:一个被告正在受到法庭的审判。先假定被告是无罪的,记为H 0:被告是无罪的,H 0称为原假设或零假设。另一个可供选择的假设记作H1:被告是有罪的。H1称为备择假设或替代假设。
对原假设H0来说,存在4种情况:
①H0为真,即被告是无罪的,陪审团也确认他无罪,接受H0,从而他们作出了正确的决断;②H0为真,即被告是无罪的,但陪审团确认他是有罪的,拒绝H0,因此作出了错误的决断;③H0不真,即被告是有罪的,陪审团也确认他有罪,拒绝H0,因此作出了正确的决断;④H0不真,即被告是有罪的,但陪审团却确认他无罪,接受H0,因此作出了错误的决断。 在上述第①和③种可能情况下,陪审团作出了正确的决策。在第②和④种可能情况下,决断错误。当H0本来为真时,却也可能错误地否定了,在统计上这种否定真实原假设的错误称为第Ⅰ类错误,上述第②种可能情况就属这类错误。另一种可能犯的错误是当原假设H0非真时作出接受H0的选择,这种错误称为第Ⅱ类错误。上述第④种可能情况就属于这类错误。
二、问答题:
1、什么是普查?普查要求和原则是什么?普查为什么要有这些要求?
答:普查是专门组织的一次性全面调查。搜集的资料表明某一现象在某一时点或某一时期的情况,时间性要求很强。普查工作多在全国或较大范围内进行,需要动员大量人力、物力和财力。因此,只有需要摸清国家重要的国情、国力时,才有可能和必要在全国或较大范围内组织普查。
普查作为一种一次性的全面调查,对资料的准确性和时效性要求高。普查的面广量大,要求有更多的集中领导和统一行动。在组织普查工作中还必须注意以下几点:
(1)规定统一的标准时点。标准时点是指对被调查对象登记时所依据的统一时点。这个 时点一经确定,所有调查资料都要反映这一时点上的状况,以避免搜集资料时因情况变动而产生重复登记和遗漏的现象。
(2)确定统一的普查期限。在普查范围内各调查单位或调查点尽可能同时进行普查,并尽可能在最短的期限内完成,以便在方法上或步调上保持一致性,以保证资料的准确性的时效性。
(3)规定普查的项目和指标。普查项目和指标一经规定,不准任意改变或增减,以免影响汇总综合,降低资料质量。同一种普查,每次项目和指标应力求一致,并按一定的周期进行,以便更好地进行历次调查资料的对比分析及观察某种现象变化发展的情况。
2、抽样的概念和特点。举例说明抽样在工商管理中的运用。
抽样就是从所研究的对象中随机地取出其中一部分来观察,由此而获得有关总体的信息。 抽样的3个特点:
(1) 遵守随机原则。随机原则是指在抽样时每个单位有同等被抽中的机会,只有遵守随
机原则,才能使抽取的部分单位具有充分的代表性。
(2) 推断被调查现象的总体特征。抽样的最终目的是根据样本数据推断被调查现象的总
体特征。
(3) 计算推断的准确性和可靠性。我们可把推断的误差控制在一定的精确程度和可靠程
度上,以满足实际工作的需要。
鉴于抽样的上述特点,它在工商管理领域具有极其广泛的应用,具体体现在:
(1) 当某些现象不可能采用全面调查时,可以利用抽样作出推断。有些现象要经过破坏
性或消耗性的实验才能了解其情况,如灯泡的使用寿命和轮胎的行驶里程等都要作破坏性的试验,无法采用全面调查。对于某些无限总体不能采用全面调查,只能从中抽出样本进行检验。如检查大批量生产的某种小零件的质量。
(2) 当某些现象没有必要采用全面调查时,可利用抽样作出推断。例如对城市居民的家
计调查和市场购买力调查等,可采用抽样方法。可节省大量的人力物力和财力,并能得到事半功倍的效果。
(3) 抽样调查和全面调查结合,可以相互补充,也可以对全面资料起到检验核对的作用。
(4) 对于某些总体的假设需要依靠抽样法进行假设检验。如要检验一项工艺改革方案实
施以后,是否收到明显的效果,就需要对总行进行假设检验,然后利用抽样方法判断这一假设的真伪,以便做出决断。
(5) 它可用于现代化工业大批量生产过程中的产品质量控制。在连续大量生产产品过程
进行抽样检验,观察工序过程是否正常,便于及时采取措施,预防废次品的产生。
3、总体平均数区间估计有哪些步骤?(公式等见P94页)
答:(1)确定置信水平,即可靠性或把握程度。一般来说对于估计要求比较精确的话,置信程度也要求高些,在社会经济现象中通常用95%就可以了。
(2)根据置信度并利用标准正态分布表确定z 值。
(3)抽取一个容量为n 的样本。
(4)算出样本平均数ⅹ(上加一横)和标准差бx 。在重复抽样时,样本平均数的标准差为 бx=б/√n, 有限总体不重复抽样时, 。
(5)构造置信区间 。
4、样本容量确定的重要意义,决定样本大小的因素有哪些?
答:在实际设计抽样方案中有一个重要的问题,就是在特定的情况下应该用多大的样本。如果使用一个比需要大的样本,就会浪费资料;如果样本太小,就不能达到分析的目的。 决定样本大小的因素有3点:
①受总体方差б2数值大小的影响。总体方差大,则应多抽一些样本容量,反之,则可少抽一些。当然,当总体方差为0时,那么只需抽出其中一个就能代表总体。问题是实际工作中我们往往不知道总体方差,因而必须作试验性调查,或以过去的历史资料作参考。
②可靠性程度的高低。要求可靠性越高,所必需的样本容量就越大。也就是说,为获得所需精度而指定的概率越大,所需要的样本容量就越大。
③允许误差的大小。这主要由研究的目的而定。若要求推断比较精确,允许误差应该低一些,随之抽取的样本容量也要求多一些;反之,若允许误差可以大一些,样本容量也可以少一些。
5、假设检验的一般程序(论述题)
(1)根据研究问题的需要提出假设,包括原假设H 0和备择假设H 1。原假设必须包括等号
在内,而备择假设则视问题的性质在≠、>、<三者之中选其一。检验结果仅有2种可能性,如果接受原假设,就必须拒绝备择假设,这时,可能会犯第Ⅱ类错误,而第Ⅱ类错误往往是未知的。所以接受H 0时,其确切的含义应该是,根据样本值尚不能推翻原假设,但不能保证H 0为真。如果拒绝原假设,就必须接受备择假设,这时可能犯错误的概率为ɑ。
(2)找出检验的统计量及其分布。假设确立后,要决定接受还是拒绝,都是根据某一统计量出现的数值,从概率意义上来判断的。这个统计量服从什么样的分布,是由许多因素决定的,如统计量是样本平均数、样本比例或样本方差等,还要看是大样本还是小样本,是否知道总体方差等。
(3)规定显著性水平ɑ,即选择所允许犯第Ⅰ类错误的概率。ɑ确定后,拒绝区域也就随之而定。如果拒绝区域在两侧,则为双侧检验,2边各占ɑ/2为拒绝区域的面积;如果拒绝区域在曲线一侧,则为单侧检验,左边或右边ɑ的面积为拒绝区域的面积。ɑ到底取多大合适取决于犯第Ⅰ类错误和第Ⅱ类错误后产生的后果及人们所需付出的代价。如果ɑ值定得很小,就要冒接受一个不真实的原假设的较大в概率的风险;反之,如果ɑ值定得很大,则要冒拒绝一个真实的原假设所带来的风险。因此必须根据问题的性质选择一个合适的ɑ。常用的ɑ取0.05或0.01。
(4)确定决策规则。在确定了显著水平ɑ以后,根据统计量的分布就可以规定决策规则,找出接受区域和拒绝区域的临界值。例如,在总体平均数假设检验中,当ɑ=0.05时,双侧检验标准正态分布z 的ɑ/2的临界值为±1.96,大于1.96或小于-1.96就拒绝H 0;反之,就接受H 0。
(5)根据样本数据计算的统计量的数值并由此作出决策。如果统计量的值落在拒绝区域内(包括临界值),就说明原假设与样本描述的情况有显著差异,应该拒绝原假设。如果落在接受区域内,说明样本和原假设描述的情况的差异是不显著的,应该接受原假设。一般情况下,要否定原假设H 0,只要一个反例就足够了。否定了H 0,也就避免了第Ⅱ类错误,所以根据被否定的原假设做出的决策就具可靠性。
6、举例说明点估计和区间估计有何区别?
点估计是根据样本数据计算的一个估计值,即从总体中抽取一个样本,根据该样本的统计量对总体的未知参数作出一个数值点的估计。例如:用样本均值作为总体未知均值的估计值就是一个点估计;要估计一批产品的平均使用寿命,可以从总体中抽取一个样本并计算这个样本数值来估计这一批产品的平均寿命,假如算出平均寿命是1000小时,用这个数值估计这一批产品的平均寿命,就是点估计。
区间估计通过样本来估计总体参数可能位于的区间。给出一个随机区间并指出以多大的概率包含未知参数。例如某批产品的平均使用寿命为1000小时,这是对该批产品平均寿命参数的点估计值,仅靠这样一个点估计值往往是不够的。这是由于该批产品的使用寿命近似的服从正态公布,那么,将会有一半产品的使用寿命数达不到总体平均值的标准。因此,必须提出该产品使用寿命的上限和下限,即给出一个可以控制的范围,从而使这一范围能能够承担起必要的风险。如果我们说,该产品的平均寿命在800小时—1200小时之间,这就是它的区间估计。
三、计算题
1、课件第八章中总体均值的置信区间 (σ2 已知) 和两个总体均值之差的估计 (σ已知) 的实例。
【例】某种零件长度服从正态分布,从该批产品中随机抽取9件,测得其平均长度为21.4 mm。已知总体标准差σ =0.15mm,试建立该种零件平均长度的置信区间,给定置信水平为0.95。
解:已知X~N (μ,0.152) ,⎺x =21.4, n =9, 1-α = 0.95,Zα/2=1.96 总体均值μ的置信区间为
⎛σσ⎫ -Z , +Z ⎪α2α2 ⎪n n ⎝⎭
⎛0. 150. 15⎫= 21. 4-1. 96, 21. 4+1. 96⎪ ⎪⎝⎭
=(21. 302, 21. 498)
我们可以95%的概率保证该种零件的平均长度在21.302~21.498 mm之间
【例】某大学从该校学生中随机抽取100人,调查到他们平均每天参加体育锻炼的时间为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间(已知总体方差为36小时)。
解:已知 ⎺x =26, σ=6,n =100, 1-α = 0.95,Zα/2=1.96
⎛σσ⎫ -Z , +Z ⎪α2α ⎪n n ⎭⎝
⎛66⎫= 26-1. 96, 26+1. 96⎪ ⎪⎭⎝
=(24. 824, 27. 176)
我们可以95%的概率保证平均每天参加锻炼的时间在24.824~27.176 分钟之间
【例】一个银行负责人想知道储户存入两家银行的钱数。他从两家银行各抽取了一个由25个储户组成的随机样本,样本均值如下:银行A :4500元;银行B:3250元。设已知两个总体服从方差分别为σA 2=2500和σB 2=3600的正态分布。试求μA - μB 的区间估计
• (1)置信度为95%
• (2)置信度为99%
解:已知
XA~N (μ(1) μA- μB 置信度为95%的置信区间为
X B ~N (μ(4500-3250) ±1. 25003600+2525
(1219. 78, 1280. 62)
⎺x A=4500,(2) μA- μB 置信度为99%的置信区间为 ⎺x B=3250,(4500-3250) ±2. 25003600+2525
(1209. 7, 1290. 3)
σA 2 =2500
σB 2 =3600
n A= n B =25
【例】某饮料公司对其所做的报纸广告在两个城市的效果进行了比较,它们从两个城市中分别随机地调查了1000个成年人,其中看过广告的比例分别为p 1=0.18和p 2=0.14。试求两城市成年人中看过广告的比例之差的95%的置信区间。
解:已知 p1=0.18, p 2=0.14,1-α=0.95, n 1= n 2=1000
P 1- P 2置信度为95%的置信区间为
(0. 18-0. 14)±1. 960. 18(1-0. 18) 0. 14(1-0. 14) ) =(0. 0079, 0. 0721+10001000
我们有95%的把握估计两城市成年人中看过该广告的比例之差在0.79% ~ 7.21%之间
2、课件第九章总体方差已知时的均值检验(双尾 Z 检验) 的实例。
【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为μ0=0.081mm,总体标准差为σ= 0.025 。今换一种新机床进行加工,抽取n =200个零件进行检验,得到的椭圆度为0.076mm 。试问新机床加工零件的椭圆度的均值与以前有无显著差异?(α=0.05)
H0: μ = 0.081 检验统计量: z =-μ00. 076-0. 081==-2. 83 σn 0. 200
•
•
• H1: μ ≠ 0.081 决策 α = 0.05 拒绝H 0 n = 200 结论:有证据表明新机床加工的零件 临界值(s): 的椭圆度与以前有显著差异
-1.96
0 1.96 Z
【例】某批发商欲从生产厂家购进一批灯泡,根据合同规定,灯泡的使用寿命平均不能低于1000小时。已知灯泡使用寿命服从正态分布,标准差为20小时。在总体中随机抽取100只灯泡,测得样本均值为960小时。批发商是否应该购买这批灯泡? (α=0.05) (计算结果)
•
•
H0: μ ≤ 1020 检验统计量: z =-μ0σn =1080-1020=2. 4
•
• H1: μ > 1020 决策: α = 0.05 在 α = 0.05的水平上拒绝H 0 n = 16 结论:有证据表明这批灯泡的使用寿命 临界值(s): 有显著提高 0
1.645 Z
【例】某厂采用自动包装机分装产品,假定每包产品的重量服从正态分布,每包标准重量为1000克。某日随机抽查9包,测得样本平均重量为986克,样本标准差为24克。试问在0.05的显著性水平上,能否认为这天自动包装机工作正常?
(计算结果)
•
•
•
• H0: μ = 1000 检验统计量: t =-μ0s n =986-1000=-1. 75 H1: μ ≠ 1000 决策: α = 0.05 在 α = 0.05的水平上接受H 0 df = 9 - 1 = 8 结论:有证据表明这天自动包装机工作正常 临界值(s):
-2.306
0 2.306 t
【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?(α = 0.05)
(计算结果)
•H0: ≥ 40000 检验统计量:
t =-μ0
s n
41000-40000
20 •H1:
= 0.05 决策: 在α = 0.05的水平上接受H 0
•df = 20 - 1 = 19 结论: 有证据表明轮胎使用寿命显著地大于40000公里 •临界值(s):
-1.7291 0
t
【例】有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知,第一种方法生产出的产品其抗拉强度的标准差为8公斤,第二种方法的标准差为10公斤。从两种方法生产的产品中各抽取一个随机样本,样本容量分别为n 1=32,n 2=40,测得⎺x 2= 50公斤,⎺x 1= 44公斤。问这两种方法生产的产品平均抗拉强度是否有显著差别? (α = 0.05)
(计算结果)
• H0: μ1- μ2 = 0 检验统计量:
• H1: μ1- μ2 ≠ 0 z =(1-2) -(μ1-μ2)
σ2
1
n 1+σ22=50-40-064100+3240=2. 83 n 2
α = 0.05
• n 1 = 32,n 2 = 40 决策:拒绝H 0
• 临界值(s): 结论:有证据表明两种方法生产的产品其抗拉 强度有显著差异 -1.96
0 1.96 Z