第五版统计学复习资料
第一章
1、总体是包含所研究的全部个体(数据)的集合,它通常所研究的一些个体组成,如由多个企业构成的集合,多个居民户构成的集合,多个人构成的集合,等等。
2、样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。
3、参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。4、统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个量,由于样本是随机的,因此统计量是样本的函数。
1.2某研究部门准备抽取2000个职工家庭推断该城市所有职工家庭的年人均收入。
要求:
(1) 描述总体和样本。
总体是该市所有职工家庭的集合;
样本是抽中的2000个职工家庭的集合。
(2) 指出参数和统计量。
参数是该市所有职工家庭的年人均收入;
统计量是抽中的2000个职工家庭的年人均收入。
1.3一家研究机构从IT从业者中随机抽取1000人作为样本进行调查,其中60%的人回答他们的月收入在5000元以上,50%的人回答他们的消费支付方式是用信用卡。
回答一下问题:
(1) 这一研究的总体是什么?
总体是所有IT从业者的集合。
(2) 指出参数和统计量。
参数是所有IT从业者的月收入;
统计量是抽中的1000个IT从业者的月收入。
第二章
1、概率抽样也称随机抽样,是遵循随机原则进行的抽样,不加主观因素,组成总体的每个单位都有被抽中的概率(非零概率),可以避免样本出现偏差,样本对总体有很强的代表性。
特点:
(1) 抽样时是按一定的概率以随机原则抽取样本。
(2) 每个单位被抽中的概率是已知的,或是可以计算出来的。
(3) 当用样本对整体目标量进行估计时,要考虑到每个样本单位被抽中的概率。
分类:
(1) 简单随机抽样:从包括总体N个单位的抽样框中随机地、一个个地抽取n个单位作为样本,每个
单位的入样概率是相等的。也就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。
特点是:每个样本单位被抽中的概率相等,样本的每个单位完全独立,彼此之间无一定的关联性和排斥性。简单随机抽样是其他各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
(2) 分层抽样:将抽样单位按某种特征或某种规划划分为不同的层,然后从不同的层中独立、随机地
抽取样本。
特点是:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。
该方法适用于总体情况复杂,各单位之间差异较大,单位较多的情况。
(3) 整群抽样:将总体中若干个单位合并为组,这样的组称为群。抽样时直接抽群,然后对中选群中
的所有单位全部实施调查。
特点是:调查单位比较集中,调查工作的组织和进行比较方便。但调查单位在总体中的分布不均匀,准确性要差些。因此,在群间差异性不大或者不适宜单个地抽选调查样本的情况下,可采用这种方式。
(4) 系统抽样:(也叫等距抽样)是将总体各单位按一定标志或次序排列成为图形或一览表式(也就是
通常所说的排队),然后按相等的距离或间隔抽取样本单位。
特点是:抽出的单位在总体中是均匀分布的,而且抽取的样本可少于纯随机抽样。等距抽样既可以用同调查项目相关的标志排队,也可以用同调查项目无关的标志排队。等距抽样是实际工作中应用较多的方法,目前我国城乡居民收支等调查,都是采用这种方式。
(5) 多阶抽样(又称多级抽样):将调查分成两个或两个以上的阶段进行抽样。第一阶段先将总体按照
一定的规范分成若干抽样单位,称之为一级抽样单位(或称初级抽样单位),再把抽中的一级抽样单位分成若干更小的二级抽样单位,从抽中的二级抽样单位再分三级抽样单位等等,这样就形成一个多阶段抽样过程。
特点是:在对超大而又复杂总体调查的抽样中实施和管理更加方便,且不需要对每级抽样单位编制完全的抽样框。
2、非概率抽样是按主观意向进行的抽样(非随机的),组成总体的很大部分单位没有被抽中的机会(零概率),使调查很容易出现倾向性偏差。
分类:
(1) 方便抽样:样本限于总体中易于抽到的一部分。最常见的方便抽样是偶遇抽样,即研究者将在某
一时间和环境中所遇到的每一总体单位均作为样本成员。“街头拦人法”就是一种偶遇抽样。方便抽样是非随机抽样中最简单的方法,省时省钱,但样本代表性因受偶然因素的影响太大而得不到保证。
(2) 判断抽样:根据研究目的的需要和研究者的主观判断,选择研究对象。抽样成本低,也容易操作,
单样本是人为确定的,没有依据随机原则,因而调查结果不能用于对总体有关参数进行估计。这种抽样方法多应用于总体小而内部差异大的情况,以及在总体边界无法确定或因研究者的时间与人力、物力有限时采用。
(3) 自愿样本:被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息。例如,参与报
刊上和互联网上刊登的调查问卷活动。
(4) 滚雪球抽样:选择并调查几个具有研究目的所需要的特征的人,再依靠他们选择合乎研究需要的
人,后者又可选择更多合乎研究需要的人,以此类推下去,样本就像滚雪球一样越来越大。成本低,适合对特定群体进行研究的资料搜集。
(5) 配额抽样:先将要研究的人群按某种特征划分成几个组别,然后,按照一定的比例,从每组人群
中任意选择一定量的样本作为研究对象。由于抽样前先进行了分层处理,抽得的样本代表性比单纯的方便抽样要好。
3、数据的误差
(一)抽样误差:抽样方法本身所引起的误差。当由总体中随机地抽取样本时,哪个样本被抽到是随机的,由所抽到的样本得到的样本指标x与总体指标μ之间偏差,称为实际抽样误差。当总体相当大时,可能被抽取的样本非常多,不可能列出所有的实际抽样误差,而用平均抽样误差来表征各样本实际抽样误差的平均水平。
(二)非抽样误差:非抽样误差是指除抽样误差以外的,由其他众多因素而引起的误差,在概率抽样与非
概率抽样中,非抽样误差都有可能存在。
分类:
(1) 抽样框误差:抽样框误差是因不准确或不完整的抽样框而引起的误差。从包含抽样误差的抽样框
中抽取的样本有时无法正确地代表调研目标的实际情况,这就存在抽样框误差。
(2) 回答误差:被调查者在接受调查时给出的回答与真实情况不符。导致回答误差的原因有很多种,
主要有理解误差、记忆误差和有意识误差。
(3) 无回答误差:指的数据丢失,数据丢失的原因有两种,一是有意不回答,二是无意不回答。有意
识不回答,主要指被调查者拒绝访问或拒绝就某一个问题给予回答。无意识不回答则可能受访者不在家或者是访问者疏忽,导致数据遗漏。
(4) 调查员误差:由于调查员的原因而产生的调查误差。
(5) 测量误差:在测量时,测量结果与实际值之间的差值叫误差。真实值或称真值是客观存在的,是
在一定时间及空间条件下体现事物的真实数值,但很难确切表达。测得值是测量所得的结果。这两者之间总是或多或少存在一定的差异,就是测量误差。
第三章
(一)分类数据的图示类型
1、 条形图(简单条形图、复式条形图等):排列在工作表的列或行中的数据可以绘制到条形图中。条形图
显示各个项目之间的比较情况。
描绘条形图的要素有3个:组数、组宽度、组限。
2、 帕累托图:按各类别数据出现的频数多少排序后绘制的条形图。
排列图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率.分析线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列,通过对排列图的观察分析可以抓住影响质量的主要因素.
帕累托图在项目管理中主要用来找出产生大多数问题的关键原因,用来解决大多数问题。
在帕累托图中,不同类别的数据根据其频率降序排列的,并在同一张图中画出累积百分比图。帕累托
图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下的数据分散在大部分类别中。
这两组经常被称为“至关重要的极少数”和“微不足道的大多数”。
帕累托图能区分“微不足道的大多数”和“至关重要的极少数”,从而方便人们关注于重要的类别。帕累托图是进行优化和改进的有效工具,尤其应用在质量检测方面。
3、 饼图:仅排列在工作表的一列或一行中的数据可以绘制到饼图中。饼图显示一个数据系列(数据系列:
在图表中绘制的相关数据点,这些数据源自数据表的行或列。图表中的每个数据系列具有唯一的颜色或图案并且在图表的图例中表示。可以在图表中绘制一个或多个数据系列。饼图只有一个数据系列。)中各项的大小与各项总和的比例。饼图中的数据点(数据点:在图表中绘制的单个值,这些值由条形、柱形、折线、饼图或圆环图的扇面、圆点和其他被称为数据标记的图形表示。相同颜色的数据标记组成一个数据系列。)显示为整个饼图的百分比。
4、 环形图:简单饼图只能显示一个样本各部分所占的比例。而环形图能显示两个及两个以上样本各部分
所占的比例。环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形。
(二)顺序数据的整理与图示
1、累积频数:累积频数可以是向上累积频数,也可以是向下累积频数。向上累积频数分布是先列出各组的上限,然后由标志值低的组向标志值高的组依次累积频数。向下累积频数分布是先列出各组的下限,然后由标志值高的组向标志值低的组依次累积频数。
2、累积频率或累积百分比:按某种标志对数据进行分组后,分布在各组内的数据个数称为频数或次数,各组频数与全部频数之和的比值称为频率或比重。为了统计分析的需要,有时需要观察某一数值以下或某一
数值以上的频率之和,叫做累积频率,或叫做对频率的累计。从变量值小的一方向变量值大的一方累加,
称为向上累积,反之为向下累积。频率的最终累积值为100%。
(三)数值型数据的图示
1、分组数据:直方图
用面积来表示频数分布矩形的高度表示每一组的频数或频率,宽度则表示各组的组距。
制作频数分布直方图的方法:
①集中和记录数据,求出其最大值和最小值。数据的数量应在100个以上,在数量不多的情况下,至少也应在50个以上。我们把分成组的个数称为组数,每一个组的两个端点的差称为组距。
②将数据分成若干组,并做好记号。分组的数量在5-12之间较为适宜。
③计算组距的宽度。用最大值和最小值之差去除组数,求出组距的宽度。
④计算各组的界限位。各组的界限位可以从第一组开始依次计算,第一组的下界为最小值减去最小测定单位的一半,第一组的上界为其下界值加上组距。第二组的下界限位为第一组的上界限值,第二组的下界限值加上组距,就是第二组的上界限位,依此类推。
⑤统计各组数据出现频数,作频数分布表。
⑥作直方图。以组距为底长,以频数为高,作各组的矩形图。
2、未分组数据:茎叶图和箱线图
(1)茎叶图:反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如,分布是否对称,数据是否集中,是否有离群点,等等。
(2)箱线图:是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,反映原始数据分布的特征,还可以进行多组数据分布特征的比较。
(3)时间序列数据
线图:如果数值型数据是在不同时间上取得的,及时间序列数据,则可以绘制线图。主要用于反映现象随时间变化的特征。
(4) 多变量数据的图示
1、 散点图:两个变量之间。
2、 气泡图:三个变量之间。气泡表示第三个变量。
3、 雷达图(蜘蛛图):多个变量之间。
第四章
1、众数(M0):一组数据中出现次数最多的变量值。
2、中位数(Me):在一组数据中处于中间位置上的变量值。
3、四分位数:也称四分位点,它是一组数据排序后处于25%(下四分位数QL)和75%(上四分位数QU)位置上的值。
计算公式:QL 位置=;QU 位置=44