统计学重点
第一章 绪论
1.
推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。
描述统计与推断统计的区别和联系是什么?
答:描述统计学研究如何取得反映客观现象的数据,并通过图表形式对所搜集到的数据进行加工、整理和显示,进而通过综合、概括与分析得出反映事物的数量特征和数量关系的统计方法。
推断统计学是研究如何利用样本数据来推断总体特征的统计方法。它是在对搜集的样本数据进行描述的基础上,对统计总体的未知数量特征作出以概率形式表述的推断。
描述统计学与推断统计学的划分,反映了数据分析的不同层次。如果我们所处理的数据是一个总体的数据,则可以通过描述统计学认识该总体的数量规律性;而如果我们所处理的数据只是总体的一部分,那么就必须通过推断统计学对总体的数量规律性进行科学的推断。
描述统计学与推断统计学都是统计学的重要组成部分。其中描述统计学是统计学的基础;推断统计学是统计学的主干。随着数据量的不断增多和统计任务的不断复杂化,推断统计学在统计学中的地位和作用日益增强。
统计总体就是根据一定的目的确定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。
总体单位(简称单位)是组成总体的各个个体。
样本是从总体中抽取的一部分个体组成的集合。
(能根据特定研究目的,确定相应的总体)
2.能够区分品质标志、数量标志、不变标志和可变标志、区分标志和指标。
品质标志表明单位属性方面的特征。品质标志的表现只能用文字、语言来描述,例如工人的性别是品质标志,其标志的具体表现为男、女。
数量标志表明单位数量方面的特征,可以用数值来表现,例如,职工的工龄是数量标志,其标志具体表现为年数。
不变标志和可变标志
如果一个总体中各单位有关标志的具体表现都相同,称为不变标志
在一个总体中,档一个标志在各单位的具体表现有可能不同时,这个标志便称为变异标志。
区分标志和指标
1.定义
标志:是表明事物特征的记号;标志反映的是总体单位的特征。它以单纯、显著、易识别的物象、图形或文字符号为直观语言,除表示什么、代替什么之外,还具有表达意义、情感和指令行动等作用。标志,在现代汉语词典中的解释是:表明特征的记号。
指标:指的是衡量目标的单位或方法;指标是反映统计总体的数量特征。股票指标是属于统计学的范畴,依据一定的数理统计方法,运用一些复杂的计算公式,一切以数据来论证股票趋向、买卖等的分析方法。主要有动量指标、相对强弱指数、随机指数等等。
2.两者的区别:
A.指标说明总体的特征,而标志则说明总体单位的特征。
B.指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用问题回答问题的指标;而标志则既有反映总体单位数量特征的,也有反映总体单位的品质特征的,只有数量标志才用数字回答问题,品质标志则用文字回答问题。
C.指标数值是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,也可直接取得。
D.标志一般不具备时间、地点等条件,但作为一个完整的统计指标,一定要讲时间、地点、范围。
3.能够区分连续性变量和离散型变量
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.
反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.
(1) 离散型变量。离散变量只能取有限个值,而且其取值都以整位数断开,可以一一列举,如“企业数”、“产品数量”等就是离散变量;
(2)连续变量。连续变量可以取无穷多个值,其取值是连续不断的,不能一一列举,如“年龄”、“温度”、“零件尺寸”等都是连续变量。
第二章、数据的收集整理与显示
1.能够区分不同的数据类型
(一) 定类尺度
又称类别尺度,按事物的某种属性对其进行平行的分类或分组。(只能测度事物之间的类别差,其他差别无法得知)例:按照性别将人口分为男、女两类,按肤色分为白种人、黄种人、棕种人、黑种人四类,按洲别分为亚洲人、欧洲人、美洲人、非洲人、澳洲人五类。
(二) 定序尺度
又称顺序尺度,是对事物之间等级差别和顺序差别的一种测度。它不仅可以测度类别差,还可以测度次序差。(不能测量类别之间的准确差值,只能比较大小,不能进行加、减、乘、除数学运算)例:人可以根据年龄分为幼年、少年、青年、中年、壮年、老年等类。满意程度可分为非常满意、比较满意、没有不满、不满意、很不满意几类。
(三) 定距尺度
又称间隔尺度,是对事物类别或次序之间距离的测度。该尺度通常使用自然或物理单位作为计量尺度。例:30°C和20℃之间相差10℃,-30°C和-20℃之间也是相差10℃。再比如,1等星比2等星亮10倍,0等星比1等星亮10倍,-1等星又比0等星亮10倍。定距数据可以进行加、减运算,不能进行乘、除运算。其原因为定距尺度中没有绝对零点(定距尺度中的“0”是作为比较的标准,不表示没有)
(四)定比尺度
又称比率尺度,由于定比尺度有绝对零点(定比尺度中的“0”表示没有,或者是理论上的极限)。因此,不仅可以进行加减运算,还可以进行乘除运算。例如,绝对温度300K(27℃)时理想气体的体积273K(0℃)时的1.1倍,温度比也是1.1倍,则绝对温度和体积都是定比尺度。一般来说,定比尺度的数据不可能取负值。一般也不会取零值,因为要么就
是不存在了,要么就是极限情况。如,绝对零度只能无限接近,不可能完全达到。如果一个物体的体积为零,那么它要么不存在,要么是数学中的抽象概念,比如,几何中的点、线、面的体积都为零。而一个人的年龄为0时呢?作为社会学意义上的人,可以认为它是极限(开始);作为生物学上的人,则是定距尺度的。
各种计量尺度的特点
定类尺度的特点
(1)各类别之间是平等的并列关系,无法区分优劣或大小;
(2)各类之间的顺序是可以改变的。
(3)定类尺度是对事物最基本的测度,它是其他计量尺度的基础。
定类尺度计量的结果只是表现为某种类别,但为了便于统计处理,特别是为了便于计算机识别,我们可以对不同类别用不同的数字或编码来表示,比如用“1”表示男性人口,“0”表示女性人口等。
注意!!这些数字只是给不同类别的一个代码,决不意味着这些数字可以区分大小或进行任何数学运算。
定序尺度的特点
(1)定序尺度的计量结果虽然也是表现为类别,但这些类别之间是可以比较顺序的。
(2)定序尺度所计量结果的顺序不能颠倒。
例如,产品等级就是对产品质量好坏的一种次序测度,它可以将产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格、不及格等。
很显然,定序尺度对事物的计量要比定类尺度精确一些,但它只是测度了类别之间的顺序,而未测量出类别之间的准确差值。因此该尺度的计量结果只能比较大小,不能进行加、减、乘、除等数学运算。
定距尺度的特点
(1)该尺度通常使用自然或物理单位作为计量尺度,如收入用人民币“元”度量、考试成绩用“百分制”度量、温度用摄氏或华氏的“度”来度量、重量用“克”度量、长度用“米”度量等。
(2)定距尺度的计量结果表现为数值。
(3)这种尺度的每一间隔都是相等的。
因此,只要给出一个度量单位,就可以准确地指出两个计数之间的差值。如考试成绩80分与90分之间相差10分,一个地区的温度20℃与另一个地区的25℃相差5摄氏度,等等。
定比尺度的特点
它除了具有上述三种计量尺度的全部特性外,还具有一个特性,那就是可以计算两个测度值之间的比值。即它可以进行加、减、乘、除四则运算。
能够区分时间序列数据和横截面数据
横截面数据又称静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。例如,2000年全国各省、自治区、直辖市的国内生产总值
时间序列数据又称动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。
能够区分时期数据和时点数据
(1)时期数。时期数是反映现象在一段时期内的总量,如产品产量、产值、出生人口数等。时期数的特点是可以连续计数,并可以累积。
(2)时点数。时点数是反映现象在某一瞬间时刻上的总量,如人口数、股票价格和股票价
格指数、企、比的固定资产价值等。由于时点数是
2.了解各种调查形式的特点及其使用条件。如各种调查形式是全面还是
非全面调查,连续还是非连续调查 。是针对全部对象还是选择重点还是选择典型。 ⑴ 普查
特点:①它是非经常性的调查 ②它是一种全面调查 ③规定标准时点
⑵抽样调查
特点:①随机抽样 ②部分推断总体 ③抽样误差可以事先计算并加以控制
适用范围:第一,对一些不可能或不必要进行全面调查的社会现象采用抽样调查
第二,对普查资料进行必要的修正。
重点调查
重点调查是指在调查对象中,只选择少数重点单位进行的非全面调查。
典型调查
典型调查是从众多的调查研究对象中,有意识地选择若干个具有代表性的典型单位进行深入、周密、系统的调查研究。
3.能够区分调查对象、调查单位、填报单位、调查项目、调查时间和调查期限。
调查对象指需要调查的现象总体(许多个体的总和),该总体由许多性质相同的调查单位(个体)组成。
调查单位指所要调查的具体单位(个体),它是进行调查登记的标志的直接承担者,是收集数据,分析数据的基本单位。
填报单位是负责向上报告调查内容、提交统计资料的单位。
调查项目就是调查中所要登记的调查单位的特征,即调查单位所承担的基本标志,它由一系列品质标志和数量标志构成。
调查时间指调查资料所属的时间。
调查期限是进行调查工作的时限,包括收集资料和报送资料工作所需的时间,应尽可能缩短。
4,了解统计分组的步骤与各种分组类别,给定一种分组结果,能够区分出是哪种分组。了解单
组距、组限、组中值等对象是什么,
统计分组的步骤
各种分组类别
⑴统计分组按分组标志的多少和组合情况,分为简单分组和复合分组
⑵按分组标志的不同性质,分为品质分组(或称属性分组)和数量分组(或称变量分组) ⑶按分组的作用和任务不同,分为类型分组、结构分组和分析分组
单项式分组和组距式分组的使用范围,适用的数据类型
单项式分组一般适用于离散型变量且变量变动范围不大的场合。
组距式分组 连续性变量或者变动范围较大的离散型变量
了解组距、组限、组中值等对象是什么,如何计算。(p29)
5.统计表的构成、制作统计表的注意事项。
构成
制作统计表的注意事项
⑴统计表的各种标题应简明、确切的表达其内容
⑵表中主栏各行和宾栏各列,一般按先布局、后整体的选择排列,即排列出项目后再总计。 ⑶如栏次较多,通常要加以编号
⑷表中数字应对准位数,填写整齐
⑸统计表中必须注明计量单位
⑹统计表的表式通常是左右开口的,即左右两端不画纵线
⑺必要时,应在统计表下方注明表中某些资料的来源,或对某些数理的计算方法、计算口径作出说明
6.能够根据特定问题,选择适合的统计图展示数据。即能理解各种图的适用条件和范围。
第三章数据分布特征描述
1.反映集中趋势的指标有哪些(众数、中位数、均值),位置代表值有哪些(众数、中位数)?
众数、中位数、四
⑴算术平均数
⑵调和平均数
⑶几何平均数
3.影响算术平均数大小的因素是什么,是如何影响的。算术平均数的权数应具备哪些条件。
A.受各组频数或频率的影响B.受各种标志值大小的影响?
4.反映离散程度的指标有哪些?(异众比率、四分位差、方差和标准差、离散系数)
如方差、标准差系数、异众比率等
第四章对比分析和指数分析
1.能够区分各种相对数,(p73)
2.
个体指数(k)是反映总体中个别事物数量变动情况的相对数
总指数(K)是反映由许多个别事物构成的复杂现象总体数量综合变动的相对数
第六章
1、掌握点估计的评价标准、
无偏性
有效性
一致性
2.
了解不同抽样方法(重复和不重复)的抽样平均误差那个大那个小。
重复抽样误差大!不重复抽样的样本更广泛,精度更高
了解样本容量变化对抽样平均误差大小的影响
3.影响抽样误差大小的因素
简述影响抽样平均误差的因素。
答:第一,总体各单位标志的变异程度。总体标志变异程度愈大,抽样误差愈大。反之,总体标志变异程度愈小,抽样误差也愈小;第二,样本容量的大小;第三,不同抽样方法的影响;第四,不同抽样组织方式的影响。
4.能够区分不同抽样组织形式,如类型抽样、整群抽样等,以及各种抽样组织形式方差大小顺序。如何提高他们的抽样效果 类型抽样
整群抽样
前面三种抽样方式所抽取的样本单位都是个体,而整群抽样所抽取的样本,是由若干样本组成的群体。整群抽样是先将总体各单位划分成若干组群,然后以群为单位
从中随机抽取一些群,对中选群的所有单位进行全面调查的抽样方式。例如,对冷库中箱装鲜蛋进行抽样调查时,就是以箱为单位抽出后进行观察。
5.确定样本容量应该注意的问题
(?)第一,用公式计算的样本容量是最低的,也是最必要的样本;第二,用公式计算样本容量时,一般总体方差是未知的,在实际计算时往往利用有关资料代替;第三,如果进行一次抽样调查,同时对总体平均数和成数进行区间估计,运用公式计算两个样本容量,一般情况下,为了同时满足两个推断的要求,一般在两个样本容量中选择较大的一个;第四,利用公式计算的样本容量不一定是整数,如果带小数,一般不采取四舍五入的办法化成整数,而是用比这个数大的邻近整数代替.
6.
上或课件习题以及课后作业。
第七章假设检验
1,明白什么是假设检验,假设检验的步骤,假设检验的两类错误及其发生概率。能区分什么时候是双侧检验什么时候是单侧检验,左单侧、右单侧。
假设检验 所谓假设检验,就是根据研究目的,对样本所属总体特征提出一个假设,然后用适当方法根据样本所提供的信息,对所提出的假设作出拒绝或不拒绝的结论的过程.
假设检验的步骤:
提出原假设和备择假设
确定适当的检验统计量
规定显著性水平∝
计算检验统计量的值
作出统计决策
两类错误
“弃真”错误 发生概率∝(显著性水平)
“取伪”错误 发生概率
2.能够根据实际问题设计原假设和备择假设,尤其是什么问题用双侧,什么问题用单侧,什么时候先设立原假设,什么时候先设立备择假设
3.能够对一个总体均值、比例,两个总体均值之差、比例之差进行假设检验计算注意使用统计量的条件,以及选择临界值的条件:如总体方差已知还是未知?大样本还是小样本?两个总体方差是相等还是不等?小样本两个总体方差未知且不等的情况不需掌握,其余都要掌握)
第八章方差分析
1、方差分析的作用和原理,什么是因素或因子,什么是水平或处理。
方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个:
(1) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示, 记作SSw,组内自由度dfw。
(2) 实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SSb,组间自由度dfb。
总偏差平方和 SSt = SSb + SSw。
组内SSw、组间SSb除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MSw和MSb,一种情况是处理没有作用,即各组样本均来自同一总体,MSb/MSw≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MSb>>MSw(远远大于)。
MSb/MSw比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。
1. 因素或因子(factor)
所要检验的对象
要分析行业对投诉次数是否有影响,行业是要检验的因素或因子
2. 水平或处理(treatment)
因子的不同表现
零售业、旅游业、航空公司、家电制造业就是因子的水平
2.原假设和备择假设
第九章相关与回归分析
1、掌握相关关系与函数关系的区别与联系,能区分现象是否存在相关关系
相关关系是两个现象数值变化不完全确定的随机关系,是一种不完全确定的依存关系. 相关关系与函数关系的不同之处表现在:
(1)函数关系指变量之间的关系是确定的,而相关关系的两变量的关系则是不确定的.可以在一定范围内变动;
(2)函数关系变量之间的依存可以用一定的方程y=f(x)表现出来,可以给定自变量来推算因变量,而相关关系则不能用一定的方程表示.函数关系是相关关系的特例,即函数关系是完全的相关关系,相关关系是不完全的相关关系.
(函数关系是一种确定关系,而相关关系是一种非确定关系;函数关系是自变量与因变量之间的关系,这种关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系)
2,能够区分现象线性关系、非线性关系、正相关、负相关。
现象线性关系
非线性关系
正相关:自变量增长,因变量也跟着增长
负相关:自变量增长,因变量反而减少
3.掌握回归分析的三项检验分别检验什么?分别用什么检验统计量?其中一元和多元模型中拟合优度的检验统计量R2差别。
4.相关系数的取值范围与含义
1.r的取值介于-1与1之间, r 的取值范围是 [-1,1]
2.在大多数情况下,0<|r|<1,即X与Y的样本观测值之间存在着一定的线性关系,当r>0时,X与Y为正相关,当r<0时,X与Y为负相关。
|r|的数值愈接近于1,表示x与y直线相关程度愈高;反之, |r|的数值愈接近于0,表示x与y直线相关程度愈低。通常判断的标准是: |r|<0.3称为微弱相关,0.3≤ |r|<0.5称为低度相关,0.5≤ |r|<0.8称为显著相关 ,0.8≤ |r|<1称为高度相关或强相关。
3.如果|r|=1,则表明X与Y完全线性相关,当r=1时,称为完全正相关,
而r=-1时,称为完全负相关。
4.r是对变量之间线性相关关系的度量。
r=0只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的关系