[统计基础理论及相关知识]之统计方法
《统计基础理论及相关知识》之统计方法 第一章 统计和数据 一.统计的含义
统计学是用以收集数据,分析数据和由数据得出结论的一组概念、原则和方法。统计分析数据分为描述统计和推断统计两大类。
描述统计是研究数据搜集、处理和描述的统计学方法。其内容包括如何取得研究所需要的数据,如何用图表形式对数据进行处理和展示,如何通过对数据的综合、概括与分析,得出所关心的数据特征。
推断统计则是研究如何利用样本数据来推断总体特征的统计学方法,内容包括参数估计与假设检验两大类。
二、数据类型:
1. 定性变量的观察结果称为定性数据,这类数据的最大特点是它只能反映现象的属性特点,不能说明具体量的大小和差异。如天气形势:天气晴和阴转多云,职业:生产工人、公务员,教育程度:小学、大学等。这种只能反映现象分类特征的变量又称为分类变量,分类变量的观察结果就是分类数据。如果类别具有一定的顺序,如教育程度,中学的教育程度就是比小学高,大学又比中学高,这样的变量称为顺序变量,相应的观察结果就是顺序数据。
用数值表示其观察结果,而且这些数值具有明确的数值含义,不仅能分类而且能测量出来具体大小和差异,这些变量就是定量变量,也称为数值变量,定量变量的观察结果成为定量数据。如天气温度、上证股指、月收入。
分类变量没有数值特征,所以不能对其数据进行数学运算。分类变量只能用来区分事物,而不能用来表明事物之间的大小、优劣关系。
顺序变量不仅能用来区分客观现象的不同类别,而且还可以表明现象之间的大小、高低、优劣关系。顺序变量之间虽然可以比较大小,却无法计算相互之间的大小、高低和优劣的距离。
很多适用于数值型数据的统计方法并不适用于定性数据,但适用于定性数据的方法则大多可以应用于数值型数据。
2. 观测和实验数据
观测数据是对客观现象进行实地观测所取得的数据,在数据取得的过程中一般没有人为的控制和条件约束。是取得数据最主要的方法,用各种调查方法得到的数据都属于观测数据。观测数据可能是全面数据也可能是样本数据。
实验数据一般是在科学实验环境下取得的数据。自然科学研究中所用的数据多为实验数据。
三、数据来源与搜集方法
1. 从使用者的角度来看,统计数据资料的来源主要有两种渠道:一种是通过直接的调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始或第一手统计数据;另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为次级数据或第二手间接的统计数据。一切间接的统计数据都是从原始的、第一手数据过渡而来的。
统计调查或进行实验就是统计数据的直接来源。
数据的间接来源有以下一些:一是公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校、科研机构;二是尚未公开发表的统计数据。
在应用间接数据时应注意以下问题:一是否了解并正确理解了间接数据中变量的含义、计算口径、计算方法,以防止误用、错用他人的数据;二引用间接数据时要注明数据来源,尊重他人的劳动成果和知识产权。
2. 搜集数据的方法: 常用的统计调查种类有:
普查:特点是一种全面调查,具有资料包括范围全面、详尽、系统的优点;它是一次性的专门调查,因为普查的工作量大,耗资也多,时间周期较长,一普查不宜经常举行。
抽样调查:例如,想了解某学校学生的零花钱支出情况,可以从中抽了一个样本获得样本数据。这里“全校所有学生”就是总体;从全校学生中抽取300人进行调查,这就是一个样本,构成样本的元素的数目称为样本量。
抽样调查的特点:一是样本单位按随机原则抽取,排除了主观因素对选取样本单位的影响;二是能够根据部分调查的实际资料对调查对象的总体的数据特征进行推断,从而达到对调查总体的认识;三是在抽样调查中会存在抽样误差,但是这个误差可以事先计算并加以控制。
抽样调查既能节省人力、物力、财力,又可以提高资料的时效性,而且能取得比较正确的全面统计资料,具有许多优点。是一种非全面的、一次性的或经常性的专门调查,使用非常广泛。
抽样方法主要有两种:概率抽样和非概率抽样。
从理论上讲,概率抽样是最科学的抽样方法。常用的概率抽样形式为简单随机抽样;分层抽样;整群抽样;系统抽样又称为等距抽样。
非概率抽样由于方法简单、经济,所以也是人们常用的方法。 统计报表:
按报送范围分为全面报表和非全面报表;按报送周期来分分为月报、季报、年报; 统计报表的内容包括以下几个方面:
一是表式;二是填表说明:具体有填报范围、指标解释、分类目录、其他有关事项的规定。
重点调查:
当调查的任务只要求掌握事物的基本善与基本的发展趋势,不要求掌握全面的准确资料,而且在总体中确实存在着重点单位时,进行重点调查是比较适宜的。重点调查可以节省人力、财力,而且及时。
典型调查:
有意识地选择若干具有典型意义的或有性的单位进行调查。主要作用是一是补充全面调查的不足;二是在一定的条件下可以验收全面调查数据的真实性;具有灵活机动、通过少数英武即可取得深入、详实的统计资料的优点。但是在这种调查由于受“有意识地选也若干有代表性”的限制,在很大程度上受人们主观认识的影响,因此,必须同其他调查结合起来使用,才能避免出现片面性。
各类统计调查方法的特点:
第二章 数据描述 一、用图表展示定性数据
定性数据包括分类数据和顺序数据,可能用频数分布表和图形来描述。常用饼图和条形图、环形图表示。
饼图:又称圆饼图、图形图,是利用圆形及圆内扇形面积来表示数值大小的图形。
条形图:用宽度相同的条形的高度或长度来表述数据多少的图形。 环形图:
二、用图表展示定量数据
定性数据图示的表示方法,也都适用于定量数据。定量数据有一些特定的图示方法,并不适用于定性数据。
一般的分级个数在5-15之间。最大值为上限,最小值为下限。 组距=上限-下限
采取上限不在内的原则,计算在与下限相同的组内。
常用来表述定量数据的统计图形有直方图、折线图、散点图,还有茎叶图、箱线图。 直方图:横坐标代表变量分组,纵坐标代表各变量值出现的频数。 三、用统计表来表示数据
统计表由五个部分组成:表头、行标题、列标题、数字资料和表外附加构成。 表头放在表的上方,说明的是表的主要内容;
行标题和更标题一般放在表的第一行和第一列,表示的是所研究问题类别的名称和指标名称;
表的其余部分是具体的数字资料;
表外附加放在统计表的下方,用来说明资料来源、指标注释和必要的说明内容。通常情况下,统计表的左右两边不能封口。
四、用数字来概括数据
1、对定性的集中趋势常用的方法就是计算百分比、中位数和众数。
中位数(Median ),它是按照大小排列之后位于中间的那个数(如果样本量为奇数),或者中间两个数目的平均(如果样本量为偶数)
众数(MODE )是数据中出现次数或出现频率最多的数值,用得最多。 2、定量数据:
反映数据的集中趋势水平度量:平均数、中位数、众数和分位数等。 反映数据离散程度的差异度量:极差、四分位差、标准差和方差。
x xf x =简单算术平均:x = 加权算术平均:
n f
x :平均数
x :单位变量值 n :总体单位数
f :权数
平均数对于严重偏态分布的数据,代表性较差。
中位数和众位数不受极端值的影响,具有统计上的稳健性,当数据为偏态分布,特别是偏斜程度较大时,可以考虑选择中位数和众数,这时它们的代表性要比平均数好。
极差:又称全距,是最简单的离散指标,是一组中最大值与最小值之差。R=Xmax -X min 极差容易受数据中极端值的影响,不能准确地描述数据的分散程度。
方差σ:是将各个变量值和其均值离差平方的平均数,反映样本中各个观测值到其均值的平均离散程度。方差:不开(
)根号,标准差:开(
2
2
)根号。
未分组的计算公式:σ
2
(x -x ) ∑=
n
2
分组的计算公式:σ
2
∑(x -x ) =
f
f
标准差σ:是方差的平方根。 总体标准差计算公式: 总体未分组的计算公式:σ=
(x -x )
n
2
总体分组的计算公式:σ=样本标准差计算公式: 未分组的计算公式: s =
(x -x )
f ∑(x -x )
n -1
2
2
f
2
总体分组的计算公式:s =
∑(x -x ) f f -1
σ是总体的标准差;S 是样本的标准差。
在一个统计样本中,其标准差越大,说明它的各个观测值分布越分散,它的趋中程度就越差。反之,其标准差越小,说明它的各个观测值分布的越集中,它的趋中程度就超好。
离散系数:也称变异系数、标准差系数。它是将一组数据的标准差除以其均值,用来测度数据离散程度的相对数。
其计算公式:
总体数据的离散系数:V σ=σ/x 样本数据的离散系数:V S =S/x
标准分数:标准化值或Z 分数. 它是变量值与其平均值的离差除以标准差后的值, 用以测定某一个数据在该组数据中的相对位置。计算公式:Z=(X-x )/s
标准分数的最大的用途是可以把两组数据中的两个不同均值、不同标准差的数据进行对比, 以判定在各组中的位置。
第三章 参数估计
统计推断主要包括参数估计和假设检验。 一、抽样分布
总体分布是总体中所有观察值所形成的分布。 通常有总体平均数μ、总体方差σ、总体比例π 重置抽样:有N n 种抽法,即可以组成N n 不同的样本。 不重置抽样:有C n N =
2
N !
n ! (N -n )!
样本均值的均值就是总体均值。在重置抽样时,样本均值的标准差为总体标准差的σ的1/n,即 σ=
σ
n
在不重置抽样时,样本均值的标准差为:
σ2=
σ2N -n
n N -1
其中,
N -n
为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,N -1
当总体为有限总体,N 比较大而≥5%时,修正系数可以简化为1-n/N,当N 比较大而n/N ﹤5%时,修正系数可以近似为1,即可以按重置抽样计算。
当总体服从正态分布时,样本均值一定服从于正态分布。若总体为未知的非正态分布时,只要样本容量n 足够大(通常要求n ≥30),样本均值x 仍会接近正态分布,其分布的期望值
为总体均值,方差为总体方差的1/n。这就是统计上著名的中心极限定理,这一定理可以表述为:从均值为μ、方差为σ的总体中,抽取样本量为n 的随机样本,当n 充分大时(通常要求n ≥30),样本均值的分布近似服从均值为μ、方差为σ/n 的正态分布。如果总体不是正态分布,当n 为小样本时(通常n ﹤30),样本均值的分布则不服从正态分布。
总体比例:π 样本比例:P
P 的方差与抽样方法有关,在重置抽样条件下,有:σ在不重置抽样时,P 的方差为:σ
2p =
2
2
2
p
=
π(1-π)
n
π(1-π) N -n
n N -1
π(1-π)
在重置抽样时,P 的分布为:P~N(π,)
n
π(1-π) N -n
在不重置抽样时,P 的分布为:P~N(π,)
n N -1
一般当讲,当n p ≥5,并n(1-P)≥5时,就可以认为样本容量足够大。对于无限总体,不重置抽样可以视为重置抽样计算方差。对于有限总体,当N 很大,而n/N≤5%时,修正系数
N -n
会趋向1,这时也可以按重置抽样计算方差。 N -1
随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕
总体比例分布的峰度愈来愈高。
统计量的标准误差也叫标准差。是用于衡量样本统计量的离散程度,样本均值的标准误差用SE 或σx 表示,计算公式为: σ=差s 代替。
样本比例的标准误差可以表示为:σP =
2
σ
n
当总体标准差σ未知时,可以用样本标准
π(1-π)
n
当总体比例的方差π(1-π)未知时,可用样本比例P(1-P)代替。 二、参数估计
参数估计就是用样本统计量去估计总体的参数。
用样本统计量来估计总体参数有两种方法:点估计和区间估计。
常用的点估计是用样本均值x 估计总体均值μ、用样本比例P 估计总体比例π,用样本方差s 2估计总体方差σ。
区间估计就是根据估计可靠程度的要求,利用随机抽取的样本的统计量值确定能够酸辣
2
总体参数的可能敬意的一种估计方法。它是包括样本统计量在内的一个敬意,该区间通常是由样本统计量加减估计标准误差得到的。
样本均值x 在总体均值μ一个正负标准差的区间内的概率为68.27%,在两个正负标准差的区间内的概率为95.45%,在三个正负标准差的区间内的概率为99.73%。
标准化公式:Z=
样本均值-总体均值-μ
=
样本均值标准差σ/n
当(x -μ)=±
σ
n
时,Z=±当(x -μ)=±2
σ
n
时,Z=±当(x -μ)=±3
σ
n
时,Z=±Z 所对应的概率称为置信度或置信水平, 将(-μ)≤±Z
σ
n
表示的范围称为置信区间.
以68.27%的置信水平推断总体参数μ的置信区间为(Z=1): (x -
σ
n
,x +
σ
n
)
以95.45%的置信水平推断总体参数μ的置信区间为(Z=2): (x -2
σ
n
,x +2
σ
n
)
以99.73%的置信水平推断总体参数μ的置信区间为(Z=3): (x -3
σ
n
,x +3
σ
n
)
评价估计量的标准有三个:无偏性;有效性(方差尽可能小);一致性。
在对总体均值进行区间估计时,需要考虑总体是否为正态颁、总体方差是否已知、用于估计的样本是大样本(n ≥30)还是小样本(n ﹤30)等几种情况。
大样本的估计:当总体方差σ已知时,总体均值μ在1-α置信水平下的置信区间为: (x -Z α/2
2
σ
n
,x + Zα/2
σ
n
)
当总体方差σ未知时,上式中的σ可用样本方差s 2代替,这时总体均值μ在1-α置信水平下的置信区间为:
(-Z α/2
22
s n
,+ Zα/2
s n
)
小样本的估计:对总体均值的估计都是建立在总体服从正态分布的假定前提下,如果正态总体方差σ已知,样本均值经过标准化后仍服从标准正态分布,此时仍可用:(-Z α/2
2
s n
,+ Zα/2
s n
)建立总体均值的置信区间。
当正态总体方差σ未知时,样本均值经过标准化后服从自由度为(n-1)的t 分布,总体均值的置信区间为:
(x -t α/2
2
s n
,x + tα/2
s n
)
一个总体比例的区间估计: Z=
P -π
(1-)
n
~N(0,1)
同总体均值的置信区间构造方法同理,可得在1-α置信水平下的置信区间为: (P —Z α/2×
π(1-π)
n
,P+Z α/2×
π(1-π)
n
)
但一般总体比率π未知,需用样本比率P 代替,即 (P —Z α/2×
p (1-p )
,P+Z α/2×n p (1-p )
) n
三、样本量的确定
设E 代表允许的估计误差(即误差范围),可以推导出所需的样本量计算公式如下:
(Z/2) 2σ2n=
2E
从公式可以看出,样本量与置信水平成正比关系,在其他条件不变的情况下,置信水平越高,所需的样本量也就越大。样本量与总体方差成正比,总体的差异越大,所要求的样本量也就越大。样本量与允许的估计误差的平方成反比,即允许的估计误差的平方越大,所需
的样本量就越小。简言之,要求一个置信程度很高又误差很小的估计,就需要更大的样本量。
估计总体比例时的样本量的确定:
(Z) 2π(1-π) n=
2E
大多数情况下,E 的取值一般应小于0.1,如果总体比例π的值不知道可以用样本比例p 来代替,或者取π=0.5,使得π(1-π) 达到最大。
四、假设检验
假设检验是先对总体参数或分布形式提出某种假设, 然后利用样本信息和样本统计量的分布特征去检验这个假定, 做出是否拒绝原来假设的结论.
小概率事件:在一次事件中几乎不可能发生的事件。一般称之为“显著性水平”,用α表示。显著性水平一般取值为:α=0。05或α=5%。
假设检验的过程:
首先要提出一个原假设和备择假设。原假设也称为零假设,记为H 0。备择假设又称为备选假设,记为H 1。
第二,确定检验统计量。
在对总体的均值进行检验时,大样本应用正态分布检验,计算Z 统计量,小样本一般用t 分布检验,计算t 统计量。
第三,确定显著性水平α。
根据样本所得的数据来拒绝零假设的概率应小于0.05,当然也可能是0.01,0.005,0.001等等。拒绝正确零假设的错误常被称为第一类错误或弃真错误α。当备选假设正确时反而说零假设正确的错误,称为第二类错误或取伪错误β。
假设检验决策结论及其后果:
决策结果 不拒绝H 0 拒绝H 0
实际情况
H 0为真 正确决策 弃真错误α
H 0为伪 取伪错误β 正确决策
对于两类错误的分析,要注意只有拒绝原假设时,才有可能犯第一类错误,只有不拒绝原假设时,才有可能犯第二类错误。
在一般的假设的问题中,犯第一类错误的概率最大不超过α,但由于备选假设往往不是一个点,所以无法算出犯第二类错误的概率β。一般情况下,人们认为犯第一类错误的后果
更严重一些,因此通常会取一个较小的α的值。通常选择显著性水平为0.05或比0.05更小的概率。
第四,根据数据计算检验统计量值和与这个统计量值对应的概率值P 值,并进行决策。 拒绝域的大小与显著性水平有关。当样本量固定时,拒绝域随α的减小而减小。
如果P 值小于或等于α,就拒绝原假设,这时错误的概率最多为α;P 值大于α,就不能拒绝原假设,因为证据不足。
检验决策准则:
双侧检验:|统计量的值|>临界值,或P ≤α时,拒绝原假设。
左侧检验:统计量的值<临界值,或P ≤α时,拒绝原假设。
右侧检验:统计量的值>临界值,或P ≤α时,拒绝原假设。
对假设检验进行总结:
一是假设检验依据的是小概率原理;二是小概率标准在抽样前依需要确定;三是假设检验的结果只能是拒绝或不拒绝原来假设,而不能证明原假设成立;四是统计假设检验的结果不是正确。
(一) 大样本的检验
在大样本的情况下,样本均值的抽样分布服从正态分布,因此采用正态分布的检验统计量,当总体方差已知时,总体均化零为整检验的统计量为: Z =-μ-μ,当总体方差未知时,可作样本方差来代替,即Z = s /n σ/n
(二) 小样本的检验
在小样本(n <30)情况下,检验时首先假定总体均值服从正态分布。检验统计量的选择与总体方差是否已知有关。
如果总体方差σ已知,样本均值经过标准化后仍服从标准正态分布,此时仍可用对总体均值进行检验:Z =2-μ σ/n
如果总体方差σ未知,样本均值经过标准化后仍服从自由度为(n-1)的t 分布。因此,需要采用t 分布进行检验。检验的统计量为:t =
总体比例的假设检验:
11 2-μs /n 。
双侧检验:H 0:π=π0,H 1:π≠π0。
左侧检验:H 0:π≥π0,H 1:π<π0。
右侧检验: H 0:π≤π0,H 1:π>π0。
在大样本时,样本比例会近似服从正态分布,所以检验统计量仍用Z 统计量,即Z=P -π0
0(1-0)
n
一、 相关分析与回归分析
(一) 相关分析
相关分析的主要内容包括:
一是确定现象之间有无关系,这是相关分析的起点,只有存在相互储存关系,才有必要进行进一步的分析。
二是确定相关关系的表现形式,只有判明了现象之间相关关系的具体表现形式,才能运用相应的回归分析方法进一步分析现象之间的数量依存关系,如果把曲线相关误认为是直线相关,按直线相关来分析,便会出现认识上的偏差,导致错误的结论。
三是测定相关关系的密切程度。
散点图又称相关图。
相关的形态:
若变量Y 与变量X 的相关关系表现为线性组合,或绘制的散点图近似地表现为一条直线或直线带,则称之为线性相关,若Y 与X 是非线性组合,或绘制的散点图近似地表现为一条曲线,则称之为非线性相关或曲线相关。
相关的方向:
当两个变量的变动方向总体上相同,即一个变量增加,另一个变量也相应地增加,或一个变量减少,另一个变量也相应地减少时,两个变量之间的关系属于正相关;若两个变量变动的方向总体上相反,即一个变量增加的同时,另一个变量随之减少时,两个变量之间的关系属于负相关。
相关系数是测定变量之间关系密切程度的量,它能够以数字准确地描述变量之间的相关程度。相关系数的计算公式是:
12
r =∑(x i -)(y i -)
∑(x i -) 2(y i -) 2=n ∑x i y i -∑x i ∑y i n ∑x i 2-(∑x i ) *n ∑2y i 2-(∑y i ) 2
相关系数具有如下性质:
1.r 的取值范围在-1~1,即-1≤r ≤1.r >0表明x 与y 之间存在正线性相关关系;r <0表明x 与y 之间存在负线性相关关系;r 值越接近1(或-1)就越正(或负)相关,越接近0,就越不相关。r=1或r=-1表明x 与y 是安全相关关系(实际上就是函数关系)。
2.r 具有对称性。
3.r 数值大小与X 和y 的数据原点及计量尺度无关。
4.r 仅仅是X 与y 之间线性关系的一个度量,它不能用于描述非线性关系。这意味着,r=0只表示两个变量之间不存在线性相关,并不表明变量之间没有任何关系,比如他们之间可能存在非线性相关关系。
5.r 虽然是两个变量之间线性关系的一个度量,却不一定意味着x 与y 一定有因果关系。
可将相关程度分为以下几种情况:
当|r |≥0.8时,可视为高度相关;当0.5≤|r |<0.8时,可视为中度相关;当0.3≤|r |<0.5时,可视为低度相关;当|r |<0.3时,说明两个变量之间的相关程度极弱。
相关系数的检验:
相关系数的检验通常用t 分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下:
首先确定原假设:
H 0:两变量之间不存在线线性相关 或 H 0:p=0
H 1:两变量之间存在线线性相关 或 H 1:p ≠0
其次,计算统计量t 值 t= r n -2
-r 2~t (n -2)
最后,利用其对应的概率值进行判断,如果概率值小于或等于指定的显著性水平(一般α=0.05),则我们可以拒绝原假设,接受备择假设,即两变量之间存在线性相关关系。否则不能原假设,可以认为两变量之间不存在显著的相关关系。
(二) 一元性回归分析
13
回归分析的主要内容有以下几个方面:
一是从样本数据出发,确定变量之间的数学关系式;
二是估计回归模型参数;
三是对所确定的关系式进行各种统计检验,并从影响某一特定变量的诸多变量中找出影响显著的变量。
线性理论回归模型为:y=β0+β1X+ε—y 为因变量,x 为自变量,βi 为未知参数,其中β0为回归常数,β1为回归系数。ε为随机误差项。
ˆ=b 0+b 1x 。要得到这些参数的最小无偏估计量,通常采用普估计的线性回归议程:y
ˆ) 2=Σ(y- b0-b 1x) 2达到最小。 通最小二乘法。使Q=∑(y -y
一元线性回归方和,其参数估计值的具体计算公式为: b 1 =n ∑xy -∑x ∑y
n ∑x -(∑x ) 22
b =-b 1
一般进行的评价与统计检验主要有:
一是经济意义检验;
二是回归议程的统计检验:包括两部分,对回归方程的显著性检验—F 检验,对ld 哪系数的检验—t 检验。
F 检验步骤:首先提出假设:H 0:β1=0(两个变量之间线性关系不显著)
H 1:β1≠0(两个变量之间线性关系显著)
然后计算检验统计量F ,并得出对应的概率(伴随概率)值:
F =SSR /1MSR =~F (1, n -2) SSE /(n -2) MSE
SSR 为回归平方和,SSE 为残差平方和,MSR 为回归均方(是回归平方和除以相应的自由度,在一元回归中自由度是1),MSE 为残差均方(是残差平方和除以相应的自由度,在一元回归中自由度是n-2)。
最后根据伴随概率进行判断,如果伴随概率小于我们事前确定的显著性水平α时,拒绝原假设,认为β1是不为零的,回归方和的线性关系是存在的。否则,不能拒绝原假设,即回归方程不存在线性关系。t 检验的概率伴随值,检验统计量 14
t =b i var(βi ) ~t (n -2) (var(βi ) 为回归系数的标准差)
三是回归方程的评价-拟合程度分析。回归方程的拟合程度分析最常用的指标是判定系数R 2。判定系数是用来说明回归方程对观测数据拟合程度的一个度量值。
ˆ) 2+∑(y ˆ-) 2 ∑(y -) 2=∑(y -y
∑(y -) 2:变差平方和SST
ˆ) 2:残差平方和SSE ∑(y -y
ˆ-) 2:回归平方和SSR ∑(y
ˆ为回归值, SST 为剩余平方和=残差平方和+回归平方和。 SST=SSR+SSE y
ˆ-) ˆ) 2∑(y -y SSR ∑(y 2==1-R = 2SST ∑(y -) 2∑(y -)
判定系数R 2的取值范围在【0,1】,R 2=1时,拟合是完全的,即所有观测值都在直线上,2
ˆ=,则R 2=0。可见,R 2超接近于1,表若x 与y 无关,x 完全无助于解释y 的变差,此时y
明回归平方和占总变差平方和的比重越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。反之,R 2越接近于0,回归直线的拟合程度越差。
估计标准误差是残差平方和的均方根,用S e 来表示,计算公式为:
ˆ) 2∑(y -y SSE S e =S e 越小,说明根据回归方和进行预测也就越准确,若各观测点=n -2n -2
全部落在直线上,则S e =0.
(三) 多元线性回归分析
一个因变量多个自变量的回归就是多元回归。多回线性回归模型的参数β0,β1,β2„„βk ,仍然是根据最小二乘法求得,也就是使残差平方和最小,即
ˆ) 2=∑(y -b 0-b 1x 1-...... -b k x k ) 2=min Q=∑(y -y
第一章 时间序列分析
时间序列是对一定时间间隔所发生的行为进行动态的跟踪分析,进而研究某些时间随时间变化是否有数量上的变化、有无统计上的显著性意义。
时间序列有两个要素构成:一是现象所属的时间;二是对应不同时间的统计指标数值。 15
(一) 时间序列的分析指标
时间数列的增长量分析主要有增长量和平均增长量。
反映时间序列增长率的指标主要有:发展速度、增长速度、平均发展速度和平均增长速度。
发展速度=报告期水平⨯100%,分为环比发展速度和定基发展速度: 基期水平
定基发展速度a i =y i (i =1, 2,.... n ) =报告期水平/基期水平。 y 0
y i (i =1, 2,.... n ) =报告期水平/前一期水平 y i -1环比发展速度b i =
y y y y 环比发展速度的连乘积等于对应的定基发展速度n =1⨯2⨯..... ⨯n ;两相邻时y 0y 0y 1y n -1
期定期发展速度相除的商=相应环比发展速度。
增长速度=增长量;增长速度=发展速度-1,分为环比增长速度和定基增长速度: 基期发展水平
定基增长速度A i =y i -y 0(i =1, 2,.... n ) =定基发展速度-1 y 0
y i -y i -1(i =1, 2,.... n ) =环比发展速度-1 y i -1环比增长速度B i =
平均发展速度与平均增长速度之间的关系:
平均增长速度=平均发展速度-1 平均发展速度一般用水平法计算,又称几何平均法。x =x 1. x 2...... x n =n ∏x i x 表示平均发展速度,∏表示连乘符号。由于环比发展速度的连乘积等于定基发展速度,因此平均发展速度公式也可写成x =
R 表示总发展速度。
(二) 长期趋势分析
一般将社会经济现象时间数列的总变动分解为4个主要因素:长期趋势、季节变动、循环变动、不规则变动。
加法模式:假定四种变动因素是相互独立的,则时间数列各期发展水平是各个影响因素 16 y n =R y 0
相加的总和,即Y=T+S+C+I;乘法模式是假定四种变动因素存在着某种想开影响关系,互不独立,因此,时间数列各期发展水平是各个影响因素相乘之积,即Y=T.S.C.I.
长期趋势直线趋势方程的一般公式为:T=a+bt -b
b =n ∑tY -∑t ∑Y
n ∑t -(∑t ) 22
(三) 季节变动分析
季节比率=同季平均数⨯100% 总平均数
第二章 统计指数
统计指数所研究的主要是狭义的指数,狭义的指数是表明复杂社会经济现象总体数量综合变动的相对数。广义的指数表明社会经济现象总体数量变动的相对数。
按反映对象范围的不同,分为个体指数和综合指数。
按所表明的经济指标性质不同,分为数量指数和质量指数。数量指数也称物量指数,是表明总体单位数量、规模等数量变动的相对数。质量指数是表明总体单位水平、工作质量等质量变动的相对数。
拉氏指数:德国经常学家拉斯贝尔主张不论是物价指数还是物量指数都采用基期作为权数的指数:
拉氏物价指数:L =∑q 0p 1
∑q 0p 0p ∑1q 0p 0p 0= ∑q 0p 0
q ∑1q 0p 0q 0= ∑q 0p 0拉氏物量指数:L =
拉氏物价指数:∑q 1p 0∑q 0p 0
L =∑q 0p 1800⨯2900+600⨯2400+1000⨯[1**********]===0. 9493或94. 93% 其∑q 0p 0800⨯3000+600⨯2500+1000⨯[1**********]
含义是报告期与基期相比,三种电器的综合价格降低了5.07%,即如果以基期销售量为准,消费者在购买这三种电器时,报告期比基期少支出了340000元(6360000-6700000)。
拉氏物量指数:
17
L =∑q 1p 0900⨯3000+700⨯2500+1200⨯[1**********]===1. 1657或116. 57% 其∑q 0p 0800⨯3000+600⨯2500+1000⨯[1**********]
含义是报告期与基期相比,三种电器的销售量综合提高了16.57%,即如果以基期价格为准,商家在销售这三种电器时,报告期比基期多收入了1110000元(7810000-6700000)。
派氏指数:德国经济学家派许主张不论是物价指数还是物量指数都采用报告期作为权数的指数。 ∑q p
派氏物价指数:p =11
0∑q p =p 11∑q p 1 ∑0q p p 111
∑q p
派氏物量指数:p =11
01∑q p =q 11∑q p ∑0q p q 111
派氏物价指数:
∑q p
p =∑q p 11=
10900*2900+700*2400+1200*[1**********]==0. 9488或94. 88% 900*3000+700*2500+1200*[1**********]
其含义是报告期与基期相比,三种电器的综合价格降低了5.12%,即如果以报告期销售量为准,消费者在购买这三种电器时,报告期比基期少支出了400000元(7410000-7810000)。 派氏物量指数:
∑q p
p =11
01∑q p =900*2900+700*2400+1200*[1**********]==1. 1651或116. 51% 800*2900+600*2400+1000*[1**********]
其含义是报告期与基期相比,三种电器的销售量综合提高了16.51%,即如果以报告期价格为准,商家在销售这三种电器时,报告期比基期多收入了1050000元(7410000-6360000)。
拉氏主要受基期商品(产品)结构的影响,派氏指数主要受报告期商品(产品)结构的影响。在实际应用中,由于派氏指数要求每期更换权数资料,计算比较麻烦,而拉氏指数的权数固定在基期,在编制长期连续性的指数数列时比较方便,因此,拉氏指数更得普遍的应用。但是从实际意义上看,派氏物量指数的解释更符合现实意义。
在编制物价指数时,要以商品的销售量或使用数量为权数;在编制物量指数时,要以商 18
品的价格或成本作为权数。
我国目前编制的价格指数主要有居民消费价格指数、农产品收购价格指数、工业品出厂价格指数、固定资产投资价格指数、房地产价格指数等。与人民生活关系最密切的是居民消费价格指数。
(一)居民消费价格指数:居民消费价格指数=100,表明报告期与基期相比综合物价没有变化;居民消费价格指数大于100,说明报告期与基期相比综合物价上升,价格指数越高,反映物价上涨得越多;居民消费价格指数小于100,说明报告期与基期相比综合物价下降。
居民消费价格指数除了能反映城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度外,还具有以下几个方面的作用:一是反映通货膨胀状况。
报告期居民消费价数格-指基期居民消费价格指数⨯100%;二是反映货币基期居民消费价格指数
1⨯100%;三是反映对职工实际工资的购买力变动。货币购买力指数=居民消费价格指数
名义工资(现价工资)影响。实际工资=。 消费价格指数通货膨胀率=
(二)股票价格指数
目前几种常见的股价指数有:道. 琼斯股票价格平均指数,标准普尔指数,恒生指数,上证股价指数。深圳股价指数
19