规划研究所研究论坛系列之三--统计分析方法
规划研究所研究论坛系列之三——统计分析方法
1. 统计的内涵
统计是一门学科,也是一种方法,是研究如何通过取自某总体的样本来描述和推断该总体的科学。当我们从已知总体开始,讨论样本具有怎样的性质、样本均值如何接近总体的均值,叫做演绎法——由一般(总体)去推证特殊(样本)。而当从抽取的已知样本出发,对被抽样的未知总体做出相应的结论,就叫做归纳法,或叫做统计推断——由特殊(样本)去推证一般(总体)。
在规划研究工作中,我们会在经意和不经意间使用统计学的方法和思路进行统计分析。比如,在判断城市或国家处于何种经济发展阶段时,人们会自然想到钱纳里的标准模型,对一个城市或者国家的人均国内生产总值进行测算,并根据汇率法或者购买力平价法等方法换算成1982年的美元价,以便判断该城市或国家是处于初级产品生产阶段还是工业化阶段或发达经济阶段。首先,从钱纳里模型的形成看,是采集了多个国家的统计数据进行归纳总结,是经过统计分析并经实践证实的成熟理论。而从我们使用该模型进行分析时,实质上就是通过已知总体去推断未知的样本,并做出相应的结论。
2. 统计的基本功能
涉及到统计与研究相关的功能,主要有两个方面:描述和推断(或预测)。
2.1 描述:
描述性统计是社会科学实证研究中最常用的方法,主要完成调查内容(或样本)中包含的大量数据资料进行整理、概括和计算等工作。准确、全面、正确的描述是所有实证分析的基础,我们在进行规划研究时,经常需要进行现状分析和描述,如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析结论都将是值得质疑的。
2.2推断(或预测):
谈及统计的推断功能,在研究中应用十分广泛的是回归和相关分析。回归是揭示一个变量(一般是因变量)如何和其他变量相联系的统计分析方法。根据自变量的个数,可以把回归分为二元回归和多元回归;根据自变量和因变量的联系形式,又可以把回归划分为线性回归和非线性回归两类。回归分析主要是揭示一个变量与其他变量的依存关系,通过建立诸多变量之间的回归模型,在一定的置信区间里,预测在给定条件下的(或者称已知自变量)因变量的值。相关分析则是泛指两个变量间的关联(联系)程度的分析,主要过变量的相关系数体现。回归模型和相关模型都要求Y (经常称之为因变量)是一个随机变量。但是两种模型在对X 的假定上是不同的。回归模型关于X 没有什么假定,但相关模型中则
要求X 和Y 一样也是随机变量。因此,回归模型有更广泛的应用。
3. 常用的统计分析方法
3.1 回归分析法
3.1.1一元线性回归
(1)一元线性回归模型的建立
一元线性回归模型描述的是两个要素(变量) 之间的线性相关关系。假设有变量x 和y ,x 为自变量,y 为因变量。则,一元线性回归模型的基本结构形式为
y a =a+bxa +ε
a
(1)
在(1)式中, a 和b 为待定参数;a=1,2,…,n 为n 组观测数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的下标;εa 为随机变量。
(1)参数a 、b 的最小二乘估计
离程度,即表示实际观测值与回归估计值之间的误差大小。参数a 与b 的最
根据取极值的必要条件,有
即
上述方程组可以进一步写成
方程组(4) 式通常被称为正规方程组,它又可以被写成矩阵形式
解上述正规方程组(4) 式或(4′)式,就可以得到关于参数a 与b 的拟合值:
n) 的平均值,
即
(2)一元线性回归模型的显著性检验
回归模型建立之后,需要对模型的可信度进行检验,以鉴定模型的质量。线性回归方程的显著性检验是借助于F 检验来完成的。
在回归分析中,y 的n 次观测值y 1,y 2„,y n 之间的差异,可用观测
可以证明
称为回归平方和。
由(9)式可以看出,当U 对L 的贡献越大时,Q 的影响就越小,回归模型的效
yy
果就越好。这样,就可以由统计量 衡量回归模型的效果,显然F 越大,就意味着模型的效果越佳。事实上,统计量F —F (1,n-2) 。在显著水平a 下,若F >F a (1,n-2) ,则认为回归方程效果在此水平下显著。一般地,当F <F 0.10(1,n-2) 时,则认为方程效果不明显。
3.1.2多元回归
当我们希望研究几个因子对Y 的影响时,很自然想到在回归方程中包含几个变量。在研究中,根据无法排除其他要素进行有控制(对照)的随机试验,数据只能来自有限的统计和观测。为了减少在简单回归中没有控制外来因子而可能发生的偏差,所以需要进行多元回归分析。其实,多元回归分析采用的方法仍然是最小二乘法,拟合的准则是使观测值与拟合值的偏差平方和最小。线性的多元回归方程的计算,通过Excel 的数据分析功能是可以实现的。多元回归分析可以向前加入变量法、自后淘汰变量法等方法,实现对无显著效应的变量的剔除和增加有效的新变量。
(1)多元线性回归模型的建立
假设某一因变量y 受k 个自变量x 1,x 2,„,x k 的影响,其n 组观测值为(y a ,x a1,x a2,„,x ak ) ,a=1,2,„,n 。那么,多元线性回归模型的结构形式为:
y a =β0+β1x a1+β2x a2+„+βk x ak +ε
a
(11)
在(11) 式中,β0,β1,„,βk 为待定参数,εa 为随机变量。如果b 0,b 1,„bk
分别为β0,β1,β2,„,βk 的拟合值,则得回归方程
在(12) 式中,b 0为常数,b 1,b 2,„,b k 被称为偏回归系数。偏回归系数b i
当其它自变量x j (j≠i)都固定时,自变量x 每变化一个单元(i=1,2,„,k) 的意义是,
而使因变量y 平均改变的数值。
i
根据最小二乘法原理,β
i (i=0
,1,2,„,k) 的估计值b i (i=0,1,2,„,k) 要使
由求极值的必要条件得
方程组(14) 式经展开整理后得
方程组(15) 式称为正规方程组。如果引入以下矩阵:
则正规方程组(15) 式可以进一步写成矩阵形式
Ab=B (15′)
求解(15′)式可得
b=A-1B=(X T X) -1X T Y (16)
如果引入记号
则正规方程组也可以写成
(2)多元线性回归模型的显著性检验
与一元线性回归模型一样,当多元线性回归模型建立以后,也需要进行显著性检验。
与前面的一元线性回归分析一样,因变量y 的观测值y 1,y 2,„yn 之间的波动或差异,是由两个因素引起的,一是由于自变量x 1,x 2,„,x k 的取值不同,另一是受其它随机因素的影响而引起的。为了从y 的总变差中把它们区分开来,就需要对回归模型进行方差分析,也就是将y 的总的离差平方和S 总(或L yy ) 分解成两个部分,即回归平方和U 和剩余平方和Q :
S 总=Lyy =U+Q
在多元线性回归分析中,回归平方和表示的是所有k 个自变量对y 的变差的总影响,它可以按公式
计算,而剩余平方和为
以上几个公式与一元线性回归分析中的有关公式完全相似。它们所代表的意义也相似,即回归平方和越大,则剩余平方和Q 就越小,回归模型的效果就越好。不过,在多元线性回归分析中,各平方和的自由度略有不同,回归平方和U 的自由度等于自变量的个数K ,而剩余平方和的自由度等于n-K-1,所以F 统计量为
当统计量F 计算出来之后,就可以查F 分布表对模型进行显著性检验。
(3)非线性回归模型的建立方法
除了线性关系以外,要素之间的非线性关系也是大量存在的。对于要素之间的非线性关系,若能找到某种途径将其转化为线性关系,则我们就可以借助于线性回归模型的建立方法,建立要素之间的非线性回归模型。事实上,这是可以办得到的,只要根据要素之间的关系设定新的变量,通过变量替换就可以将原来的非线性关系转化为新变量下的线性关系。譬如:
——对于指数曲线y=de,令y′=lny,x′=x,就可以将其转化为直线形式:y′=a+bx′,其中,a=lnd;
bx
——对于对数曲线y=a+blnx,令y′=y,x′=lnx,就可以将其转化为直线形式:y′=a+bx′;
——对于幂函数曲线y=dx,令y′=lny,x′=x,就可以将其转化为直线形式:y′=a+bx′,其中,a=lnd;
b
——对于幂函数乘积:
可以将其转化为直线形式:
上式中,β0=lnd;
——对于对数函数:y=β0+β1lnx 1+β2lnx 2+„+βk lnx k
以将其化为线性形式:
以上这种将非线性函数关系转化为线性关系的过程称为非线性关系的线性处理。不过,需要强调指出的是,这种转化过程并不能保证函数关系中变量个数不变。譬如,对于两变量的多项式
y=β0+β1x+β2x 2+„+βk x k
的
线性模型:
(4)非线性回归模型建立的实例
通过上述分析,我们可以得到建立非线性回归模型的一般方法:首先通过适当的变量替换将非线性关系线性化,然后再用线性回归分析方法建立新变量下的线性回归模型,通过新变量之间的线性相关关系反映原来变量之间的非线性相关关系。下面,我们结合实例,说明非线性地理回归模型的建立过程。
例如,黄土高原某地区1984—1990年期间,小麦亩产量(y) 与化肥使用量(x 1) ,以及农家肥(干纯粪) 使用量(x 2) 的数据如表2-8所示。试建立y 与x 1及x 2之间的相关关系模型。
表2-8 某地区小麦亩产量与化肥、农家肥使用量(千克/亩)
从表2-8可以看出,小麦亩产量(y) 随着化肥使用量(x 1) 及农家肥使用量(x 2) 的增加而增加,但肥料投入量的增长速度越来越高于小麦亩产量的增长速度,其间的关系可用对数变化规律来模拟,即
y=β0+β1lnx 1+β2lnx 2+ε (
19)
线性形式
变量替换后,各新变量对应的观测数据如表2-9所示。
表2-9变量替换后各新变量的对应数据
所以,正规方程组为
解上述正规方程组(20) 式可得
因此,(19′)式所对应的线性回归方程为
而对应于(19) 式的非线性回归方程为:
y=40.64341+47.388lnx1+6.39899lnx2
3.2 聚类分析法
聚类分析是研究将样品或变量进行分类的一种方法。比如在作产业规划时,需要对不同地区的产业实力或者产业集聚度等进行分析和评价,可供选择的指标包括地区产业总产值、总利润额、固定资产投资额、主要产品的品牌价值等多项指标(即变量),可能根据不同地区产业综合实力化分成“很强”、“较强”、“还行”几类,这是根据掌握的统计数据进行的分类。有时候,还需要对涉及的变量进行分类,比如在评价企业优劣时,一些指标是测量企业规模的,另一些指标测的是企业的效益,还有一些指标测算企业未来的发展潜力等(如R&D投入比例)等,则需要将以上变量进行分类。 3.2.1 聚类分析的法则
聚类分析就是通过建立一些法则或算法来进行直观的分类。为了得到比较自然的分类,就要按照研究对象(样品或者变量)在性质上联系的紧密程度来进行的。常用的手段包括“距离”和“相似系数”两种(后面将谈到计算过程)。前者常常用来对样品(即我们采用的观测数据)分类,把“距离”较近归并到一类,而把“距离”较远的归为不同的类。后者常常用来对变量分类,根据变量间的“相似系数”,将“相似系数”较大的归为同一类,而将“相似系数”较小的归为不同的类。不管是“距离”还是“相似系数”,都是描述研究对象的相似性即联系紧密程度的度量。不同的是,前者愈小表示愈相似,而后者则是愈大表示愈相似。 我们一般熟知“欧几里德”距离,即简单的直线距离。例如,两个点之间的坐标如果分别是(X 1 ,X2 , X3)和(Y 1 ,Y2 ,Y3),那么两点之间的距离为
d (A,B )=112233聚类分析谈及的距离是在“欧几里德”距离德公式推广到m 个变量所描述的两个点AB ,其中A 和B 的m 个坐标分别是(X 1,X 2,······,X m )和(Y 1,Y 1,······,Y m ),那么点A 、B 之间的距离可以定义为
d (A,B )=1122m m 3.2.2聚类要素的数据处理
对调查研究掌握的两组数据,可以通过以上公式测算两者之间的距离。但是,这种方法测算的距离是有问题的。首先,同一个变量,单位不同会导致不同的距离,比如,本地生产总值取亿元和万元,结果可能不同。其次,不同变量的度量
不一致,无法判断那个变量重要,那个变量的值最大。因此,先要对原始数据进行变换,最常用的方法就是将所有变量都转换为均值为0,方差为1的标准变量。即通过x 1=(X 1- X1)/S1的公式进行转换。假设有m 个被聚类的对象,每一个被聚类对象都有x 1,x 2,„,x n
个要素构成。它们所对应的要素数据可用下表给出。
(1) 总和标准化。分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素数据的总和,即
(2) 标准差的标准化,即
在(2) 式中,
即有
(3) 极大值标准化,即
经过这种标准化所得的新数据,各要素的极大值为1,其余各数值小于1。 (4) 极差的标准化,即
谱系聚类法是根据距离分类的方法,主要有聚集法和分割法。集聚法是先将所有研究对象都各自算作一类,将最“靠近”的首先聚类,再将这个类和其他类中最“靠近”的结合,这样继续合并直至所有对象都综合成一类为止。分割法正好相反,先将所有对象看成一大类,然后分割成两类,使一类中的对象尽可能“远离”另一类的对象;再将每一类继续这样分割下去,直至每个对象都自成一类为止。常用的相似系数包括变量间的相关系数、变量间的夹角余弦,即将两个变量分别看做n 维空间的向量时的夹角余弦值。对谱系聚类法的应用,后面将会有详细的介绍。
3.3主成分分析法
主成分分析简单的说就是一种简化数据结构的方法,如何把多个变量化为少数的几个综合变量,而这几个综合变量可以反映原来多个变量的大部分信息。主成分分析的目的是1)简化数据;2)揭示变量之间的关系。 3.3.1主成分分析的基本原理
主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n 个样本,每个样本共有p 个变量描述,这样就构成了一个n×p阶的数据矩阵:
要解决这一问题,自然要在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标来代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多指标所反映的信息,同时它们之间又是彼此独立的。那么,这些综合指标(即新变量) 应如何选取呢?显然,其最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。
如果记原来的变量指标为x 1,x 2,„,x p ,它们的综合指标——新变量指标为x 1,x 2,„,x m (m≤p)。则
在(2) 式中,系数l ij 由下列原则来决定: (1)z i 与z j (i≠j;i ,j=1,2,„,m) 相互无关;
(2)z 1是x 1,x 2,„,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,„,x p 的所有线性组合中方差最大者;„„;z m 是与z 1,z 2,„„zm-1都不相关的x 1,x 2,„,x p 的所有线性组合中方差最大者。
这样决定的新变量指标z 1,z 2,„,zm 分别称为原变量指标x ,x 2,„,x p
的第一,第二,„,第m 主成分。其中,z 1在总方差中占的比例最大,z 2,z 3,„,z m 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
1
从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,„,p )在诸主成分z i (i=1,2,„,m )上的载荷l ij (i=1,2,„,m ;j=1,2,„,p ),从数学上容易知道,它们分别是x 1,x 2,„,x p 的相关矩阵的m 个较大的特征值所对应的特征向量。 3.3.2主成分分析的计算步骤
通过上述主成分分析的基本原理的介绍,我们可以把主成分分析计算步骤归纳如下:
(1) 计算相关系数矩阵
在公式(3) 中,r ij (i ,j=1,2,„,p) 为原来变量x i 与x j 的相关系数,其计算公式为
因为R 是实对称矩阵(即r ij =rji ) ,所以只需计算其上三角元素或下三角元素即可。
(2) 计算特征值与特征向量
首先解特征方程|λI-R |=0求出特征值λ(i=1,2,„,p) ,并使其按大小顺序排列,即λ1≥λ2≥„,≥λp ≥0;然后分别求出对应于特征值λi 的特征向量e i (i=1,2,„,p) 。
i
(3) 计算主成分贡献率及累计贡献率
一般取累计贡献率达85-95%的特征值λ,λ2,„,λm 所对应的第一,第二,„„,第m (m ≤p) 个主成分。
1
(4) 计算主成分载荷
由此可以进一步计算主成分得分:
4. 统计软件的应用
4.1 回归分析
当我们需要研究两个变量X 和Y 之间的联系时,比如,家庭收入X 和在食品方面的消费支出Y ,出现X 变化时Y 也随着变化。如果能够用数学式子将这种关系表示时,则可以通过X 的值去预测Y 的值,或者是想得到某个范围的Y 值,也
可以控制X 的值。下表是某地1993-2003年的本地生产总值,姑且以此为例,来描述通过Excel 进行回归分析的全过程。
在Excel 中选取插入XY 散点图,可以得到相应的散点图如下。
图1 本地生产总值散点分布
(2)曲线拟合
我们可以通过一条穿过散布图的曲线来描述变量X 是如何影响变量Y 的。在进行曲线拟合时,合理的准则就是坐标点与拟合直线上对应的点之间的偏差最小。通过添加趋势线,我们先用直线进行拟合,得出结果如下:
图2 对散点分布的直线拟合效果
R 2=(Y 的可以解释的变差)/Y的总变差,R 2越大,表示回归拟合解释的变差越大,回归方程拟合越完美。从拟合结果看,R 2超过0.90,证明拟合效果很好。但是根据散点分布状况,还可以通过多项式拟合:
图3 对散点分布的多项式拟合效果
结果证明,R 2的值更大,说明多项式拟合的效果更好。因此,就可以通过多项式来对未来年份(比如2010年)的本地生产总值进行预测。
对回归方法的应用,为了保证预测值的准确性,必须在选择变量数据时,遵循相应的要求。其一,在进行曲线拟合时,需要尽可能的多收集变量数据,回到刚才进行的回归拟合,我们是选取了10年的本地生产总值;其二,有意识的加大X 值的变化范围。当然,对于上述案例,由于X 值(年份)是定距变量,因而不存在以上问题。
4.2 相关分析
提到相关,首先需要了解相关系数(即皮尔逊系数)。计算两个变量之间的相关系数,只需要把两个变量的两组统计数据(也叫样本数据)输入,通过Microsoft Excel的数据分析功能可以实现。相关系数作为衡量两个变量联系的密切程度的指标,其绝对值大小证明两个变量相关性的大小。
为了证明两个变量之间确实存在相关关系,必须进行假设检验。仍然以上述案例为例,对图2X (年份)和Y (本地生产总值)之间没有什么(线性)联系(不相关),在数学上这一假设表示为β=0,这里的β是指回归直线的斜率。除了简单的接受或者拒绝这一假设,还可以计算出假设的概值。通过t 统计量=(估计值-原假设值)/标准误差的计算公式,可以得到(单侧的)概值。下表是回归分析的输出结果,t 统计量为17.84,对照t 分布的临界值表,17.84的观测t 值超过了t 0.0005=4.781。因此,概值
4.3 对回归和相关分析的补充说明
在回归分析或是相关分析中,即使检验的结果证明两个变量之间存在联系,
但是不能得出X 和Y 之间存在因果关系的结论,即不能认为Y 的增大(或减少)是由于X 影响的结果。要研究因果关系,对观测数据的分析,必须进行多元回归分析才可能(部分的)剔除外来因素的影响,近似的分析因果关系。
5. 统计分析的表达
数据与文字如何融合是写好统计分析表达必须解决的重要问题,两者结合不好造成顾此失彼,结构紊乱的通病会严重影响了统计分析报告的表述效应。
5.1数据使用方面
其一,要准确,有真实性。采用的数据必须准确可靠,否则一个不实的数据就会影响全篇的说服力。同时,依据统计数据进行的分析判断要正确,符合客观实际,如某纺织厂的季度统计报告说该厂主导产品的销量比上年同期增加 1.25%,得出的却是“有大幅度提高”的结论,论断就无法令人信服。
其二,要新颖,有时效性。从事统计分析要具有敏锐的眼光,善于及时捕捉最新的统计数据,并及时作出中肯的分析。统计分析若采用滞后的统计数据或过时的文字描述不仅会弱化统计分析报告所提供的统计信息的使用价值,甚至会得出不正确的结论。
第三,要典型,有代表性。统计分析需要选择有代表性的统计数据,从而揭示出经济发展与社会生活的本质特征。“电子信息产品制造业、汽车制造业、石油化工及精细化工制造业、精品钢材制造业、成套设备制造业、生物医药制造业等六个重点发展的行业完成工业总产值6559.56亿元,比上年增长38.6%,拉动全市工业增长25.5个百分点,占全市规模以上工业总产值的比重达到63.4%,
其新增产值占全市规模以上工业新增产值的比重达到77.1%。”该统计公报据此分析,“重点发展行业对工业快速增长的拉动作用明显”。
对数据的使用上,尤其要注重文字和数据的搭配。我们既不能从头到尾对统计数据进行堆砌罗列,就数字论数字,脱离实际;也不能依赖主观判断,凭经验进行的文字描述。在统计分析中,要注意两者搭配的适度,数据引用应控制在篇幅的10~30%之间,分布也要均衡。比如,一篇统计分析报告为了表达某山区贫困的主要原因除了恶劣的自然环境外,还与该地“人口与经济增长不协调”有关的观点,就用了这样的统计数据“1950~1995年该地区粮食增长50%,年平均增长0.91%,而同期人口增长3倍,年平均增长3.13%,人口增长大大快于粮食增长,致使人均产量锐减,1950年人均粮食产量为320公斤,1995年人均粮食产量锐减到110公斤”。作者运用统计方法计算和精心提炼出6个统计指标数值,其中有两个定基增长速度指标值,两个平均增长速度指标值和两个平均发展水平指标值,它们在时间上的纵向比较,就具有很强的说服力。当然,在统计分析中必须采用系列统计数据的话,可以考虑通过列表显示或绘制成统计分析图等形式表示,这样达到形象直观地说明问题的效果。
5.2 统计描述方面
对绝对数和相对数的使用要慎重。考虑到我国人口众多,调查研究获取的统计数据往往很大,所以任何小概率事件用绝对数报告都会出现惊人的巨大数字,单纯对绝对数的强调往往会产生戏剧性的效果。比较合理的方式是在报告某事件绝对数的同时,给出该事件的发生率或相对数据。
在统计分析中要注重选取典型案例。在研究工作中,经常出现总体综合数据无法获取而又需要对该内容进行描述时,我们经常采用典型案例的方法替代。对于典型案例的选择,也是需要慎重考虑的。该案例的选择是否具有很强的代表性,毕竟在总体中选取对象,不排除选取对象所代表的现象不是大多数的,无法起到代表性作用,就丧失了典型案例分析的必要性和准确性。
要注意不同群体的可比性。在描述性统计中,往往涉及到对不同种群的总体描述,以反映地区差异。比如,在台州产业带规划调研中,我们发现,与台州各县市区相比,玉环县的工业万元产值用水量很低,仅为2.5 m3,而天台县(38.5 m 3)、仙居县(62.3 m3)的数据较高。但是我们不能仅凭这组数据断定,滨海地区主要是集约化用水型工业,而山区主要是耗水型工业。因为,玉环县缺水十分严重,许多水资源是通过向温州购买等途径解决,因此,工业的万元产值用水量较低。在这种特殊情况下,把玉环县作为滨海地区的代表,对山区和滨海地区两个群体的用水量比较就会导致错误的结论。
5.3 结构安排方面
统计分析讲究结构章法,数据与文字的组合技巧表现在三方面:
一是全文的谋篇布局,全文布局要服从统计分析的目的,突出全文主旨。所有统计数据的运用和文字语言的描述都要围绕主题。统计分析报告“大体须有,定体则无”,分析的目的不同,报告的章法也就不同,没有僵化的模式。可以先叙后议,先摆出数据,后作量化分析,予以议论阐述,揭示事物的规律与本质,
提出针对性的建议;也可以夹叙夹议,边列数据,边量化分析,边作理论阐述。
二是层次、段落的内在结构安排,层次段落安排要条理清晰,井然有序。层次的安排要反映事理逻辑,各段内容要清楚地体现层次意义。要注意段落的单一性和完整性,即每一段只说明一个中心意思。各层、各段既要相对独立又彼此关照,前呼后应。
三是自然段中句间意义的搭配。段内句子意义要精心搭配,增强统计分析的表现力和可读性。在统计分析中数据较多,文字简朴,易使人感到单调枯燥,有时需要讲究文句的组合技巧,通过比较等修辞手段,实现文字和数据组合的最佳效果。
6、统计分析典型案例
(见附件) 附录:推荐阅读的书籍
1. 调查研究中的统计分析法,柯惠新等编著,北京广播学院出版社2. 掌握和精通SPSS10,马春庭主编,机械工业出版社 3. 多元统计分析,于秀林等编著,中国统计出版社
附件1:企业经济效益的综合分析与评价
2001-06-19
摘要:通过构造企业经济效益的指标体系和经济效益的综合评价模型,实现了企业经营状态的评判。
1引言
企业经济效益是企业在经济活动中所取得的劳动成果与劳动消耗的比值。从生产经营角度分析,经济效益可用资产报酬率、权益报酬率等指标反映;从物化劳动效果角度分析,经济效益可用销售利税率、成本费用利税率、固定资产生产率和流动资产周转率等指标反映;而从活劳动效果角度分析,经济效益可用全员劳动生产率和人均利税率等指标反映。由于这些指标在一个企业的不同历史时期或同一时期的不同企业中表现出高低错落的状态,而很难作出经济效益的最终判断。为此,本文将运用加权组合方法来综合评价企业经济效益,并以此来全面反映企业的经济实力。
2经济效益指标体系的构建
2.1评价指标的无量钢化处理
根据设计评价指标体系的系统性、客观性、科学性、可比性和实用性的原则,从投入与产出、效率与效益方面分析,产出效益的指标可分为资产报酬率。权益报酬率、销售利税率、成本费用利税率,这些指标从投入生产要素的不同侧面反映了盈利程度和回收速度;从资源利用方面分析,产出效率的指标可分为固定资产生产率、流动资产周转率、全员劳动生产率和人均利税率,这些指标从投入生产要素的不同侧面反映了资源的利用效果和运行质量。
为了将不同量纲的数据综合成一个新的变量序列,因此需在综合评价之前对各序列进行无量纲化处理。本文采用极差法对上述8项指标(分别设为X1、X2„„、X8)进行无量纲化处理,其公式如下。无量纲化后数据可制表,表略。
其中:X ’t 为第t 个变量无量纲化数值。
2.2评价指标的相关性分析
产出效益和产出效率指标从投入生产要素的不同侧面反映了资本、人力及其组合的运行质量和有效程度,但在一定程度上这些指标间可能存在着线性相关、甚至是高度相关的关系,这将使经济效益的加权组合模型在综合评价过程中出现重复迭加现象。为此,应该对评价指标进行相关性分析,只保留相关性较大变量中的一个。经计算,上述8个变量间的相关系数见表1。从中看出,相关系数最大的为(R32)0.5014,说明评价指标间不存在高度相关关系。至此,企业经济效益评价指标体系由上述8项指标组成。
3企业经济效益的综合评价
3.1企业经济效益的加权组合评价
企业经济效益的加权组合模型为:
式中F 为经济效益的综合得分, W 为第t 个变量在综合经济效益中的权重;x ’t 为第t 个变量无量纲化后的数值;n 为变量个数。
每个变量在综合经济效益中的权重系数按层次分析法中的方根法确定,其步骤包括构造相对重要性判断矩阵(A )、计算A 中行元素乘积(M )、计算M 的n 次方根(G )、对G 现一化得相对权重(W ),其结果如表2。
经计算,判断矩阵A 的最大特征根(λmax )为8.84,A 的一致性指标(CI )为0.120,随机一致性比率(CR )为0.085。因为CR <0.1,认为判断矩阵具有满意的一致性。
根据企业经济效益加权组合模型,得到各企业综合得分依次为0.232,0.497,0.791,0.403,0.537,0.018,0.786, 0.208,0.409,0.361。按综合得分由大到小每隔0.25划分一个档次,10个企业的分类情况如表3。
3.2企业经济效益的聚类分析
聚类分析是从一批样品的多个观测指标中,找出能度量样本或指标之间相似程度的统计量,构成一个对称的相似性矩阵。在此基础上进一步寻找各样本或指标之间的相似程度,再按相似程度的大小把样本或变量逐一归类。聚类分析的步骤包括数据标准化(本文采用极差标准化方法)、计算相似性统计量(本文采用最小欧氏距离法,其公式如下)。
式中m 为样本数;n 为变量数。最后,接着D 中由最小到最大距离逐步进行归类,直至合并为一类。
根据有关数据,采用最小欧氏距离法分类结果及其聚类谱系图,类间距离如表4,从表4和聚类谱系图中看出,12、13、 14与15类到16类之间的差距较大,说明这时各类之间的内在性质已有较大的差异,已不宜再归为一类。因此,归类过程到此结束。
3.3经济效益的综合分析
结合企业经济效益综合得分表3与聚类谱系图,加权组合模型评价结论与聚类谱系图分类结果基本一致,如果将两种方法的第二与第三类合并会得到完全一致的结论。由此,也充分说明了加权组合模型法在综合评价企业经济效益过程中的有效性和可行性。至此,企业经济效益的综合评价结论,表3已作了详尽的叙述。
4结束语
企业综合经济效益的分析与评价,通过多项指标的加权组合实现了定量化测度,它有效地揭示了生产要素利用及其组合运行的质量,将为企业优化资本结构、实现资源最佳配置,实现集约发展提供科学依据。
作者:辽宁工学院 尹子民,余佳群,罗丽兮 来源:《技术经济与管理研究》2000年第6期
附件2:对某地区九个农业区的聚类分析案例
表1 某地区九个农业区的七项经济指标数据
表2 极差标准化处理后的数据
一、距离和相似系数的计算
距离是事物之间差异性的测度,而相似系数则是其相似性的测度,所以距离和相似系数是聚类分析的依据和基础。当聚类要素的数据处理工作完成以后,就要计算分类对象之间的距离或相似系数,并依据距离或相似系数的矩阵结构进行聚类。
(一) 距离的计算
如果我们把每一个分类对象的n 个聚类要素看成n 维空间的n 个坐标轴,则每一个分类对象的n 个要素所构成的n 维数据向量就是n 维空间中的一个点。这样,各分类对象之间的差异性就可以由它们所对应的n 维空间中点之间的距离度量。常用的距离有
(1) 绝对值距离
(2) 欧氏距离
(3) 明科夫斯基距离
(7) 式中,p≥1。当p=1时,它就是绝对值距离;当p=2时,它就是欧氏距离。 (4) 切比雪夫距离。当明科夫斯基距离p→∞时,有
选择不同的距离,聚类结果会有所差异。在地理分区和分类研究中,往往采用几种距离进行计算、对比,选择一种较为合理的距离进行聚类。
据表2中的数据,用公式(5) 式计算可得九个农业区之间的绝对值距离矩阵如下:
(二) 相似系数的计算
常见的相似系数是夹角余弦和相关系数,其计算公式如下: (1) 夹角余弦:
在(10) 式中,显然有:-1≤cosθij≤1。 (2) 相关系数:
值。
据表2中的数据,用夹角余弦公式(10) 式计算,可得如下的相似系数矩阵:
二、直接聚类法
直接聚类法,是根据距离或相似系数矩阵的结构一次并类得到结果,是一种简便的聚类方法。它先把各个分类对象单独视为一类,然后根据距离最小或相似系数最大的原则,依次选出一对分类对象,并成新类。如果其中一个分类对象已归于一类,则把另一个也归入该
类;如果一对分类对象正好属于已归的两类,则把这两类并为一类。每一次归并,都划去该对象所在的列与列序相同的行。那么,经过m-1次就可以把全部分类对象归为一类,这样就可以根据归并的先后顺序作出聚类分析的谱系图。
下面,我们据距离矩阵(9) 式,用直接聚类法对某地区的九个农业区进行聚类分析。 第一步,在距离矩阵D 中,除对角线元素以外,d 49=d94=0.51为最小者,故将第4区与第9区并为一类,划去第9行和第9列;
第二步,在余下的元素中,除对角线元素以外,d 75=d57=0.83为最小者,故第5区与第7区并为一类,划掉第7行和第7列;
第三步,在第二步之后余下的元素之中,除对角线元素以外,d 82=d28=0.88为最小者,故将第2区与第8区并为一类,划去第8行和第8列;
第四步,在第三步之后余下的元素中,除对角线元素以外,d 43=d34=1.23为最小者,故将第3区与第4区并为一类,划去第4行和第4列,此时,第3、4、9区已归并为一类。 第五步,在第四步之后余下的元素中,除对角线元素以外,d 21=d12=1.52为最小者,故将第1区与第2区并为一类,划去第2行与第2列,此时,第1、2、8区已归并为一类;
第六步,在第五步之后余下的元素中,除对角线元素以外,d 65=d56=1.78为最小者,故将第5区与第6区并为一类,划去第6行和第6列,此时,第5、6、7区已归并为一类; 第七步,在第六步之后余下的元素中,除对角线元素以外,d 31=d13=3.10为最小者,故将第1区与第3区并为一类,划去第3行和第3列,此时,第1,2,3,4,8,9区已归并为一类。
第八步,在第七步之后余下的元素中,除去对角线元素以外,只有d 51=d15=5.86,故将第1区与第5区并为一类,划去第5行和第5列,此时,第1,2,3,4,5,6,7,8,9区均归并为一类。
根据上述步骤,我们可以作出聚类过程的谱系图。直接聚类法虽然简便,但在归类过程中是划去行和列的,因而难免有信息损失。
附件3:主成分分析实例
对于某区域地貌-水文系统,其57个流域盆地的九项地理要素:x 1为流域盆地总高度(m)x 2为流域盆地山口的海拔高度(m) ,x 3为流域盆地周长(m) ,x 4为河道总长度(km) ,x 5为河道总数,x 6为平均分叉率,x 7为河谷最大坡度(度),x 8为河源数及x 9为流域盆地面积(km 2)的原始数据如表1所示。
表1 某57个流域盆地地理要素数据
(1)首先将表2-14中的原始数据作标准化处理,由公式(4)计算得相关系数矩阵(见表2)。
表2 相关系数矩阵
(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表3)。由表3可知,第一,第二,第三主成分的累计贡献率已高达86.5%,故只需求出第一,第二,第三主成分z 1,z 2,z 3即可。
表3 特征值及主成分贡献率
(3)对于特征值λ1=5.043,λ2=1.746,λ3=0.997分别求出其特征向量e 1,e 2,e 3,并计算各变量x 1,x 2,„„,x 9在各主成分上的载荷得到主成分载荷矩阵(见表4)。
表4 主成分载荷矩阵
从表4可以看出,第一主成分z 1与x 1,x 3,x 4,x 5,x 8,x 9有较大的正相关,这是由于这六个地理要素与流域盆地的规模有关,因此第一主成分可以被认为是流域盆地规模的代表:第二主成分z 2与x 2有较大的正相关,与x 7有较大的负相关,而这两个地理要素是与流域切割程度有关的,因此第二主成分可以被认为是流域侵蚀状况的代表;第三主成分z 3与x 6有较大的正相关,而地理要素x 6是流域比较独立的特性——河系形态的表征,因此,第三主成成可以被认为是代表河系形态的主成分。
以上分析结果表明,根据主成分载荷,该区域地貌-水文系统的九项地理要素可以被归为三类,即流域盆地的规模,流域侵蚀状况和流域河系形态。如果选取其中相关系数绝对值最大者作为代表,则流域面积,流域盆地出口的海拔高度和分叉率可作为这三类地理要素的代表,利用这三个要素代替原来九个要素进行区域地貌-水文系统分析,可以使问题大大地简化。