因子分析论文
各地区城市市政设施建设情况因子分析
计算B092 王静
【摘要】本文在搜集相关数据的基础上,采用因子分析法,对我国各地区城市
市政设施建设情况进行综合评价。 【关键词】因子分析 城市市政设施 一、 因子分析基本原理
因子分析的形成和发展已经有相当长的历史了,最早用于研究解决心理学和教育学方面的问题,目前这一方法的应用范围已十分广泛,在经济学、社会学、考古学、生物学、医学、地质学,以及体育科学等各个领域都取得了显著的成绩。
因子分析是主成分分析的推广和发展。它的基本思想是通过变量的相关系数矩阵内部结构的研究,找出能控制所有变量的少数几个随机变量去描述多个变量之间的相关关系。但在这里,这少数几个随机变量是不可观测的,通常称为因子。然后根据相关性的大小把变量分组,使得同组内的变量之间相关性较高,但不同组的变量相关性较低。因子分析有一个默认的前提条件就是各变量之间必须有相关性。具体在该条件的判断上, 除了根据专业知识来估计外, 还可以使用KMO统计量和Bartlett’s球型检验加以判定。本文的KMO值为0.856, 各变量之间的相关程度无太大差异, 数据做因子分析效果不错;
Bartlett’s球型检验也拒绝了0假设,因此各个变量指标间取值是有关系的。所以样本适合做因子分析。 二、 实证分析
1.变量名称
2.数据收集及处理分析
从中国统计年鉴(2005)选取31个省的上述6项数据,应用软件SPSS进行处理分析。
北 京 7482.7 256032.0 天 津
4240.3
河 北 7996.3 321439.0 山 西 4562.1 内蒙古
3627.8
辽 宁 10407.3 664359.0 吉 林 4563.4 黑龙江
9096.4
上 海 11028.0 267442.0 江 苏 26597.9 1169011.0 浙 江 11288.7 642965.0 安 徽 7262.9 264264.0 福 建 4643.7 290098.0 江 西
3670.8
山 东 23617.0 662650.0 河 南 6505.5 397351.0 湖 北 14434.1 303367.0 湖 南
5539.9
广 东 22528.6 1108886.0 广 西
4761.0
11212.5 5897.2 14987.7 6471.8 5935.9 15635.3 7165.8 10731.3 19795.0 35596.2 18776.8 12109.1 6801.7 6071.6 40082.8 13828.8 19958.9 8788.1 38856.0 7272.5
1285.0 6790.3 272.3
511.0 9332.3 93.2 181072.0
1271.0
9575.0
278.5
752.0 3113.6 116.0 259914.0 278.0 4031.9 101.0 376329.0
1300.0
9307.7
421.7
451.0 4817.0 135.9 213881.0 656.0 5738.6 248.6 428561.0
7297.0 6469.0 452.612680.0 25537.5 1017.85847.0 16942.0 503.61047.0 6680.2 307.21231.0
5427.1
195.5
428.0 3223.7 112.5 324801.0
3712.0 20082.5 510.11027.0 8622.6 249.91832.0
8791.0
425.7
504.0 4946.4 328.4 255498.0
3712.0
25168.1
543.1
548.0 3774.0 282.3 332056.0
海 南 重 庆
1096.6 3448.4
2234.2 5206.1 14015.4 2623.0 3393.3
126.0 1878.0 630.0 3752.5 1926.0
41.2 83849.0 63.4 179468.0
203.1
四 川 8263.8 642540.0 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
2057.9 2502.6
8946.9
300.0 3183.7 517.0 2653.2
11085.0
23.3 100437.0 161.2 162611.0
407.9 429.0 32.0 220.2 3060.5 2810.2
5526.7 4813.3
394.0 2919.3 307.0 2620.4
22856.0
41.4 156488.0 70.9 118703.0
539.9 888.7 63.0 534.7 8.5 1215.1 3706.4
2317.6 5532.4
120.0 861.4 54.0 118508.0 308.0 2940.3
124.4 215017.0
表1是6个分析变量的相关系数矩阵表,从表中可以看出这6个变量具有高相关性。
表2是KMO检验和Bartlett球形检验结果表。KMO检验用于检验变量间的偏相关系数是否过小,一般情况下,当KMO大于0.9时效果最佳,小于0.5时不适宜做因子分析。Bartlett球形检验用于检验相关系数矩阵是否是单位阵,如果结论是不拒绝该假设,则表示各个变量都是各自独立的。从表2可以看到KMO检验结果为0.856,接近0.9,很适合做因子分析,Bartlett球形检验的Sig.取值0.000,表示拒绝该假设,认为各个变量之间不是独立的。
表2 KMO检验和Bartlett球形检验结果表
表3是变量共同度表,表中给出了提取公共因子前后各变量的共同度,它
是衡量公共因子的相对重要性指标。比如表格的第一行数据说明变量“X1”的共同度为0.954,即提取的公共因子对变量“X1”的方差做出了95.4%的贡献。通俗地说,就是指变量“X1”中95.4%的信息已经被提取出来。
表3 变量共同度表
表4是主成分表,表中列出了所有的主成分,且按照特征根从大到小次序排列。从表中可见,第一主成分特征根为5.280,方差贡献率为88.001%,前两个主成分的累积贡献率为94.504%,根据提取因子的条件——特征值大于1,本例只选出了一个因子。
表4 主成分表
图1是碎石图,是按照特征根大小排列的主成分散点图。图中纵坐标为特征值,横坐标为因子数。从图中可见,除第一个主成分以外,其他的主成分特征根都很低。
图1 碎石图
表5为因子负荷矩阵,用来反映各个变量的变异可以主要由哪些因子解释。通过这个矩阵就可以给出各变量的因子表达式
X1=0.977F1+ε1 X2=0.959F1+ε2 X3=0.862F1+ε3 X4=0.961F1+ε4 X5=0.939F1+ε5 X6=0.927F1+ε6
因为只提取了一个公共因子,所以表达式中含有特殊因子ε。
表5 因子负荷矩阵
表6是因子得分系数矩阵。通过此表就可以得出用各个变量的线性组合表达的主成分。表达式是
F1=0.185X1+0.182X2+0.163X3+0.182X4+0.178X5+0.176X6
表6 因子得分系数矩阵
表7是因子得分的协方差矩阵,用来反映各因子间的联系程度。本例中只提取出了一个公共因子,故表格内容无实际意义。
表7 因子得分的协方差矩阵
三.结论
本文通过引入因子分析法,对年末实有道路长度、年末实有道路面积、城市桥梁、城市排水管道长度、城市污水日处理能力、城市路灯等6个因素进行了综合和简化,提取了1个具有明确意义的公共因子。有关的统计分析说明因子分析法提取的这个公共因子变量效果非常好。 参考文献:
[1]中国统计年鉴:北京:中国统计出版社,2005
[2]SPSS统计分析从基础到实践(第2版):北京:电子工业出版社,
2009
[3]佟 瑞 朱顺泉:基于因子分析法的我国各省市社会经济发展水平评价研究[J].经济理论问题,2005(9)
[4] 蒋 辉:广东省地区经济发展状况综合评价[J].统计应用.2005(12)