原创 数据分析课程设计--主成分分析论文
* * 大 学
数据分析课程设计论文
题目:我国各省市自治区社 会发展的综合状况指标分析
学院: 专业: 姓名: 学号:
我国各省市自治区社会发展的综合状况
指标分析
摘要
一个地区的全面发展必须使经济和社会协调发展。为了全面衡量社会发展水平, 有必要选择一套能反映社会发展的有代表性的社会指标进行综合评价,对每个地区的社会发展水平进行测量分析, 我们根据各地区统计指标, 选择了有代表性的社会经济指标, 包括城镇居民可支配收入、农村居民可支配收入、在校学生数、学校数、卫生机构数、固定资产投资总额等方面数据进行综合考察,利用主成分分析方法对各地区综合发展状况进行评价。
论文中主要运用的方法是主成份分析法。主成份分析法的目的是利用降维的思想,把多指标转化为少数几个综合指标。分析出主成分后,对数据进行综合排名,能较直观的反应社会发展的综合状况,便于分析各省市自治区的社会发展情况和影响因素。
关键词:各省自治区 社会发展综合状况指标 主成分分析 排名
目录
一、 问题的提出„„„„„„„„„„„„„„„„„„„ 4 二、 基于主成份分析的社会发展综合状况指标的筛选
2.1原理概述„„„„„„„„„„„„„„„„„„„„„„ 4
2.1.1主成分分析的一般数学模型„„„„„„„„„„ 4 2.1.2主成分分析确定的一般原则„„„„„„„„„„ 5 2.1.3主成分分析的基本步骤„„„„„„„„„„„„ 5
2.1.4主成分分析得到的主成分与原始变量之间的关系„ 5
2.2 原始数据及来源„„„„„„„„„„„„„„„„„„„ 6 2.3 对指标的主成分分析及筛选„„„„„„„„„„„„„ 7 2.3.1 操作过程„„„„„„„„„„„„„„„„„„ 7
2.3.2 实验结果输出„„„„„„„„„„„„„„„ 8
2.3.3 实验结果分析„„„„„„„„„„„„„„„ 12 三、 总结„„„„„„„„„„„„„„„„„„„„„„ 14 参考文献„„„„„„„„„„„„„„„„„„„„„„„ 16 附录„„„„„„„„„„„„„„„„„„„„„„„„„ 16
第一章 问题的提出
中国的经济和社会的发展如何让才能踏上一条内外和谐、全面增长的稳健之路,不但攸关中国自身的利益,也成为举世瞩目的焦点。本文根据各省的社会发展指标,将全国主要省份社会实力进行排名,从而可以为政府决策部门对社会的发展规划提供一定的依据。日后通过政府政策的调整,各省再发挥各自优势力量,抓住机遇,社会全发张和可持续发展能力一定会进一步提高。
社会发展状况评价的难点在于反映社会发展的指标众多,每一项指标又会从不同视角反映社会发展状况。所以,依据他们作综合评价有一定难度。我们可以看到,成份分析法的目的是利用降维的思想,把多指标转化为少数几个综合指标,从而很好地解决了这一问题。
第二章 基于主成份分析的社会发展综合状况指标的筛选
2.1原理概述
主成分分析是考察多个定量(数值)变量间相关性的一种多元统计方法。它是研究如何通过少数几个主分量(即原始变量线性组合)来解释多变量的方差——协方差结构。具体地说,是导出少数几个主分量,使它们尽可能多地保留原始变量的信息,且彼此间不相关。主成分分析常被庸吏寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以恰当解释,以便更深刻地解释事物内在的规律。
2.1.1 主成分分析的一般数学模型
假设有n 个样本,每个样本测得p 项指标(p
如果记原来的变量指标为x 1, x 2 x p ,它们的综合指标——新变量指标为
x 1, x 2 ,z m (m≤p)。则
⎧x 1=l 11x 1+l 12x 2+ +l 1p x p ⎪
⎪x 2=l 21x 1+l 22x 2+ +l 2p x p
(2) ⎨
⎪ ⎪z m =l m 1x 1+l m 2x 2+ +l mp x p ⎩
在(2) 式中,系数l ij 由下列原则来决定:
(1)z i 与z j (i≠j;i ,j=1,2,„,m) 相互无关;
(2)z 1是x 1,x 2,„,x p 的一切线性组合中方差最大者;z 2是与z 1不相关的x 1,x 2,„,x p 的所有线性组合中方差最大者;„„;z m 是与z 1,z 2,„„zm-1都不相关的x 1,x 2,„,x p 的所有线性组合中方差最大者。
这样决定的新变量指标z 1,z 2,„,zm 分别称为原变量指标x ,x 2,„,x p
的第一,第二,„,第m 主成分。其中,z 1在总方差中占的比例最大,z 2,z 3,„,z m 的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。
从以上分析可以看出,找主成分就是确定原来变量x j (j=1,2,„,p) 在诸主成分z i (i=1,2,„,m) 上的载荷l ij (i=1,2,„,m ;j=1,2,„,p) ,从数学上容易知道,它们分别是x 1,x 2,„,x p 的相关矩阵的m 个较大的特征值所对应的特征向量。
2.1.2 主成分分析确定的一般原则
在主成分分析中希望用尽可能少的主成份包含原来尽可能多的信息,有以下几点原则:
(1)主成分的累积贡献率:一般来说,提取主成份的累计贡献率达到80%~85%以上就比较满意了,可以此确定提取多少个主成分。
(2)特征根:特征根在某种程度上可以被看成是表示主成分影响力度大小的指标,如果特征根小于1,说明该主成分的解释力度还不如直接引入一个原始变量的平均解释力度大。因此一般可以用特征根大于1作为纳入标准。
(3)综合判断:大量的实践表明,如果根据累积贡献率确定主成分个数往往较多,而用特征根确定又往往偏低,许多时候应该将二者结合起来,以综合确定合适的数量。
2.1.3 主成分分析的基本步骤
在实际操作中,主成分分析主要是按照如下的步骤来对实际问题进行分析的: 第一步:对原p 个指标n ×p 个原始变量标准化。目的是为了消除变量之间在数量级上或量纲上不用而产生的影响,以使每个变量的均值为0,方差为1。变换标准化的公式为:
1
j X*ij −X
X*ij =j
j 和σj分别是第j 个变量的平均值和标准差; 其中X
第二步,根据标准化矩阵求出协方差矩阵; 第三步,求出协方差矩阵的特征根λ
第四步,确定主成分,结合专业知识给出各主成分所蕴含的信息,给予恰当的解释,并利用它们来判断样本的特性。
2.1.4 主成分分析得到的主成分与原始变量之间的关系
主成分分析就是设法将原来众多的具有一定相关性的指标,重新组合成一组新相互无关的综合指标来代替原来指标(比如p 个指标)。通常数学上的处理就是将原来p 个指标做线性组合,作为新的综合指标,但是这种线性组合,如果不加限制,则可以有很多,我们应该如何去选取呢?
如果将选取的第一个线性自合即第一个综合指标为F 1,自然希望F 1尽可能多的反映原来指标的信息,这里的“信息”用什么来表达?最经典的方法就是用
F 1的方差来表达,即Var(F 1) 越大,表示F 1包含的信息越多。因此在所有的线性组合中所选取的F 1应该是方差最大的,故称F 1为第一主成分。如果第一主成分不足以代表原来p 个指标的信息,再考虑F 2即选第二个线性组合,为了有效的反映原来的信息,F 1已有的信息就不需要再出现在F 2中,用数学语言表达就是要求Cov (F 1,F 2)=0,称F 2为第二主成分,以此类推可以造出第三、四„p 个主成分。不难想象这些主成分之间不仅不相关,而且它们的方差依次递减。因此在实际工作中,就挑选前几个最大的主成分虽然这样做会损失一部分信息,但是由于它们抓住了主要矛盾,并从原始数据中进一步提取了某些新的信息,因而在某些实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。
一般来说,利用主成分分析得到的主成分与原始变量之间有如下基本关系: (1) 每个主成分都是各原始变量的线性组合 (2) 主成分的数目大大少于原始变量的数目 (3) 主成分保留了原始变量绝大多数信息 (4) 各主成分之间互不相关
通过主成分分析可以从事物之间错综复杂的关系中找出一些主成份,从而有效的利用大量统计数据进行定量分析,揭示变量之间的内在关系,得到对事物特征及发展规律的一些深层次的启发,把研究工作引向深入。
2.2 原始数据及来源
本论文数据来源于中国统计年鉴《2006年全国各省自治区社会发展综合状况指标》
单位:亿元
人均地区
城镇居
地 区
民
农村居民 在校 学校数 卫生 固定资产 生产总值 可支配
家庭人均
学生数
(所)
机构数 投资总
每万人
拥有公共
(元)
北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
50467 41163 16962 14123 20053 21788 15720 16195 57695 28814 31874 10055 21471 10798 23794 13313 13296 11950 28332 10296 12654 12457 10546 5787 8970 10430 12138 8757 11762 11847 15000
收
入(元) 纯收入(元) (人)
8275.47 6227.94 3801.82 3180.92 3341.88 4090.4 3641.13 3552.43 9138.65 5813.23 7334.81 2969.08 4834.75 3459.53 4368.33 3261.03 3419.35 3389.62 5079.78 2770.48 3255.53 2873.83 3002.38 1984.62 2250.46 2435.02 2260.19 2134.05 2358.37 2760.14 2737.28
19977.52 14283.09 10304.56 10027.7 10357.99 10369.61 9775.07 9182.31 20667.91 14084.26 18265.1 9771.05 13753.28 9551.12 12192.24 9810.26 9802.65 10504.67 16015.58 9898.75 9395.13 11569.74 9350.11 9116.61 10069.89 8941.08 9267.7 8920.59 9000.35 9177.26 8871.27
565779 357382 862618 446428 252917 720548 435065 592000 466333 1306181 719869 663684 461341 770525 1338122 974096 1092274 830181 1008577 387447 90138 376118 860640 221546 284230 23327 726219 263691 35983 55931 199251
(个)
80 45 88 56 37 78 45 65 60 116 68 83 63 66 108 84 86 96 105 55 15 38 74 36 50 6 76 33 11 13 31
额
(亿元) 交通车辆(
3296.4 1820.5 5470.2 2255.7 3363.2 5689.6 2594.3 2236.0 3900.0 10069.2 7590.2 3533.6 2981.8 2683.6 11111.4 5904.7 3343.5 3175.5 7973.4 2198.7 423.9 2407.4 4412.9 1197.4 2208.6 231.1 2480.7 1022.6 408.5 498.7 1567.1
4877 2367 17733 9776 7958 15876 9696 8181 2519 17143 14230 9288 9652 10210 17016 14629 10052 15331 16953 9977 2337 6613 24015 6147 10020 1349 11631 12022 1643 1553 8175
依次设人均地区生产总值、城镇居民可支配收入、农村居民家庭纯收入、在校学生数、学校数、卫生机构数、固定资产投资总额、每万人拥有公共交通车辆为
X1、X2、X3、X4、X5、X6、X7、X8
2.3 对指标的主成分分析及筛选
在SPSS 环境下进行操作,下面对主成分分析过程所得结果进行分析 2.3.1 操作过程
第一步:打开数据文件;
第二步:原始数据一致化处理;
第三步:打开factor 将变量移到Variables ; 第四步:输出原始分析结果与原始变量的相关系数矩阵以及所以变量相关系数单侧检验的p 值;
第五步:输出碎石图;
第六步:提交系统运行,显示结果清单;
2.3.2 实验结果输出 表1
表2
表3
表4
2.3.3 实验结果分析
如表1(相关矩阵表)所示各变量之间存在着较强的相关关系,如果直接用于分析,可能带来严重的共线性问题,因此有必要对变量进行主成分分析,表中的空格表明自身相关系数为1,其不相关的显著性概率为0,因此不再显示。
如表2所示,表中列出了所有的主成分,他们按照特征根从小到大的次序排列,可见第一个主成分的特征值为4.063,他解释了总变异的50.79%;第二个主成分的特征值为2.447,他解释了总变异的30.58%;第三个个主成分虽然解释了总变异的12.36%,但其特征值小于1,因此根据主成分个数的原则,即累计方差贡献率达到80%以上和特征值大于1这两个原则,确定这8个变量需要提取2个主成分。
图3为碎石图,实际上是按特征根大小排列的主成分散点图,如图所示,第一主成分与德尔主成分的特征值都大于1,从第三个主成分开始特征根就比较低,特征根小于1,可以认为前两个主成分能概括绝大部分信息。
如表4所示,从因子载荷矩阵可以看出,标准化的原始变量可以用求得的主成分来线性表示,其近似表达式可根据表3写出,以X1为例,由于本实验过程有2个主成分,可以用F1,F2来表示这两个主成分,得到的表达式如下:
X1=0.660*F1-0.719*F2
此外,运用该系数矩阵还可以得出各原始变量写出的因子表达式,方法为用此表中的第i 列向量除以第i 个特征根的算术平方根后,得到第i 个主成分的变量系数向量,具体表达式如下:
F 1=0. 3274*X 1+0. 3547*X 2+0. 3671*X 3+0. 4118*X 4
+0. 4301*X 5+0. 2887*X 6+0. 4395*X 7-0. 0228*X 8
F2=-0.4596*X1-0.42*X2-0.42*X3+0.3184*X4+0.2621*X5+0.4596*X6+0.1828*X7+0.1451*X8
从上式可以看出,第一主成分主要由X4、X5、X7确定的,并且均为中度正相关,故可以认为第一个主成分是说明教育和地方投资对社会发展的影响
第二个主成分主要是由X1、X2、X3、X6确定的,所以可以认为是反映居民医疗和生活水平,因为这两个主成分累计方差贡献率高达80%,所以用他们来替代原问题具有80%的可靠性。
可以看出,上述分析并不能看出这31个省市自治区社会发展状况的差别,因此还要计算它们分别在第一第二主成分以及综合上的得分,以此作为评价的依据。
排名表:
北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建
教育与投资
主成分1
排名
收入和医疗 主成分2
排名
262509.25571 14 169491.81751 21 373365.14741 6 197011.76168 18 119401.79659 24 316130.44495 11 193056.05146 19 257003.14476 15 224065.17901 16 563833.03052 2 323500.88739 10 285402.29087 13 207773.36143 17
147923.74746 15 87674.047865 22 270071.35209 7 135004.14793 16 69829.299989 25 221660.34173 11 130588.01945 18 179860.21501 14 111309.99977 21 403978.36113 2 211717.94816 12 206251.53098 13 134193.12458 17
综合 66898.934344 48826.959138 52239.695142 32959.780346 28597.919059 49272.307963 33524.207979 40302.580948 67851.128311 81669.358489 61285.380949 40070.661202 40645.56197
排名 5 11 9 20 22 10 19 17 4 1 6 18 16
江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆
329626.55711 9 574557.97028 1 416992.56582 5 463257.74986 3 356588.46235 8 440566.56689 4 171308.30649 20 46654.331414 28 167094.69181 22 371160.87033 7 99399.223193 26 128257.07091 23 17579.201642 31 311585.73769 12 119329.12503 25 23384.500549 30 31851.289461 29 94170.458675 27
240073.56188 9 417986.07026 1 306324.21672 5 341320.11025 3 260616.33124 8 308479.7865 118294.8451
4 19
18723.059688 28 111437.48001 20 275817.70625 6 66262.087157 26 86211.967011 23 -1479.5196196
31
226723.69004 10 81001.166595 24 2113.9193682 30 8156.4316545 29 55716.254312 27
44940.636698 78676.27587
54967.981616 60340.955634 47965.242988 68976.967654 28009.488652 17329.978817 30158.948466 46653.243625 17961.046641 22663.262517 12666.04769
42632.253737 20517.383735 13913.862337 15157.376685 22092.515875
14 2 8 7 12 3 23 28 21 13 27 24 31 15 26 30 29 25
第三章 总结:
通过对数据的主成分分析,并对各省市自治区进行排名,我们发现教育与投资和居民收入与医疗水平成正相关,综合排名也与两项数据基本成正相关。无论从教育投资、收入医疗还是综合排名看,排名靠前的都集中在江浙、广东、京津唐等省市,这些省市的工业和经济发展水平较高,教育和人才资源丰富,投资环
境相对较好,社会发展水平较高。而西部省市排名靠后,主要原因是西部地区处内陆,受到自然资源、人才资源、和投资缺乏的影响,使得经济发展相对落后,教育、医疗和居民收入不如东部沿海地区和京津唐地区。
这一现象从几个方面说明我国社会正出现东西部发展不均衡、两级分化凸显的状况。这需要我们更加注重中西部地区发展,特别是基础设施、医疗教育等民生工程,结合当地特有资源,合理利用,引进人才,大力发展社会经济,缩小收入差距,缓解社会矛盾,尽力缩小东西部差距。
参考文献 :
《多元统计分析实验》(作者:张立军 任英华 中国统计出版社2009年3月第一版);
《中国统计年鉴2007年》,中国统计出版社; 《2006年全国各省自治区社会发展综合状况指标》,中国统计年鉴。
《西部12省市经济发展综合评价》,作者:王新红,邓敏等 来源:道客巴巴文档分享平台
附录:本论文由***和***共同合作完成,前期筹划、确定课题由两人相互协作完成,***负责论文的编写、排版、审阅等,***负责报告的spss 操作分析、资料收集、论文审阅修改等。