数据分析论文
2011-2012学年度 第二学期 数据分析课程论文
评定教师签名:
日期:2012 年 月 日
聚类分析和因子分析在就业人数案例中的应用
摘要:中国的就业问题是一个备受关注的热点问题。了解中国各地区各行业的就业情况,有利于更好地调整各地区更行业的就业情况,加快产业结构的转型。本文利用2011年《中国统计年鉴》的统计数据资料,在研究各地区各行业就业人数的现状及主要问题的基础上,运用聚类分析和因子分析方法发现全国就业情况分三个类型,东南部沿海地区就业情况最好,中东部就业一般,西部、北部和中部一些地区就业情况较差。针对这些情况对优化各地区各行业就业结构提出一些对策和建议。
关键词:就业人数;聚类分析;因子分析
一、引言
1、1 背景知识
中国是世界上人口最多的国家,就业问题成为中国政府面临的一个十分严峻的社会问题。就业情况的好与差与当地的经济发展水平有很大关系。了解中国各地区各行业的就业情况,有利于更好地调整各地区更行业的就业情况,加快产业结构的转型。在高等教育大众化的今天,就业难已经成为一个不争的事实,越来越引起社会的关注。作为当代大学生,我们很有必要了解当前的各地区各行业的就业就业情况。
1、2 聚类分析法
系统聚类法是聚类分析诸方法中用得最多的一种,其基本思想是:开始将n 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合成一类。[1]
1、3 因子分析法
因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同因子还可以对变量进行分类,它也是属于多元分析中处理降维的一种统计方法。因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。[2]
二、聚类分析的应用
2、1 聚类分析法的基本思想及方法
聚类分析关注于根据一些不同种类的度量构造一些相似的对象组成的群体。关键的思想去确定对分析目标有利的对象分类方法。这个思想已经用于许多领域,包括天文学、考古学、医药、化学、教育、心理学、语言学和社会学。在聚类分析前,首先把数据标准化为Z-分数,采用系统聚类(Hierachical Cluster) 方法,用音差平方和法(Ward法) 计算欧几里得(Eudlidean)距离。聚类分析依据的基本原则是:直接比较样本中各事物之间的性质,, 将性质相近的归为一类,而将性质差别比较大的分在不同类。也就是说,同类事物之间的性质差异小,类与类之间的事物性质相差较大。其中欧式距离在聚类分析中用得最广,它的表达式如下:
其中Xik 表示第i 个样品的第k 个指标的观测值,Xjk 表示第j 个样品的第k 个指标的观测值,dij 为第i 个样品与第j 个样品之间的欧氏距离。若dij 越小,那么第i 与j 两个样品之间的性质就越接近。性质接近的样品就可以划为一类。
当确定了样品之间的距离之后,就要对样品进行分类。分类的方法很多,本节只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法。首先将n 个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标; ②收集数据;
③对数据进行变换处理(如标准化或规格化); ④使各个样品自成一类,即n 个样品一共有n 类; ⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。[3]
2、2 各地区各行业就业人数的聚类分析
4-7 各地区按行业分私营企业和个体就业人数(2010年底) 单位: 万人
地区
全国总计
北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南#制造业4170.2
45.9 40.9 148.9 45.3 30.9 149.9 40.9 52.0 131.9 867.2 638.2 100.6 118.6 161.9 340.1 153.0 115.3 80.7 419.9 67.2 5.9 49.8 136.2 23.6 66.0
#建筑业723.5 22.1 6.0 13.8 5.5 8.0 34.2 28.7 11.4 45.1 175.8 53.5 18.7 12.8 8.4 47.9 18.9 22.8 14.8 35.0 7.1 6.6 14.0 23.5 4.1 27.9
#交通
运输、 #批发和仓储和零售业
邮政业
487. 6 6388.5 15.0 146.4 6.1 44.5 17.8 237.4 5.9 143.1 13.1 114.5 67.2 259.2 12.3 125.9 15.2 159.5 22.2 219.2 38.9 571.6 24.2 380.5 10.6 264.4 7.7 206.5 16.8 214.7 38.0 493.3 14.9 328.1 22.8 276.0 16.3 250.1 27.6 638.3 19.6 213.3 4.8 33.3 8.8 135.2 25.0 305.9 6.1 75.5 9.6
183.7
#住宿和餐饮业
996. 4 29.2 5.6 30.1 23.4 26.5 37.9 29.2 38.3 19.2 59.6 47.8 42.4 25.3 34.9 61.3 49.7 51.6 27.3 86.2 25.9 7.7 21.2 69.7 14.0 38.0
#租赁和商 务服务业 815. 4 65.2 11.0 11.6 7.5 9.8 27.4 8.5 14.5 71.1 68.1 57.1 21.3 30.8 11.4 50.1 23.5 23.1 68.4 89.3 15.7 7.0 29.3 41.6 5.3 15.5
#居民服务 和其他956. 0 21.2 5.3 31.8 27.2 22.3 41.4 22.6 59.7 16.8 74.0 53.1 43.1 29.5 30.2 63.7 47.3 48.8 32.0 82.7 19.6 7.3 17.9 55.0 12.6 26.2
西 藏 2.1 陕 西 66.6 甘 肃 21.6 青 海 11.0 宁 夏 11.2 新 疆 26.5
3.8 30.0 8.8 5.4 3.1 5.9
0.8 8.1 2.8 1.6 1.7 6.3
15.6 134.6 87.0 21.9 37.9 71.6
5.5 34.9 20.6 6.9 7.2 19.3
1.4 12.1 4.7 0.8 3.4 9.1
3.2 21.0 13.0 3.8 8.7 15.0
数据来源:2011《中国统计年鉴》[4]
先建立数据集d1,用聚类分析法在SAS 输入代码得到如下聚类过程与聚类结果。
表2-1 31个地区的聚类过程
图2-1 31个地区聚类结果的树状图
从聚类结果可以把31个地区分为3大类
第一类:江苏、浙江、山东、广东。这些东部沿海地区都是就业人数最多的,就业现状非常好的。
第二类:河北、江西、福建、上海、湖南、辽宁、安徽、湖北、河南、四川。这些地区各行业就业人数是一般般的。
第三类:北京、山西、重庆、陕西、内蒙古、吉林、黑龙江、广西、云南、天津、海南、宁夏、西藏、青海、贵州、新疆、甘肃。这些大部分是北部中部和西部地区的,各行业总体上就业人数是较少的。
三、因子分析的应用
利用聚类分析的方法,我们初步知道江苏、浙江、山东、广东。这些东部沿海地区都是就业人数最多的;河北、江西、福建、上海、湖南、辽宁、安徽、湖北、河南、四川这些地区各行业就业人数是一般般的;北京、山西、重庆、
陕西、内蒙古、吉林、黑龙江、广西、云南、天津、海南、宁夏、西藏、青海、贵州、新疆、甘肃,这些大部分是北部中部和西部地区的,各行业总体上就业人数是较少的。那么能不能知道就业人数多的地区是哪些行业就业情况非常好的而使这个地区整体就业好,而哪些就业人数少的地区又是因为哪些行业就业人数少而是这些地区总体就业情况不太理想。现在我们用因子分析法来探究一下这些问题。
3、1 因子分析的数学模型
设有P 个随机变量x=(x1,x2,...xp)',其均值为μ=(μ1,μ2... μp)', 协方差矩阵为∑=(σij) 。因子分析的一般模型为
⎧X 1=a 11F 1+a 12F 2+ +a 1m F m +ε1
⎪X =a F +a F + +a F +ε⎪22112222m m 2⎨
⎪
⎪⎩X p =a p 1F 1+a p 2F 2+ +a pm F m +εp
其中f1,f2....fm 为公共因子,ε1,ε2..... εp 为特殊因子,他们都不是可以观测的随机变量。公共因子f1,f2....fm 出现在每一个原始变量xi(i=1,2...p)的表达式中,可理解为原始变量共同具有的公共因素;每个公共因子fj(j=1,2....m)一般至少对两个原始变量有作用,否则它将归入特殊因子。每个特殊因子εi(i=1,2...p),仅仅出现在与之相应的第i 个原始变量xi 的表达式中,它只对这个原始变量有作用。上式可用矩阵表示为
p 2
简记为x =μ+AF +ε
其中F =(f1,f2....fm)'为公共因子向量,ε=(ε1,ε2..... εp)', 为特殊因子向量,A =(aij):p×m 称为因子载荷矩阵。通常假定E(F )=0,E(ε)=0,
⎡X 1⎤⎡a 11⎢X ⎥⎢a ⎢2⎥=⎢21⎢ ⎥⎢⎢⎥⎢X ⎢p ⎦⎥⎢⎣⎣a p 1
a 12
a 22a
a 1m ⎤⎡F 1⎤⎡ε1⎤
⎢F ⎥⎢ε⎥a 2m ⎥⎥⎢2⎥+⎢2⎥⎥⎢ ⎥⎢ ⎥⎥⎢⎥⎢⎥a pm ⎦⎥⎣⎢F p ⎦⎥⎣⎢εp ⎦⎥
V(F )=0,V(ε)=D=diag(σ12,σ22,... σp 2) 。该假定和关系式构成了正交因子
模型。由上述假定可以看出公共因子彼此不相关且具有单位方差,特殊因子也彼此不相关和公共因子也不相关。[1]
3、2 各地区各行业就业人数的因子分析
建立变量之间的相关系数阵R :
表3-1 7个行业变量之间的相关系数阵R
从相关系数矩阵得知:大部分的相关系数都比较高,各变量呈较强的线性关系,能够从中提取公共因子,适合进行因子分析。
表3-2 R的特征值和特征向量
潜因子数目为2,因子载荷阵A 如下:
表3-3 因子载荷阵A
又结果可知,7个变量在第一个因子的载荷值都很高。即说明他们与第一个因子的相关程度高,而第二个因子与原有变量的相关性均很差,对原有变量的解释不显著。无法进行因子解释。于是采用方差最大法对因子载荷矩阵实施正交旋转,使因子更具有命名可解释性。
对因子载荷阵实行方差最大旋转,旋转矩阵T 为
表3-4 旋转矩阵
T
旋转后的因子载荷阵A*=AT:
表3-4 旋转后的因子载荷阵
从旋转后的正交因子载荷阵得知:
第一公共因子上的高载荷的指标有x3、x4、x5、x6、x7的载荷值分别为 0.64834,0.83793,0.93660,0.59556,0.89833; 第二公共因子上高载荷的指标有x1 x2的因子载荷值为0.84026,0.93363。
根据载荷阵A*,将7个指标按高载荷分类为:
计算各样本的因子得分
回归法的标准得分系数矩阵如下
表3-6 标准得分系数矩阵
因子得分函数:
F1=-0.18873x1-0.36485x2+0.18959x3+0.25593x4+0.47331x5+0.08976x6+0.3843x7 F2=0.50723x1+0.70542x2 -0.00173x3-0.01968x4-0.32169x5+0.13350x6-0.19704x7
根据输出数据集out1,画出31个地区两个因子得分散点图
图3-1 31个地区两个因子得分散点图
由上图可以知道江苏在第二产业就业人数最多,而第三产业就业人数处于
中等偏下水平;广东恰好相反,第三产业就业人数最多,而第二产业就业人数处于较差水平。
第三产业就业人数较多的地区有广东、山东、四川。 第二产业就业人数较多的地区有江苏、浙江、上海。
青海、西藏、天津、海南、宁夏等地区在第二三产业方面就业人数都是很少的。
四、各地区各行业就业人数的综合评价
我国地域辽阔,人口及资源分布不均,尤其是经济发展水平差异巨大,所 以各个地区各行业就业人数有所差异。
1、东南发达地区。在聚类分析中第一类有江苏、浙江、山东、广东,这些都是东南部沿海发达地区,其中从因子得分散点图知道江苏在第二产业就业人数最多,而第三产业就业人数处于中等偏下水平;广东和山东在第三产业就业人数较多,而第二产业就业人数处于偏下水平,浙江在第二三产业就业人数都处于中等偏上水平,所以江苏、浙江、山东、广东这四个地区的总体就业人数是较多的。
2、中东部地区。在聚类分析中第二类有河北、江西、福建、上海、湖南、辽宁、安徽、湖北、河南、四川。这些地区各行业就业人数是一般般的。其中河北、江西、福建、湖南第二三产业就业人数都处于中等偏下水平;辽宁、安徽、湖北、河南这些地区第三产业就业人数处于中等偏上水平,而第二产业就业人数处于偏下水平;四川第三产业就业人数处于上等水平,但第二产业就业人数处于较差水平;上海第二产业就业人数处于中等偏上水平,但第三产业就业人数处于中等偏下水平;所以以上这些地区的总体就业人数处于一般水平。 3、中西北部地区。在聚类分析中第三类:北京、山西、重庆、陕西、内蒙古、吉林、黑龙江、广西、云南、天津、海南、宁夏、西藏、青海、贵州、新疆、甘肃。这些大部分是北部中部和西部地区的,这些地区在第二产业就业人数上大致一样都是较差水平,第三产业就业人数处于中等偏下到较差水平,所以这些地区各行业总体上就业人数水平是很差的。
五、优化各地区各行业就业结构的对策建议
由于我国沿海地区和内陆经济发展不平衡,东南部地区经济发达,所以有丰富的就业岗位,而中西部一些地区由于经济不发达,就业岗位紧缺,这就导致西部北部和中部地区的人们向东南部寻求就业机会,使得各地区就业水平差异更大。为解决这一问题,我提出以下建议。
政府要加快落实相关政策措施,大力开发就业岗位,扩大就业容量,全方位开辟就业渠道,提升更多的就业增长点。全面落实培训政策,实施技能培训工程,注重创业培训,提高创业成功率。继续做好农民工的就业服务工作,引
导他们向城镇转移就业,扶持就地就业和返乡创业。
促进就业与经济持续发展有机结合。经济增长理论认为,就业增长促进经济发展,而经济的高速增长也能带来就业增加。要实现经济发展和就业增长良性互动,应积极引导就业人员向第三产业流动。随着产业结构调整,逐步使第三产业替代第二产业成为吸纳就业的主体,第三产业的许多行业,就业门槛低,扩大第三产业的就业将是主渠道。因此,应不断调整产业结构,加快发展第三产业,促进相关领域的产业化,着重发展金融业、信息产业、交通运输业、租赁和商务服务业等增长潜力较大的行业,大力开拓就业领域创造新就业机会。同时,应积极促进非正规就业的发展。非正规部门的发展不仅促进经济增长,在缓解就业压力特别是吸纳年龄偏大、文化素质偏低的就业人员方面发挥了重要作用,应积极在这些领域扩大就业、谋求发展。
参考文献:
[1]王学民. 统计分析方法及应用[M].上海:上海财经大学出版社,2010:250~256,312~326.
[2]刘顺忠. 管理统计学和SAS 软件应用[M].武汉:武汉大学出版社,2006.1:211~219. [3]杨忠宏. 用聚类分析研究河南省各市三次产业就业人员差异化[C].(2011-01-09)[2012-06-25]http://wenku.baidu.com/view/fa1ac1106c175f0e7cd1379d.html . [4]中华人民共和国国家统计局.2011中国统计年鉴
附录
data d1;
input region$ x1-x7; cards ;
北京 45.9 22.1 15.0 146.4 29.2 65.2 21.2 天津 40.9 6.0 山西 45.3 5.5 内蒙古
6.1 5.9
44.5 5.6
11.0 5.3
27.2
22.3
河北 148.9 13.8 17.8 237.4 30.1 11.6 31.8
143.1 23.4 7.5
30.9 8.0
13.1 114.5 26.5 9.8
辽宁 149.9 34.2 67.2 259.2 37.9 27.4 41.4 吉林 40.9 28.7 12.3 125.9 29.2 8.5 黑龙江
22.6
52.0 11.4 15.2 159.5 38.3 14.5 59.7
上海 131.9 45.1 22.2 219.2 19.2 71.1 16.8 江苏 867.2 175.8 38.9 571.6 59.6 68.1 74.0 浙江 638.2 53.5 24.2 380.5 47.8 57.1 53.1 安徽 100.6 18.7 10.6 264.4 42.4 21.3 43.1 福建 118.6 12.8 7.7 江西 161.9 8.4
206.5 25.3 30.8 29.5
16.8 214.7 34.9 11.4 30.2
山东 340.1 47.9 38.0 493.3 61.3 50.1 63.7 河南 153.0 18.9 14.9 328.1 49.7 23.5 47.3 湖北 115.3 22.8 22.8 276.0 51.6 23.1 48.8
湖南 80.7 14.8 16.3 250.1 27.3 68.4 32.0 广东 419.9 35.0 27.6 638.3 86.2 89.3 82.7 广西 67.2 7.1 海南 5.9
6.6
19.6 213.3 25.9 15.7 19.6 4.8
33.3 7.7
7.0
7.3
135.2 21.2 29.3 17.9 75.5 14.0 5.3 15.6 5.5
1.4
12.6 3.2 13.0 3.8 8.7 15.0
重庆 49.8 14.0 8.8 贵州 23.6 4.1 西藏 2.1
3.8
6.1 0.8 2.8 1.6 1.7 6.3
四川 136.2 23.5 25.0 305.9 69.7 41.6 55.0 云南 66.0 27.9 9.6 陕西 66.6 30.0 8.1 甘肃 21.6 8.8 青海 11.0 5.4 宁夏 11.2 3.1 新疆 26.5 5.9 ; run ;
183.7 38.0 15.5 26.2 134.6 34.9 12.1 21.0 87.0 20.6 4.7 21.9 6.9 37.9 7.2
0.8 3.4
71.6 19.3 9.1
聚类分析:
proc cluster data =d1
method =ward outtree =treedata1; var x1-x7; id region; run ;
proc tree data =treedata1 hor n =3 out =clsdata; id region; run ;
proc print data =d1 ; run ; proc princomp data =d1 out =prin; var x1-x7; run ; proc plot ;
plot prin2*prin1 $region='*'; run ;
因子分析:
proc princomp data =d1; var x1-x7; run ;
proc factor data =d1 n =2 rotate =varimar out =out1;var x1-x7; run ;
data p1;
input varname $ f1 f2; x1 0.45803 x2 0.26094 x3 0.64834 x4 0.83793 x6 0.59556 x7 0.89833 ; run ;
proc plot data =p1;
plot f2*f1 $ varname="*"; run ;
0.84026 0.93363 0.40318 0.50202 0.51793 0.346
cards ;
x5 0.9366 0.23375
proc plot data =out1;
plot factor2*factor1 $ region="*"; run ;