基于非线性主成分和聚类分析的综合评价方法
第23卷第2期Vol. 23 No. 2
统计与信息论坛
Statistics &Information Forum
2008年2月Feb. ,2008
【统计理论与方法】
基于非线性主成分和聚类分析的综合评价方法
童新安, 许 超
(洛阳理工学院数理教学部, 河南洛阳 471003)
摘要:针对传统主成分在处理非线性问题上的不足, 阐述了传统方法在数据无量纲化中“中心标准化”的缺点和处理“线性”数据时的缺陷, 给出了数据无量纲化和处理“非线性”数据时的改进方法, 并建立了一种基于“对数中心化”的非线性主成分分析和聚类分析的新的综合评价方法。实验表明, 该方法能有效地处理非线性数据。
关键词:主成分分析; 中心标准化; 均值化; 对数中心化; 聚类分析
中图分类号:O212.4 文献标识码:A 文章编号:1007-(2008) 一、[1-2]
λi , 而每个主
a i =(a 1i , a 2i , …, a pi ) 就是特征值
p
设有n 个样品, (X 1, X 2, …, X p , ij =
, ; j 1, , p ) 为第i 个样本的第j 这样, 得到原始数据矩阵:
x 11x 12…x 1p ω…
x n 1x n 2…x 其中X i =(x 1i x 2i …x ni ) ′, i =1, 2, …, p
用数据矩阵X 的p 个指标向量X 1, X 2
, …, X p
作线性组合为:
F 1=α11X 1+α21X 2+…+αp 1X p
F 2=α12X 1+α22X 2+…+αp 2X p
X =(X 1X 2…X p ) =
x 21
x 22
λi 对应的特征向量, 方差贡献率为l i =λi /
j =1
λ, l ∑
j
i
越大, 说明相应的主成分反映综合信息的能力越强。
二、传统主成分分析的实现步骤
第一步为了消除不同变量量纲的影响, 首先要
对样本的原始数据进行预处理, 一般采取的方法是“中心标准化”处理, 作变换:
Y j =
X -E (X )
…x 2p
……
Var (X j )
(j =1, …, p )
, 其中s j
2
得到标准化的数据y ij =
x j =
n
n
i =1
∑x
n
ij
s j =
n
n
i =1
∑(x
ij
- x j )
2
…
αpp X p F p =α1p X 1+α2p X 2+…
简写为F i =α1i X 1+α2i X 2+…+αpi X p , i =1, 2,
…, p
满足上述要求的综合指标向量F 1, F 2, …, F p
就是主成分。对于原始指标所提供的信息总量, 这p 个主成分从提取出的信息量依次递减, 每一个主成分提取的信息量用方差来度量, 主成分方差的贡献
收稿日期:2007-09-13
第二步计算标准化后样本数据Y =(y ij ) n ×p
的p 个指标的相关系数矩阵R =(r ij ) p ×p , 其中:
∑(x
ki
- x i ) (x
kj - x j )
2
(x kj - x j )
r ij =
2
(x ki - x i )
(i =1, 2, …, n ; j =1, 2, …, p )
λ第三步求出相关系数矩阵R 的特征值λ1≥2
≥…≥λp , 并求出对应的正交化单位特征向量:
作者简介:童新安(1982-) , 男, 湖北荆州人, 助教, 研究方向:数据处理与分析;
许 超(1975-) , 男, 河南洛阳人, 讲师, 研究方向:数据处理与分析。
37
统计与信息论坛
α11
α1=
α21
α12α22
α1p α2p
的原始数据。
设原始数据:X =(x ij )
n ×p
, α2=, …, αp =………αααp p 则X 的第i 个主成分可以表示为各个指标X i 的线性
, 令y ij
=
(i =x j
n k =1
1, 2, …, n ; j =1, 2, …, p ) , 其中 x j =
n
∑x
kj
(j =, 设
组合:
F i =αi X i =1, 2, …, p
1, 2, …, p ) , 得到均值化数据矩阵Y =(y ij )
n ×p
的协方差矩阵为U =(u ij )
中每个列向量的均值为1, 则:
Y =(y ij )
n ×p
p ×p
, 由于Y
第四步确定主成分数目, 在已确定的全部p 个主成分中合理地选择r 个来实现最终的评价。一般用
p
u ij =
==
n
n
k =1n
∑(y ∑(y
n
ki
- y i ) (y kj - y j ) -1) (y kj -1)
-1x j
方差贡献率l i =λi /
r
p
j =1
λ解释主成分F 所反映的信∑
j
i
n
ki
k =1
息量的大小, r 的确定以累计贡献率G (r ) =
j =1
n
λ/∑λ达到足够大(一般选取85%以上) 为原∑
j
j
j =1
k =1n
-1x i
ki
则。
第五步计算n 个样品在r 个主成分上的综合得分。首先计算第i 个样本中第k 个主成分的得分为
p
n
∑(x
- x i ) (- x j )
i j
F ik =
j =1
αX ∑
jk
r
j
, 再以r j
s , i , j =1, 2, …,
, 即均值2=
x i x i
的平方。
设Y =(y ij ) n ×p 中各指标的相关系数为r ′ij , 则:
ii
u jj
p , 特别地, 当i =j 时, u ii =
s 2
重, 求得第i f i =
k =1
∑F
ik
=, 2, …, n )
第六步根据每个样本的综合得分进行排序。
三、改进的非线性主成分-聚类方法
(一) 原始数据无量纲化的改进
r ′ij ==
・ x =
ii
jj
=r ij
原始数据一般包含了两方面重要的信息:一是各指标变异程度的差异信息, 由各指标的方差大小来反映; 二是各指标之间相互影响程度上的信息, 由相关系数来体现。但要对多组不同量纲、不同数量级的数据进行比较时, 需要对它们先进行无量纲化处理[1-2]。
传统主成分分析所采取的是“中心标准化”方法, 即把原始数据的各指标均值化为0, 方差化为1, 进而由计算原始数据的协方差矩阵转化为计算标准化后数据的相关系数矩阵来求得主成分。很明显, 该方法在消除原始数据量纲和数量级影响的同时, 也抹杀了各指标变异程度的差异信息。
事实上, 协方差矩阵能完整刻画原始数据的全部信息, 即协方差矩阵的主对角元恰好为各指标的方差, 而非主对角元则包含了各指标间相关系数的信息。鉴于此, 可以把“均值化”作为一种可以广泛使用的无量纲化新方法。而且“均值化”后新数据的协方差矩阵能够完全反映原始数据所包含的全部信息[2]。
所谓“均值化”, 即用各项指标的均值去除相应38
22
i j
其中r ij 为原始数据各指标间的相关系数。
由此可见, 使用“均值化”方法得到新数据的协方差矩阵不仅消除了量纲和数量级的影响, 还包含了原始数据的全部信息, 不失为一种合理的方法。
(二) 线性降维的改进
本质上, 可以认为传统主成分分析是一种线性映射算法[3], 能很好地处理变量间的线性关系, 即它是一种线性降维技术, 是将多个变量综合成少数变量的一种多元统计方法。但是, 在实际应用中, 原始数据各指标间也往往呈现非线性关系, 对于这些非线性的数据采取传统主成分分析, 往往导致评价效果不理想, 甚至出现评价与事实偏差很大的结果。因此, 有必要对传统主成分线性降维的方法进行改进, 使其适用于非线性数据。专家、学者已提出了一系列的非线性主成分分析方法, 主要分为三类:由Irie 和Kawato 提出的基于主成分分析的多层感知器方法; 由Hastie 和Stuetzle 提出的主曲线和主曲
童新安, 许超:基于非线性主成分和聚类分析的综合评价方法
面方法; 由Scholkopf 提出的核主成分分析方法。
将非线性问题线性化, 常常需要根据原始数据指标间的非线性特征选取合适的变换方法。如:当原始数据指标间出现抛对数曲线特征时, 可令y ij =ln x ij 或y ij =lg x ij , 用y ij 代替原始数据x ij , 再对新数据矩阵Y =(y ij ) n ×p 进行主成分分析, 则这时可将指标间的非线性关系转化为线性关系。
本文采取一种常用的适用于非线性主成分分析的变换方法———“对数中心化”变换。令y ij =ln x ij
-
(三) 系统聚类在综合评价中的改进
系统聚类分析是将样品或变量按照它们性质上
的亲疏相似程度进行分类的一种多元统计方法。其优点是不必事先知道分类对象的分类结构就可以给出很好的分类结果, 而且划分出的每个子集中的点具有高度的内在相似性[1,3]。但该方法并不能得到各类别间优劣程度的综合评价结果。
主成分分析能够很方便地用较少的数据量来对多指标系统进行综合评价, 但如果得到的第一主成分的方差贡献率不是足够高时, 仅使用第一主成分进行综合评价会有片面性, 导致评价结果与事实出现偏差。鉴于这两者的特点, 可以将主成分方法与聚类分析这两种方法结合起来, 采取“非线性主成分-聚类”方法进行综合评价。
所谓“非线性主成分-方法, 是指先对原, 再, 结合第一主成分的, 由。
p
p
k =1
ln x ∑
ik
, 得到新数据矩阵Y =(y ij )
n ×p
, 进而
求得Y =(y ij ) n ×p 的协方差矩阵为U =(u ij ) p ×p ,
再从U =(u ij ) p ×p 出发求样本主成分。实质上, 这种方法就是对原始数据X =(x ij ) n ×p 先进行“对数化”变换, 令y ij =ln x ij , 再对新数据Y =(y ij ) n ×p 用“均值化”的主成分方法求取主成分。
事实上, 线性综合评价模型中的“均值化”方法, 可以认为是对原始数据进行的算术平均合成, 性评价中的“对数中心化”方法, :
y ij =ln x ij -
p
(
p k =1
∏x
ik )
n
四、算 例
以中国44个公路主枢纽城市(不包括拉萨) 作
为评价对象, 建立表1[4]。其中, X 1为人均G DP (元) , X 2为工业总产值(亿元) , X 3为社会消费品零售总额(亿元) , X 4为批发零售贸易总额(亿元) , X 5为地区货运总量(万吨) 。
则可以认为是“后的对数表示。
对具有非线性特征的原始数据进行函数化处理, 将其转化为线性问题, 不仅能明显提高降维效果, 用更少的主成分反映更多的原始指标的信息, 而
且评价的稳定性和合理性也有所提高。
表1 44个公路主枢纽城市的评价指标量表
序号
1
[***********][1**********]021城市北京天津石家庄唐山太原呼和浩特沈阳大连长春哈尔滨上海南京徐州连云港杭州宁波温州合肥福州厦门南昌[***********][***********]334219X 1X 2X 3X 4X 5序号
[***********][***********][***********][***********][***********][**************]城市青岛烟台郑州武汉长沙衡阳广州深圳汕头湛江南宁柳州海口成都重庆贵阳昆明西安兰州西宁银川X 1X 2X 3X 4X 5
[***********][***********][***********][1**********]38. 302663. 56467. 42338. 67304. 1382. 23729. 041003. 56900. 26402. 736935. 571579. 21295. 73112. 181615. 63751. 58381. 93330. 14379. 51803. 29238. 82
1494. 83782. 33156. 0295. 73141. 9469. 27590. 26431. 83309. 75360. 381531. 89401. 20108. 1747. 94373. 28167. 70233. 44140. 14209. 72186. 5514. 093055. 631465. 65763. 46199. 69155. 22108. 121752. 40728. 08173. 99762. 943921. 201253. 73187. 39134. 891788. 29529. 68272. 84328. 98613. 24620. 47348. [***********][***********][***********][***********][***********][***********][***********][**************]2. 02182. 80598. 0629068298. 7392. 71227. 398178261. 80215. 63402. 9873731020. 84685. 821452. 0016244241. 76269. 93369. 83755061. 5363. 9572. 6530042446. 971166. 103214. [1**********]. 63609. 26801. 065167192. 93112. 96280. 841443228. 4599. 08149. 165524109. 39142. 08264. 323371256. 7668. 93159. 443397100. 1381. 03142. 542018412. 23400. 56754. 0723724870. 82389. 60823. 7229470207. 95108. 93285. 274885303. 78227. 44428. 6412084449. 14323. 37558. 277728354. 30163. 97374. 90540138. 0048. 9591. 14183777. 7441. 2253. 161573 数据来源《城市统计年鉴:2002》, 中国统计出版社,2003年。
39
统计与信息论坛
分别应用传统主成分方法、“均值化”主成分方法对上面原始数据计算其特征根、贡献率和累计贡法“、对数化”主成分方法和“对数中心化”主成分方献率, 得到表2。
表2 数据计算分析表
传统方法
特征值
贡献率
累计贡献率
特征值
“均值化”方法贡献率
累计贡献率
特征值
“对数化”方法贡献率
累计贡献率
“对数中心化”方法特征值
贡献率
累计贡献率
13. 616800. 72337 0. 7233720. 972940. 1945930. 243870. 0487740. 117680. 0235450. 048690. 00974
0. 917950. 966730. 990261
5. 101500. 80413 0. 804130. 749360. 118120. 270710. 042670. 158220. 024940. 064290. 01013
0. 922260. 964930. 989871
3. 794800. 75896 0. 758960. 703620. 140720. 257720. 051550. 1539
0. 03078
0. 899690. 951230. 982011
0. 0957160. 86781 0. 867810. 0060270. 054650. 0039560. 035870. 0035830. 032490. 0010140. 00919
0. 922460. 958320. 990811
0. 0899520. 01799
从计算结果可以看出, 在确定主成分数目时, 按
照方差的累计贡献率G (r ) ≥85%的原则, 传统主成分方法需选取前两个主成分来进行综合评价。经
85%, 因此可以仅选用第一主成分来进行评价, 降维
效果明显。
表3给出了以上各种方法对44个公路主枢纽
过改进方法的处理“均值化”, 方法和“对数化”方法城市的综合排名, 得到的第一主成分的贡献率都有所提高, 而“对数中心化”方法得到的第一主成分贡献率更是超过了
表3 序号
[***********][**************]22
城市北京天津石家庄唐山太原呼和浩特沈阳大连长春哈尔滨上海南京徐州连云港杭州宁波温州合肥福州厦门南昌济南
M [***********][***********]15
M [***********][***********]15
[***********][***********]
[***********][***********]15
[***********][***********]41424344
城市青岛烟台郑州武汉长沙衡阳广州深圳汕头湛江南宁柳州海口成都重庆贵阳昆明西安兰州西宁银川
乌鲁木齐
M [***********][***********]444328
M [***********][***********]444329
M [***********][***********]6444328
M [***********][***********]444328
其中, M 1、M 2、M 3分别表示用传统主成分方
法“、均值化”方法“、对数化”方法选取前两个主成分40
进行的综合评价结果;M 4表示用“对数中心化”方法
选取第一主成分得到的评价结果。进一步, 对“对数
童新安, 许超:基于非线性主成分和聚类分析的综合评价方法
中心化”方法选取的第一主成分进行系统聚类分析, 得到如图1
:
图1 对第一主成分的聚类结果图 根据此聚类结果可以将城市划分成五个大类值, 并以此数据再次使用“对数中心化”的非线性主别, 而每个大类别还可以细分成两个小类别。计算成分方法计算各类别的排名4:每个小类别中城市的X 1、X 2、X 3、X 4、X 5的平均
表4 类别
12345
1
3
X 4
X 5
城 市
杭州、武汉、深圳、沈阳、南京
大连、重庆、北京、广州、上海
石家庄、长春、厦门、福州、宁波、西安温州、长沙、郑州、兰州、昆明唐山、太原、合肥、乌鲁木齐、徐州、烟台、贵阳汕头、南宁、湛江、柳州呼和浩特、连云港、南昌、海口衡阳、西宁、银川
909. 0030809. 3340788. 0031410. 8322924. 2017847. 2915004. 2519078. 0010808. 671604. 87753. 062616. 286935. 57625. 20308. 71263. 28196. 88133. 3459. 09平均值531. 96348. 041147. 751531. 89225. 52222. 08108. 06105. 7653. 0851. 37平均值1409. 50688. 212578. 493921. 20543. 19369. 84229. 89213. 44183. 4472. 32平均值13305. 6020644. 8327717. 0049499. 008583. 007740. 008433. 863433. 752943. 752138. 00
排名
[1**********]
从原始数据表1和主成分排序表3可以看出, 作为物流中心城市的综合评价和排序, 天津与深圳在X 2指标上相差不多, 而天津在X 3、X 4、X 5这三个指标上要明显强于深圳, 仅X 1(人均G DP ) 这一指标落后于深圳, 但在传统主成分综合得分上却低于深圳, 这是不合理的。
按文献[4]对物流中心城市的性质划分
, 上述表4的结果表明, 类别2属于“全国性”的物流中心城市, 类别1属于“区域性”的城市, 类别3、4同属于“地区性”物流中心; 将排名相近的地区两两比较, 排名为1、2、3、5、7的城市偏于“综合型”, 而排名为4、6、8的城市偏于“货运型”, 类别5中的城市成为物流中心城市的条件还不成熟。
同时, 对于表3中应用“对数中心化”主成分和传统主成分排序结果差别比较大的城市, 如“西安、
宁波、厦门、长春、石家庄、福州、昆明”和“合肥、太
原、唐山、烟台、徐州”等城市, 经过聚类分析, 发现它们都分别位于同一聚类类别中, 从表4可以看出, 这些城市在各项指标中各有所长, 导致排序结果差异较大。
五、结 语
本文通过对传统主成分方法的缺点进行分析,
指出了“中心标准化”的不足, 建立基于“对数中心化”的非线性主成分和聚类分析的新的综合评价方法, 用算例说明了该方法对非线性数据进行降维处理的有效性和合理性。由于本算例数据指标的选取和综合评价只是为了验证本方法的可行性, 对解决实际问题还有一定的欠缺, 需要对该方法作进一步的完善, 这也是后面需要继续进行的工作。
(下转第46页)
41
统计与信息论坛
参考文献:
[1] 徐康宁, 王剑. 自然资源丰裕程度与经济发展水平关系的研究[J].经济研究,2006(1) :78-90.
[2] Sachs Jeffrey D , Warner Andrew M. Natural resource abundance and economic growth [R ].NBER working paper , 1995:
5398.
[3] 徐康宁, 邵军. 自然禀赋与经济增长:对“资源诅咒”命题的再检验[J].世界经济,2006(11) :38-49. [4] Auty. Resource abundance and economic develo pment [M ].Oxford :OxfordUniversity Press ,2001.
[5] Papyrakis Elissaios , G erlagh Reyer. The resource curse hypothesis and its transmission channels[J].Journal of Com parative
Economics ,2004,32(1) :152-163.
[6] 胡健, 焦兵. 油气资源开发对中国西部区域经济的拉动效应分析———以陕西省为例[J].资源科学,2007(1) :2-8.
(责任编辑:崔国平)
The R esearch on the Problem of the E ndowment of Oil and G as R esources and “R esources Curses ”of the R egional E conomic G row th
HU Jian 1,2, J IAO Bing 2
(1. Xi ’an University of Finance and Economics , Xi ’an 710062, China ;
2. Research Center of Economy and Management of Oil &G as Resources , Xi ’an Shiyou ’an 710065, China )
Abstract “:Resources Curses ”is a difficult problem that must economic developing progress of the regions richly endowed with resources. On the researching papers , we firstly make a statistical analysis between the gas resources and the speed of the economic development ; Secondly , we endogenous mechanism which produce constraints of regional richly endowed with oil an gas resources ; Finally , we put forward some evade the trap of “Resources Curses ”in the regions richly endowed with oil and gas K ey w ords :endowment of oil and gas resources ; regional economic development ; Resources Curses (上接第41页)
参考文献:
[1] 梅长林, 周家良. 实用统计方法[M ].北京:科学出版社,2002:53-74,116-139. [2] 徐雅静, 王远征. 主成分分析应用方法的改进[J].数学的认识与实践,2006(6) :68-75.
[3] 王和勇, 姚正安, 李磊. 基于聚类的核主成分分析在特征提取中的应用[J].计算机科学,2005,32(4) :64-66. [4] 赵闯, 刘凯, 李电生. SOFM 神经网络在物流中心城市分类评价中的应用[J].中国公路学报,2004,17(4) :119-122.
(责任编辑:杜一哲)
A N e w Method of Synthetic Evaluation B ased on Non -linear Principal Component and Cluster Analysis
TON G Xin 2an , XU Chao
(Dept. of Mathematics and Physics , Luoyang Institute of Science and Technology , Luoyang 471003, China )
Abstract :Against the weaknesses of traditional principal component analysis when it is used to solve nonlinear problems , this paper points out its shortage of “centralized criterion in data un -dimensionalization ”and its drawbacks on processing “non -linear ”data firstly , puts forward improvement secondly , and then builds up a new synthetic evaluation based on non -linear principal component analysis according to “centralized logarithm ”and cluster analysis in the end. The research result shows that the new method can effectually deal with non -linear data.
K ey w ords :principal component analysis ; centralized criterion ; equalization ; centralized logarithm ; cluster analysis 4
6