第八章地理系统要素关系的主成分分析
第八章
地理系统要素关系的主成分分析
地理工作者在地理系统的区域构成分析中,常常用多个指标来分析、比较各个地理区域的特征和“职能”,为地理区域类型的划分和制定区域发展战略提供依据。但由于指标多会增加分析问题的复杂性,能否通过某些线性组合,使原始变量减少为有代表意义的少数几个新的变量,以少数几个指标或“成分”来代表多数指标?这是对地理系统进行分析的关键问题。例如在环境研究中,需要对许多环境要素进行观测;在土地资源研究中,需要对土壤样品进行多指标的分析化验。 而这些要素和指标之间,常存在密切关系,要考察全部要素和测试指标,常常要做大量重复的工作。例如有30测试指标,也许10多种指标即可代表。由此可见减少研究的要素,使系统简化,是地理学研究中的重要环节。事实上,如果复杂的地理系统,不加以任何简化,不抓住对地理系统影响的主要矛盾,要对之进行深入的研究,几乎是不可能的。本章介绍主成分分析方法就是解决上述问题的数学方法。
§1 主成分分析方法原理
主成分分析是把原来多个指标化为少数几个综合指标的一种统计方法,达到降维和去相关目的,既由多个变量变换为少数几个相互独立的综合变量。主成分分析也称K-L 变换。因子分析不仅可以用来研
究变量之间的相关关系,还可用来研究样品之间的相关关系,通常将前者称之为R 型因子分析,后者称之为Q 型因子分析。
假设有n 个地理样本,每个样本观测p 个指标,如何从这么多指标的数据中抓住地理事物的内在规律性呢?如前所述,多数情况下,指标之间存在着相关关系,这时要弄清它们的规律须在p 维空间中加以考察,这是比较麻烦的。为了克服这一困难,一个自然的想法是找比较少的综合指标来代表原来较多的指标,而这些较少的综合指标既能尽量多地反映原来较多指标的信息,它们彼此之间又是独立的。综合指标如何选取呢?通常是取原指标的线性组合,适当调它们的系数,使综合指标之间相互独立且代表性最好。
记原来的变量指标为x 1, x 2..., x p ,综合指标(新综合变量)为
z 1, z 2,..., z m (m p ) 即
⎧z 1=l 11x 1+l 12x 2+ +l 1p x p ⎪
⎪z 2=l 21x 1+l 22x 2+ +l p x p
⎨
⎪
⎪z m =l m 1x 1+l m 2x 2+ +l mp x p ⎩
2
=1 (单位向量)以限制z i 取值大小,利于对可以要求l k 21+l k 22+... +l kp
比。
系数l ij 由下列原则来决定:
(1)z i 与 z j (i ≠j , i , j =1,2,..., m ) 互相无关(独立); (2)z 1是x 1, x 2..., x p 的一切线性组合中方差最大者;
z 2为与z 1不相关的x 1, x 2..., x p 的所有线性组合中方差最大者;
„
z m 为与z 1, z 2,..., z m -1都不相关的x 1, x 2..., x p 的所有线性组合中方
差最大者。
z 1, z 2,..., z m 分别称做原指标的第一,第二,„,第m 个主成分。z 1在总方差中占的比例最大,其余主成分z 2,..., z m 所占方差比例依次递减。
从几何上看,找主成分的问题,就是找出p 维空间中椭球体的主轴问题,从数学上容易得到它们是x 1, x 2..., x p 的相关矩阵中m 个较大特征值对应的特征向量。也就是说寻找这样的坐标系旋转角,使得样本点在新坐标系中对主成分轴上的投影具有极大的方差。
主成分分析的实质就是要求出方差—协方差矩阵的特征向量及其对应的特征值,即要找出方差—协方差矩阵所确定的椭球的主轴,并确定其长度。
由于提取主成分的主要原则是使方差最大,为了排除量纲、数量级的影响,对原始数据先进行标准化处理(标准差标准化),这样方
差—协方差矩阵即为相关系数矩阵。 计算步骤:
(1) 计算相关系数矩阵R
(原始数据已进行标准化处理变换,也就是方差—协方差矩阵) (2) 计算特征值和特征向量 λI -R =0
求出特征值,按大小排序λ1≥λ2≥... ≥λp ≥0;
然后,求出对应的特征向量
l i =⎡⎣l i 1, l i 2,..., l ip ⎤T
⎦ i=1,2,…,p
(3) 计算主成分贡献率和累积贡献率 可以证明:z 1的方差等于λ1; z 2的方差等于λ2; „
z p 的方差等于λp ;
主成分p
z i 的贡献率 λi ∑λ
k
i=1,2,…,p
k =1累积贡献率
∑m p
λk k
k =1
∑λ
k =1
一般取累积贡献率达85-90%的特征值λ1, λ2,..., λm 主成分即可。 (4) 计算主成分载荷
(m ≤p ) 对应的
p (z k , x i ) =
(i=1,2,..,p;k=1,2,…,m )
p ik 是主成分z k 与变量x i 之间的相关系数
(5) 计算主成分得分
**Z 1=l 11x 1+l 12x 2+ +l 1p x *p **Z 2=l 21x 1+l 22x 2+ +l 2p x *p
**Z m =l m 1x 1+l m 2x 2+ +l mp x *p
x i *
是x i 标准差标准化后的数据
得到主成分得分矩阵
⎡Z 11 Z12 Z1m ⎤⎢Z Z Z⎥
222m ⎥⎢21
⎢ ⎥⎢⎥Z Z Zn 2nm ⎦⎣n 1
主成分几大性质:
性质
1:主成分的协方差矩阵对角阵
性质2:主成分的总方差等于原始变量的总方差
:
性质3
:p (z k , x i ) =
(i=1,2,..,p;k=1,2,…,m )
p ik 是主成分z k 与变量x i 之间的相关系数
§2 因子分析法
对p 个变量进行因子分析的目的是研究它们有哪些共同因素,哪些是特殊因素,这些因素在变量分析中起什么作用。为研究方便,设着p 个变量已进行标准差标准化变换,记为x 1, x 2,..., x p ,或表示为向量形式X =(x 1x 2... x p ) '。
上述的p 个因子(变量)会有一些共同因素,这些共同因素称为公共因子,记为f 1, f 2,..., f m (公共因子数目m 通常要比原因子个数p 要少),也可记为向量形式F =(f 1f 2... f m ) '。对每一因子,除了可以有一些公共因素的部分外,还有一些自身特殊因素,称为特殊因子。因而因子模型可表示为下面形式:对第k 个因子x k 有
x k =a k 1f 1+a k 2f 2+... +a km f m +u k
式中a k 1, a k 2,... a km 称为m 个公共因子的荷载,u k 为第k 个因子的特殊部分。U 为特殊因子向量,记为U =(u 1u 2... u p ) '
因子模型的向量形式为 X =A F +U
式中矩阵A 为因子荷载,记为
⎡a 11a 12... a 1m ⎤
⎢a a ... a ⎥21222m ⎥
A =⎢
⎢................. ⎥⎢⎥a a ... a ⎢p 1p 2pm ⎦⎥⎣
为求得矩阵A ,对模型还要作些假定(样本容量为n ): (1)公共因子部分与特殊因子部分是无关的
11
FU '=UF '=0 n n
(2) 公共因子是标准化变量,不同公共因子之间无关,即公共因
子之间的协方差矩阵为单位阵
1
FF '=I n
2
(3) 各特殊因子之间是无关的,第k 个特殊因子的方差为c kk ,它
们的协方差阵为C UU '=C
在上述假定下,p 个变量之间的相关阵可表为
1
n
由上述假定
R =AA '+C
上述矩阵中的第k 行第k 列元素为
22+c kk r kk =∑a kj
j =1m
该式表明第k 个变量的方差可表示为公共性部分的方差和特殊性部分的方差之和。记公共性部分的方差为
2
h =∑a kj 2
k
j =1m
h k 2称为第k 个变量的公共性,它反映了第k 个变量被公共因子所
解释的那部分方差。
从几何意义上来说,因子模型中的因子荷载a kj 可看成为第k 个变量在m 个公共因子空间中第j 个因子轴上的投影,变量数据可看成为在该空间中的一个向量;h k 2可看成为第k 个变量在该空间中的向量长度的平方。x k 作了标准化处理,x k 与f j 的协方差
cov(x k , f j ) 就是第k 个变量与第j 个公共因子之间的相关系数r kj 。
即
⎡m ⎤
cov(x k , f j ) =cov ⎢∑a ki f i +εk , f j ⎥
⎣i =1⎦⎡m ⎤
=cov ⎢∑a ki f i , f j ⎥+cov(εk , f j )
⎣i =1⎦=a kj
由以上假定得知
cov(x k , f j ) =r x k , f j =a kj
经常地,对F 进行正交变换后,得到新矩阵的各分量仍然不相关,各自方差仍然为1(斜交变换后不能保证各分量独立性,各自方差也不为1)。旋转以后得到的因子,有时它的实际意义比较明显。例如,可经旋转变换,使得荷载矩阵中的每一行的数值尽可能两极化(接近1或0),这样有利于发现公因子的实际意义。
例子: 以各个城市第三产业发展水平评价为例: 选用20个指标:
x 1:人口数 x 2:GDP x 3:第三产业增加值 x 4:货用总量 x 5:批、零、贸商品销售总额 x 6:外贸收购总额 x 7:年末银行贷款总额 x 8:社会零售的物价指数 x 9:实际利用外资 x 10:万名职工中科技人员的人数 x 11:旅游外汇收入 x 12:第三产业就业比例 x 13:邮电业务总
量
x 14:职工人均工资 x 15:人口数人均居住面积 x 16:用水普及率 x 17:煤气普及率
x 18:人均道路面积 x 19:人均公共绿地面积 x 20:政策体制
对上述指标进行因子分析,从旋转后因子荷载矩阵来看,五个因子意义比较明确,也就是将五个因子分成五大类: 1、 第三产业的基本经济因子
x 1 x 2 x 3 x 4 x 5 x 6 x 7 x 9 x 11 x 12 x 13
2、 基础环境因子
x 15 x 16 x 17 x 18 x 19
3、 政策性因子
x 8 x 14 x 20
4、 人员素质因子
x 10
5、 补充因子
§3 典型相关分析
典型相关分析是研究两组变量之间相关关系的一种多元统计方法。它能够揭示出两组变量之间的内在联系。一元统计分析中,(偏)相关系数来衡量两个随机变量的线性相关关系;用复相关系数来衡量一个随机变量与多个随机变量的线性相关关系。不能用于研究两组变量之间相关关系。比如生理指标与训练指标
的关系、居民生活环境与健康状况的关系、人口统计变量与消费变量之间的关系等。
典型相关分析由霍特林提出,其基本思想与主成分分析非常相似。首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和 最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的 相关性被提出完毕为止。被选取的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。
§4 对应(相应)分析
对应分析是R 型因子分析与Q 型因子分析的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。对应分析的思想首先由理查森(Richardson)和库德(Kuder)在1933年提出,后来法国统计学家让一保罗·贝内泽(Jean—Paul Benzkcri)和日本统计学家林知己夫(HayashiChikio)对该方法进行了详细的论述而使其得到了发展。对应分析方法广泛用于对由属性变量构成的列联表数据的研究,利用对应分析可以在一张二维图上同时画出属性变量不同取值的情况,列联表的每一行及每一列均以二维图上的一个点来表
示,以直观、简洁的形式描述属性变量各种状态之间的相互关系及不同属性变量之间的相互关系。
由于对应分析是在R 型因子分析和Q 型因子分析基础上发展起来的一种多元统计分析方法,它把两种因子分析结合起来,对变量和样品统一进行分析研究,因而更有利于地质学等一些领域解释应用。 如前所述,两种因子分析都可以用少数几个公因子去提取研究对象的绝大部分信息,因而,不仅简化了原有的观测系统,抓住了控制原有观测数据的主要矛盾,而且通过研究公因子的特征,比较容易揭示研究对象在成因上或空间上的联系,也就便于直接进行地质解释和逻辑推断。但是,R 型因子分析与Q 型因子分析把变量与样品孤立起来分析,割断了它们的联系,这将会漏掉许多有用的地质信息。事实上,对于同一个地质问题,往往需要同时研究地质成因和不同类型样品的地质特征,前者要通过对样品的研究,而后者则是通过对变量的分析,才能得到合理的地质解释。这说明两种因子分析是同一问题的不可分割的两个部分。另外,样品的数目一般远远大于变量的数目,在进行Q 型因子分析时,样品的相似矩阵占用大量的内存,这对于一般的微型计算机来说是难以胜任的。还有一个问题就是不能对变量和样品用同一种标准化方法进行处理,这就给寻找R 型与Q 型因子分析之间的联系带来了困难。
鉴于上述原因,在R 型因子分析和Q 型因子分析的基础上
产生了对应分析。它的主要优点是可由R 型因子分析的结果,很容易地导出Q 型因子分析结果,从而克服了Q 型因子分析受计算机内存容量的限制并提高了计算速度,更重要的是把变量和样品反映在同一个因子空间中,便于对变量与样品统一进行地质解释和推断。
对应分析也叫相应分析,其特点是它所研究的变量可以是定性的。通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究。在社会、经济以及其他领域中,进行数据分析时经常要处理因素与因素之间的关系,及因素内部各个水平之间的相互关系。例如,评价某一行业所属企业的经济效益,我们不仅要研究因素A ,即企业按经济效益好坏的分类情况,以及要研究因素B ,即经济效益指标之间的关系,还要研究哪些企业与哪些经济效益指标更密切一些。这就需要用相应分析的方法,将经济效益指标和企业状况放在一起进行分类、作图,以便更好地描述两者之间的关系,在经济意义上做出切合实际的解释。
总之,对应分析是R 型因子分析(主成分分析)与Q 型因子分析(主因子分析)的结合,它也是利用降维的思想以达到简化数据结构的目的,不过,与因子分析不同的是,它同时对数据表中的行和列进行处理,寻求以低维图形表示数据表中行与列之间的关系。 对应分析的优点:
(1) 定性变量划分的类别越多,这种方法的优势就越明显 (2) 揭示行变量类别间和列变量类别间的联系 (3) 将类别联系直观地表现在图中
(4) 可以将名义变量或序次变量转变为间距变量 作业题:
1.证明主成分载荷
p (z k , x i ) =
(i=1,2,..,p;k=1,2,…,m )
p ik 是主成分z k 与变量x i 之间的相关系数
2.以两个变量主成分为例证明主分量y 1 和 y 2 是无关的(正交)。
3. 论述一下主成分分析与因子分析的区别和联系 4.某地区35个城市2004年的7项经济统计指标数据见下表。
(1)试用最短距离聚类法对45个城市综合实力进行系统聚类分析,并画出聚类谱系图;
(2)试用主成分分析法对45个城市7项经济指标进行主成分分析,并分析其综合实力;
(3)以第一、二、三主成分为变量,进行聚类分析,结果又怎样呢?
习题8.3
农业总产 工业总产地方财政预在岗职工工
城市 总人口 非农业人口年底储蓄余88
值(单位:10值(单位:10算内收入(单资总额(单位:
编号 (单位:104人) 比例(单位:%) 额(单位:1088
元) 元) 位:10元) 108元) 元) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
1249.90 910.17 875.40 299.92 207.78 677.08 545.31 691.23 927.09 1313.12 537.44 616.05 538.41 429.95 583.13 128.99 424.20 557.63 702.97 615.36 740.20 582.47 685.00 119.85 285.87 54.38 3072.34 1003.56 321.50 473.39 674.50 287.59 133.95 95.38 158.92
0.60 0.58 0.23 0.66 0.44 0.63 0.49 0.41 0.46 0.74 0.53 0.36 0.25 0.32 0.27 0.49 0.40 0.41 0.37 0.34 0.59 0.31 0.62 0.79 0.41 0.84 0.21 0.34 0.46 0.39 0.41 0.54 0.52 0.57 0.82
184.34 150.11 291.87 23.60 36.53 129.54 187.97 185.32 266.39 206.90 98.92 141.47 142.82 62.88 215.23 33.34 68.83 148.63 238.23 67.74 121.13 114.64 160.07 29.97 72.05 4.48 416.88 193.56 36.21 79.34 73.99 25.94 6.58 17.16 7.85
1999.97 2264.55 688.58 273.78 81.65 582.67 842.64 596.63 418.61 5452.91 1307.27 1200.08 1062.29 251.41 655.54 575.11 230.59 628.59 1149.20 528.76 750.61 309.82 2334.81 2036.83 114.97 71.75 858.55 589.43 224.79 360.57 366.59 294.09 71.13 66.12 184.72
279.09 112.81 35.23 20.33 10.58 56.79 70.92 35.71 48.14 431.85 66.43 44.96 50.17 23.36 46.75 41.88 16.77 46.07 65.84 38.73 60.47 32.37 176.15 184.79 14.97 11.52 89.89 56.12 19.79 52.42 40.89 16.95 4.91 7.48 25.49
2680.66 1130.19 709.59 394.31 139.66 901.70 755.68 480.37 645.00 2597.12 568.05 742.60 524.64 162.29 503.02 210.83 264.05 412.70 497.80 513.53 574.81 346.12 2040.18 951.99 219.09 162.68 909.10 747.97 178.77 412.79 586.40 264.16 85.51 81.41 236.55
577.33 225.43 75.89 65.40 30.93 115.28 96.59 88.44 130.92 560.54 135.79 118.09 82.40 36.96 68.06 65.75 47.96 75.67 96.17 69.68 131.48 59.70 304.76 189.03 37.18 19.81 160.68 120.07 41.97 84.23 88.52 55.09 21.93 17.86 51.76