典型相关分析1
第 15 章 典型相关分析
典型相关分析(Canonical Correlation)是研究两组变量之间相关关系的一种多元统计方 法.它能够揭示出两组变量之间的内在联系. 我们知道,在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系; 用复相关系数研究一个随机变量和多个随机变量的线性相关关系. 然而, 这些统计方法在研 究两组变量之间的相关关系时却无能为力. 比如要研究生理指标与训练指标的关系, 居民生 活环境与健康状况的关系,人口统计变量(户主年龄,家庭年收入,户主受教育程度)与消 费变量(每年去餐馆就餐的频率,每年出外看电影的频率)之间是否具有相关关系?阅读能 力变量(阅读速度,阅读才能)与数学运算能力变量(数学运算速度,数学运算才能)是否 相关?这些多变量间的相关性如何分析? 典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析, 转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析. 目前,典型相关分析已被广泛应用于心理学,市场营销等领域,如用于研究个人性格与 职业兴趣的关系,市场促销活动与消费者响应之间的关系等.
15.1 典型相关分析的理论与方法
15.1.1 典型相关分析的基本思想
典型相关分析的基本思想和主成分分析非常相似. 首先在每组变量中找出变量的一个线 性组合, 使得两组的线性组合之间具有最大的相关系数. 然后选取相关系数仅次于第一对线 性组合并且与第一对线性组合不相关的第二对线性组合, 如此继续下去, 直到两组变量之间 的相关性被提取完毕为止. 被选出的线性组合配对称为典型变量, 它们的相关系数称为典型 相关系数.典型相关系数度量了这两组变量之间联系的强度. 一般情况,设 X
(1) (1) (1) (2) (2) = ( X 1(1) , X 2 ,L , X p ) , X (2) = ( X 1(2) , X 2 ,L , X q ) 是两个相互关
联的随机向量,分别在两组变量中选取若干有代表性的综合变量 U i , Vi ,使得每一个综合 变量是原变量的线性组合,即
( (1) ( (1) U i = a1(i ) X 1(1) + a2i ) X 2 + L + aPi ) X P ( (2) ( (2) Vi = b1(i ) X 1(2) + b2i ) X 2 + L + bqi ) X q
a (i )′ X (1)
b (i )′ X (2)
(1)
为了确保典型变量的唯一性, 我们只考虑方差为 1 的 X
,X
(2)
(i ) (1) 的线性函数 a ′ X 与
b( i )′ X (2) , 求 使 得 它 们 相 关 系 数 达 到 最 大 的 这 一 组 . 若 存 在 常 向 量 a (1) , b(1) , 在
(1) (1) (1) (2) D (a (1)′ X (1) ) = D(b(1)′ X (2) ) = 1 的条件下, 则 使得相关系数 ρ ( a ′ X , b ′ X ) 达到最大,
(1) (2) (1) (1) (1) (2) 称 a ′ X ,b ′ X 是 X , X 的第一对典型相关变量,它们之间的相关系数就叫典型
相关系数. 求出第一对典型相关变量之后, 可以类似的求出各对之间互不相关的
第二对典型 相关变量,第三对典型相关变量,…….这些典型相关变量就反映了 X
(1)
,X
(2)
之间的线
性相关情况.这里值得注意的是,我们可以通过检验各对典型相关变量相关系数的显著性, 来反映每一对综合变量的代表性, 如果某一对的相关程度不显著, 那么这对变量就不具有代 表性,不具有代表性的变量就可以忽略.这样就可以通过对少数典型相关变量的研究,代替 原来两组变量之间的相关关系的研究,从而容易抓住问题的本质.
15.1.2 典型相关变量及典型相关系数的求解步骤
为了节省篇幅,不加证明地给出求解典型相关变量与典型相关系数的一般步骤: 1. 计算原始数据的协差阵. 设有两组变量, X p≤q.令
(1)
代表第一组的 p 个变量, X
(2)
代表第二组的 q 个变量,不妨假设
X 1(1) (1) X2 M (1) (1) X Xp X ( p + q )×1 = (2) = (2) X X1 (2) X2 M (2) Xq
∑ 11 ( p× p ) Cov( X , X ) = ∑ ( q×21 p)
∑12
( p× q )
∑ 22
( q× q )
∑11 = Cov( X (1) ) , ∑ 22 = Cov( X (2) ) , ∑12 = Cov( X (1) , X (2) ) = ∑′ 21
即将总的样本协差阵剖分为第一组变量的协差阵 ∑11 ,第二组变量的协差阵 ∑ 22 以及两 组变量之间的协差阵 ∑12 和 ∑ 21 . 2. 计算两个矩阵 A 和 B :
1 A = ∑111∑12 ∑ 22 ∑ 21 1 B = ∑ 22 ∑ 21∑111∑12
其中 A 为 p×p 阶矩阵, B 为 q×q 阶矩阵.可以证明,矩阵 A 和 B 具有相同的非零特征 根,且非零特征根的个数 r = rank ( A) = rank ( B) .
3. 计算矩阵 A 和 B 的非零特征根为 λ1 ≥ λ2 L ≥ λr , a , a
2 2 2
(1)
(2)
,L , a ( r ) 为 A 对应于
λ12 , λ22 ,L , λr2 的特征向量, b(1) , b(2) ,L , b( r ) 为 B 对应于 λ12 , λ22 ,L , λr2 的特征向量.则最大
特征根 λ1 对应的特征向量 a
2
(1) (1) (1) (1) = (a1(1) , a2 ,L , a (1) )′ 和 b (1) = (b1(1) , b2 ,L , bq )′ 就是所求的 p
第一对典型变量的系数向量,即
(1) (1) (1) (1) U1 = a (1)′ X (1) = a1(1) X 1(1) + a2 X 2 + L + aP X P
(1) (2) (1) (2) V1 = b (1)′ X (2) = b1(1) X 1(2) + b2 X 2 + L + bq X q
最大特征根的平方根 λ1 即为两典型变量的相关系数,我们称其为第一典型相关系数. 同理,矩阵 A 和 B 的第二大特征根 λ2 的平方根 λ2 ,其对应的特征向量 a
2
(2)
,b
(2)
就是
第二对典型变量的系数向量,称 U 2 = a 第二典型相关系数.
(2)′
X (1) 和 V2 = b(2)′ X (2) 为第二对典型变量, λ2 为
( r )′
类似地,依次可求出第 r 对典型变量:U r = a 和b
(r ) 2
X (1) 和 Vr = b( r )′ X (2) ,其系数向量 a ( r )
分别为矩阵 A 和 B 的第 r 特征根 λr 对应的特征向量. λr 即为第 r 典型相关系数.
可以证明,典型变量具有如下性质: (1) D (U k ) = 1, D (Vk ) = 1 (2) Cov (U i ,U j ) = 0,
(k = 1, 2,L , r )
Cov(Vi ,V j ) = 0 (i ≠ j )
(i = j , i = 1, 2,L , r ) (i ≠ j ) ( j > r)
λi
≠ 0 (3) Cov(U i , V j ) = 0 0
15.1.3 典型相关系数的显著性检验
在进行典型相关分析时,对于两随机向量 X ,X
(1) (2)
,我们总共可以提取出 r 对典型变
量,问题是进行典型相关分析的目的就是要减少分析变量,简化两组变量间关系分析,提取 r 对变量是否必要?我们如何确定保留多少对典型变量? 若第 k 个总体典型相关系数 λk = 0 ,则相应的典型变量 U k ,Vk 之间无相关关系,这样 的典型变量可以不予考虑.由于第 k 个以后的典型相关系数逐渐减小,如果第 k 个典型相关 系数不显著,则显然后面的典型相关系数均不显著.这样,可以建立如下的原假设:
H 0 : λk +1 = λk + 2 = L = λr = 0
H 1 : λk +1 ≠ 0
用于检验的似然比统计量为:
∧k =
i = k +1
∏ (1 λ
2
r
2 i
)
可以证明,统计量 Qk = mk ln ∧ k 近似服从 χ ( f k ) 分布,其中
1 mk = (n k 1) ( p + q + 1) 2
自由度 f k = ( p k )( q k ) . SPSS 会自动计算 k = 1 至 r 的上述卡方统计量以及对应的 p 值,如果 p 值小于给定的 显著性水平 α ,则拒绝原假设,认为第 k 个典型相关系数显著;如果 p 值大于给定的显著 性水平 α ,则无法原假设,认为从第 k 个开始往后的所有典型相关系数均不显著.
15.1.4 从相关矩阵出发计算典型相关
不同的变量往往具有不同的量纲及不同的数量级别. 在进 典型相关分析涉及多个变量, 行典型相关分析时, 由于典型变量是原始变量的线性组合, 具有不同量纲变量的线性组合显 然失去了实际意义.其次,不同的数量级别会导致单中的 All 子菜单项,运行典型相关宏命令,得出结果.
15.2.2 实例结果分析
1. Correlations for Set-1,Correlations for Set-2,Correlations Between Set-1 and Set-2(分 别给出两组变量内部以及两组变量之间的相关系数矩阵) 由前面介绍的理论知识知道,这些矩阵是典型相关分析计算的出发点.
表 15-1 两组变量内部以及两组变量之间的相关系数矩阵 Correlations for Set-1 X1 X1 1.0000 X2 X3 X4 .5811 X2 .7697 X3 .5811 X4 .1022
.7697 1.0000
.8171 -.1230
.8171 1.0000 -.1758
.1022 -.1230 -.1758 1.0000 Correlations for Set-2 Y1 Y1 1.0000 Y2 Y3 .8614 Y2 .8865 Y3 .8614 .7465
.8865 1.0000
.7465 1.0000
Correlations Between Set-1 and Set-2 Y1 X1 X2 X3 X4 .7582 .8572 .8864 .0687 Y2 .8043 .7830 .7638 .1169 Y3 .5401 .7171 .8684 .0147
2. Canonical Correlations(给出典型相关系数) 从表 15-2中可以看出,共提取出三对典型变量,第一典型相关系数达到 0.957,第二典 型相关系数为 0.582,第三典型相关系数为 0.180.
表 15-2 典型相关系数
Canonical Correlations 1 2 3 .957 .582 .180
3. Test that remaining correlations are zero(给出典型相关的显著性检验) 表 15-3中从左至右分别为Wilks的 λ 统计量,卡方统计量,自由度和伴随概率.从表中可以 看出,在 0.05 的显著性水平下,三对典型变量中只有第一对典型相关是显著的,其余两对 相关性均不显著.
表 15-3 典型相关系数的显著性检验
Test that remaining correlations are zero: Wilk's 1 2 3 .054 .640 .967 Chi-SQ 29.186 4.459 .331 DF 12.000 6.000 2.000 Sig. .004 .615 .848
4. Raw Canonical Coefficients(给出两组典型变量的未标准化系数)
表 15-4 两组典型变量的未标准化系数
Raw Canonical Coefficients for Set-1 1 X1 X2 X3 X4 -.031 -.019 -.058 -.071 2 -.139 -.014 .089 .019 3 .130 -.280 .101 .010
Raw Canonical Coefficients for Set-2 1 Y1 Y2 Y3 -.121 -.021 -.021 2 -.032 -.155 .227 3 -.461 .215 .189
5. Standardized Canonical Coefficients(给出两组典型变量的标准化系数)
由于本例中的数据单位并不统一, 所以我们主要通过观察标准化的典型变量的系数来分 析两组变量的相关关系. 从表 15-5中可以看出,来自身体形态指标的第一典型变量 V1 为:
V1 = 0.256 X 1 0.151X 2 0.694 X 3 0.189 X 4
由于 X 3 (抽烟量)的系数-0.694 绝对值最大,反映身体形态的典型变量主要由抽烟量 决定. 而来自健康状况指标的第一典型变量 U1 为:
U1 = 0.721Y1 0.171Y2 0.142Y3
由于 Y1(脉搏) 的系数-0.721 绝对值最大, 说明健康状况的典型变量主要由脉搏所决定. 同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(都为负) ,反映抽烟量和脉 搏的正相关,即日抽烟越多则每分钟的脉搏跳动次数也越多.抽烟对身体健康有害,这和客 观事实是相符的.
表 15-5 两组典型变量的标准化系数
Standardized Canonical Coefficients for Set-1 1 X1 X2 X3 X4 -.256
-.151 -.694 -.189 2 -1.130 -.113 1.067 .051 3 1.060 -2.215 1.212 .027
Standardized Canonical Coefficients for Set-2 1 Y1 Y2 Y3 -.721 -.171 -.142 2 -.191 -1.265 1.514 3 -2.739 1.751 1.259
6.
Redundancy Analysis(给出两组典型变量的冗余分析)
在进行典型相关分析时, 我们也想了解每组变量提取出的典型变量所能解释的样本总方 差的比例, 从而定量测度典型变量所包含的原始信息量的大小, 这就是典型变量的冗余分析. 表 15-6中给出的四组数据分别是身体形态变量被自身的典型变量解释的方差比例,身体形 态变量被健康状况的典型变量解释的方差比例, 健康状况变量被自身的典型变量解释的方差 比例,健康状况变量被身体形态的典型变量解释的方差比例.可以看出,4 个身体形态的原 始变量被身体形态的第一典型变量解释了 57.6%的方差, 被健康状况的第一典型变量解释了 52.7%的方差;3 个健康状况的原始变量被健康状况的第一典型变量解释了 87.4%的方差, 被身体形态的第一典型变量解释了 80%的方差,说明提取的第一对典型变量可以代表原始 变量的大部分信息.
表 15-6
典型冗余分析
Redundancy Analysis Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 CV1-2 CV1-3 .576 .129 .053 Prop Var CV2-1 CV2-2 CV2-3 .527 .044 .002 Prop Var CV2-1 CV2-2 CV2-3 .874 .086 .041 Prop Var CV1-1 CV1-2 CV1-3 .800 .029 .001
Proportion of Variance of Set-1 Explained by Opposite Can.Var.
Proportion of Variance of Set-2 Explained by Its Own Can. Var.
Proportion of Variance of Set-2 Explained by Opposite Can. Var.
15.2.3 一个经典的典型相关分析的例子
利用 SPSS 软件对 C.R.Rao(1952)关于典型相关的经典例子进行分析.数据文件中包 . 含了 25 个家庭的成年长子的头长(X1)和头宽(X2)以及次子的头长(Y1)和头宽(Y2) 利用典型相关分析法分析长子和次子头型的相关性. 按 File→New→Syntax 的顺序新建一个语句窗口.在语句窗口中输入下面的语句: INCLUDE 'Canonical correlation.sps'. CANCORR SET1=x1 x2 / SET2=y1 y2 / . 点击语句窗口 Run 菜单中的 All 子菜单项,运行典型相关宏命令,得到如下结果. 1. 典型相关系数和典型相关的显著性检验 从表 15-7可以看出, 两队典型变量中, 第一对的典型相关系数达到 0.788, 属于强相关, 而第二对典型变量的相关则比较弱.这一点从表 15-8可以更清楚的看到.显著性检验的结 果表明,在 0.05 的显著性水平下,只有第一对典型相关是显著的.
表 15-7 典型相关系数
Canonical Correlations 1 2 .788 .054
表 15-8
典型相关的显著性检验
Test that remaining correlations are zero: Wilk's 1 2 .378 .997 Chi-SQ 20.930 .062 DF 4.000 1.000 Sig. .000 .803
2. 典型变量的系数 由于本例中的各变量单位是相同的, 不需要对数据进行标准化, 所以这里我们来观察典 型
变量的未标准化系数, 见表 15-9. 其结果表明了代表长子头型特征的第一典型变量 V1 为:
V1 = 0.057 X 1 + 0.071X 2
同时表明,代表次子头型特征的第一典型变量 U1 为:
U1 = 0.051Y1 + 0.080Y2
两个典型变量中头长和头宽的系数都比较大, 可以认为是关于头型特征的综合变量. 这 一对包含了长子和次子头型相关性主要信息的典型变量表明了, 由于遗传因素的作用, 长子 和次子的头型具有很强的相关性.
表 15-9 两组典型变量的未标准化系数
Raw Canonical Coefficients for Set-1 1 X1 X2 .057 .071 2 .140 -.187
Raw Canonical Coefficients for Set-2 1 Y1 Y2 .051 .080 2 .174 -.262
3. 冗余分析 从表 15-10可以看到,长子的头型变量被自身的第一典型变量解释了 86.7%,次子的头 型变量被自身的第一典型变量解释了 91.8%.
表 15-10 冗余分析
Redundancy Analysis Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 CV1-2 .867 .133 Prop Var CV2-1 CV2-2 .539 .000 Prop Var CV2-1 CV2-2 .918 .082 Prop Var CV1-1 CV1-2 .570 .000
Proportion of Variance of Set-1 Explained by Opposite Can.Var.
Proportion of Variance of Set-2 Explained by Its Own Can. Var.
Proportion of Variance of Set-2 Explained by Opposite Can. Var.