典型相关分析1

11-30

第 15 章典型相关分析

典型相关分析(Canonical Correlation)是研究两组变量之间相关关系的一种多元统计方法.它能够揭示出两组变量之间的内在联系. 我们知道,在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系; 用复相关系数研究一个随机变量和多个随机变量的线性相关关系. 然而, 这些统计方法在研究两组变量之间的相关关系时却无能为力. 比如要研究生理指标与训练指标的关系, 居民生活环境与健康状况的关系,人口统计变量(户主年龄,家庭年收入,户主受教育程度)与消费变量(每年去餐馆就餐的频率,每年出外看电影的频率)之间是否具有相关关系?阅读能力变量(阅读速度,阅读才能)与数学运算能力变量(数学运算速度,数学运算才能)是否相关?这些多变量间的相关性如何分析? 典型相关分析的目的是识别并量化两组变量之间的联系,将两组变量相关关系的分析, 转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析. 目前,典型相关分析已被广泛应用于心理学,市场营销等领域,如用于研究个人性格与职业兴趣的关系,市场促销活动与消费者响应之间的关系等.

15.1 典型相关分析的理论与方法

15.1.1 典型相关分析的基本思想

典型相关分析的基本思想和主成分分析非常相似. 首先在每组变量中找出变量的一个线性组合, 使得两组的线性组合之间具有最大的相关系数. 然后选取相关系数仅次于第一对线性组合并且与第一对线性组合不相关的第二对线性组合, 如此继续下去, 直到两组变量之间的相关性被提取完毕为止. 被选出的线性组合配对称为典型变量, 它们的相关系数称为典型相关系数.典型相关系数度量了这两组变量之间联系的强度. 一般情况,设 X

(1) (1) (1) (2) (2) = ( X 1(1) , X 2 ,L , X p ) , X (2) = ( X 1(2) , X 2 ,L , X q ) 是两个相互关

联的随机向量,分别在两组变量中选取若干有代表性的综合变量 U i , Vi ,使得每一个综合变量是原变量的线性组合,即

( (1) ( (1) U i = a1(i ) X 1(1) + a2i ) X 2 + L + aPi ) X P ( (2) ( (2) Vi = b1(i ) X 1(2) + b2i ) X 2 + L + bqi ) X q

a (i )′ X (1)

b (i )′ X (2)

(1)

为了确保典型变量的唯一性, 我们只考虑方差为 1 的 X

(2)

(i ) (1) 的线性函数 a ′ X 与

b( i )′ X (2) , 求使得它们相关系数达到最大的这一组 . 若存在常向量 a (1) , b(1) , 在

(1) (1) (1) (2) D (a (1)′ X (1) ) = D(b(1)′ X (2) ) = 1 的条件下, 则使得相关系数 ρ ( a ′ X , b ′ X ) 达到最大,

(1) (2) (1) (1) (1) (2) 称 a ′ X ,b ′ X 是 X , X 的第一对典型相关变量,它们之间的相关系数就叫典型

相关系数. 求出第一对典型相关变量之后, 可以类似的求出各对之间互不相关的

第二对典型相关变量,第三对典型相关变量,…….这些典型相关变量就反映了 X

(1)

(2)

之间的线

性相关情况.这里值得注意的是,我们可以通过检验各对典型相关变量相关系数的显著性, 来反映每一对综合变量的代表性, 如果某一对的相关程度不显著, 那么这对变量就不具有代表性,不具有代表性的变量就可以忽略.这样就可以通过对少数典型相关变量的研究,代替原来两组变量之间的相关关系的研究,从而容易抓住问题的本质.

15.1.2 典型相关变量及典型相关系数的求解步骤

为了节省篇幅,不加证明地给出求解典型相关变量与典型相关系数的一般步骤: 1. 计算原始数据的协差阵. 设有两组变量, X p≤q.令

(1)

代表第一组的 p 个变量, X

(2)

代表第二组的 q 个变量,不妨假设

X 1(1) (1) X2 M (1) (1) X Xp X ( p + q )×1 = (2) = (2) X X1 (2) X2 M (2) Xq

∑ 11 ( p× p ) Cov( X , X ) = ∑ ( q×21 p)

∑12

( p× q )

∑ 22

( q× q )

∑11 = Cov( X (1) ) , ∑ 22 = Cov( X (2) ) , ∑12 = Cov( X (1) , X (2) ) = ∑′ 21

即将总的样本协差阵剖分为第一组变量的协差阵 ∑11 ,第二组变量的协差阵 ∑ 22 以及两组变量之间的协差阵 ∑12 和 ∑ 21 . 2. 计算两个矩阵 A 和 B :

1 A = ∑111∑12 ∑ 22 ∑ 21 1 B = ∑ 22 ∑ 21∑111∑12

其中 A 为 p×p 阶矩阵, B 为 q×q 阶矩阵.可以证明,矩阵 A 和 B 具有相同的非零特征根,且非零特征根的个数 r = rank ( A) = rank ( B) .

3. 计算矩阵 A 和 B 的非零特征根为 λ1 ≥ λ2 L ≥ λr , a , a

2 2 2

(1)

(2)

,L , a ( r ) 为 A 对应于

λ12 , λ22 ,L , λr2 的特征向量, b(1) , b(2) ,L , b( r ) 为 B 对应于 λ12 , λ22 ,L , λr2 的特征向量.则最大

特征根 λ1 对应的特征向量 a

(1) (1) (1) (1) = (a1(1) , a2 ,L , a (1) )′ 和 b (1) = (b1(1) , b2 ,L , bq )′ 就是所求的 p

第一对典型变量的系数向量,即

(1) (1) (1) (1) U1 = a (1)′ X (1) = a1(1) X 1(1) + a2 X 2 + L + aP X P

(1) (2) (1) (2) V1 = b (1)′ X (2) = b1(1) X 1(2) + b2 X 2 + L + bq X q

最大特征根的平方根 λ1 即为两典型变量的相关系数,我们称其为第一典型相关系数. 同理,矩阵 A 和 B 的第二大特征根 λ2 的平方根 λ2 ,其对应的特征向量 a

(2)

就是

第二对典型变量的系数向量,称 U 2 = a 第二典型相关系数.

(2)′

X (1) 和 V2 = b(2)′ X (2) 为第二对典型变量, λ2 为

( r )′

类似地,依次可求出第 r 对典型变量:U r = a 和b

(r ) 2

X (1) 和 Vr = b( r )′ X (2) ,其系数向量 a ( r )

分别为矩阵 A 和 B 的第 r 特征根 λr 对应的特征向量. λr 即为第 r 典型相关系数.

可以证明,典型变量具有如下性质: (1) D (U k ) = 1, D (Vk ) = 1 (2) Cov (U i ,U j ) = 0,

(k = 1, 2,L , r )

Cov(Vi ,V j ) = 0 (i ≠ j )

(i = j , i = 1, 2,L , r ) (i ≠ j ) ( j > r)

λi

≠ 0 (3) Cov(U i , V j ) = 0 0

15.1.3 典型相关系数的显著性检验

在进行典型相关分析时,对于两随机向量 X ,X

(1) (2)

,我们总共可以提取出 r 对典型变

量,问题是进行典型相关分析的目的就是要减少分析变量,简化两组变量间关系分析,提取 r 对变量是否必要?我们如何确定保留多少对典型变量? 若第 k 个总体典型相关系数 λk = 0 ,则相应的典型变量 U k ,Vk 之间无相关关系,这样的典型变量可以不予考虑.由于第 k 个以后的典型相关系数逐渐减小,如果第 k 个典型相关系数不显著,则显然后面的典型相关系数均不显著.这样,可以建立如下的原假设:

H 0 : λk +1 = λk + 2 = L = λr = 0

H 1 : λk +1 ≠ 0

用于检验的似然比统计量为:

∧k =

i = k +1

∏ (1 λ

2 i

)

可以证明,统计量 Qk = mk ln ∧ k 近似服从 χ ( f k ) 分布,其中

1 mk = (n k 1) ( p + q + 1) 2

自由度 f k = ( p k )( q k ) . SPSS 会自动计算 k = 1 至 r 的上述卡方统计量以及对应的 p 值,如果 p 值小于给定的显著性水平 α ,则拒绝原假设,认为第 k 个典型相关系数显著;如果 p 值大于给定的显著性水平 α ,则无法原假设,认为从第 k 个开始往后的所有典型相关系数均不显著.

15.1.4 从相关矩阵出发计算典型相关

不同的变量往往具有不同的量纲及不同的数量级别. 在进典型相关分析涉及多个变量, 行典型相关分析时, 由于典型变量是原始变量的线性组合, 具有不同量纲变量的线性组合显然失去了实际意义.其次,不同的数量级别会导致单中的 All 子菜单项,运行典型相关宏命令,得出结果.

15.2.2 实例结果分析

1. Correlations for Set-1,Correlations for Set-2,Correlations Between Set-1 and Set-2(分别给出两组变量内部以及两组变量之间的相关系数矩阵) 由前面介绍的理论知识知道,这些矩阵是典型相关分析计算的出发点.

表 15-1 两组变量内部以及两组变量之间的相关系数矩阵 Correlations for Set-1 X1 X1 1.0000 X2 X3 X4 .5811 X2 .7697 X3 .5811 X4 .1022

.7697 1.0000

.8171 -.1230

.8171 1.0000 -.1758

.1022 -.1230 -.1758 1.0000 Correlations for Set-2 Y1 Y1 1.0000 Y2 Y3 .8614 Y2 .8865 Y3 .8614 .7465

.8865 1.0000

.7465 1.0000

Correlations Between Set-1 and Set-2 Y1 X1 X2 X3 X4 .7582 .8572 .8864 .0687 Y2 .8043 .7830 .7638 .1169 Y3 .5401 .7171 .8684 .0147

2. Canonical Correlations(给出典型相关系数) 从表 15-2中可以看出,共提取出三对典型变量,第一典型相关系数达到 0.957,第二典型相关系数为 0.582,第三典型相关系数为 0.180.

表 15-2 典型相关系数

Canonical Correlations 1 2 3 .957 .582 .180

3. Test that remaining correlations are zero(给出典型相关的显著性检验) 表 15-3中从左至右分别为Wilks的 λ 统计量,卡方统计量,自由度和伴随概率.从表中可以看出,在 0.05 的显著性水平下,三对典型变量中只有第一对典型相关是显著的,其余两对相关性均不显著.

表 15-3 典型相关系数的显著性检验

Test that remaining correlations are zero: Wilk's 1 2 3 .054 .640 .967 Chi-SQ 29.186 4.459 .331 DF 12.000 6.000 2.000 Sig. .004 .615 .848

4. Raw Canonical Coefficients(给出两组典型变量的未标准化系数)

表 15-4 两组典型变量的未标准化系数

Raw Canonical Coefficients for Set-1 1 X1 X2 X3 X4 -.031 -.019 -.058 -.071 2 -.139 -.014 .089 .019 3 .130 -.280 .101 .010

Raw Canonical Coefficients for Set-2 1 Y1 Y2 Y3 -.121 -.021 -.021 2 -.032 -.155 .227 3 -.461 .215 .189

5. Standardized Canonical Coefficients(给出两组典型变量的标准化系数)

由于本例中的数据单位并不统一, 所以我们主要通过观察标准化的典型变量的系数来分析两组变量的相关关系. 从表 15-5中可以看出,来自身体形态指标的第一典型变量 V1 为:

V1 = 0.256 X 1 0.151X 2 0.694 X 3 0.189 X 4

由于 X 3 (抽烟量)的系数-0.694 绝对值最大,反映身体形态的典型变量主要由抽烟量决定. 而来自健康状况指标的第一典型变量 U1 为:

U1 = 0.721Y1 0.171Y2 0.142Y3

由于 Y1(脉搏) 的系数-0.721 绝对值最大, 说明健康状况的典型变量主要由脉搏所决定. 同时,由于两个典型变量中抽烟量和脉搏的系数是同号的(都为负) ,反映抽烟量和脉搏的正相关,即日抽烟越多则每分钟的脉搏跳动次数也越多.抽烟对身体健康有害,这和客观事实是相符的.

表 15-5 两组典型变量的标准化系数

Standardized Canonical Coefficients for Set-1 1 X1 X2 X3 X4 -.256

-.151 -.694 -.189 2 -1.130 -.113 1.067 .051 3 1.060 -2.215 1.212 .027

Standardized Canonical Coefficients for Set-2 1 Y1 Y2 Y3 -.721 -.171 -.142 2 -.191 -1.265 1.514 3 -2.739 1.751 1.259

Redundancy Analysis(给出两组典型变量的冗余分析)

在进行典型相关分析时, 我们也想了解每组变量提取出的典型变量所能解释的样本总方差的比例, 从而定量测度典型变量所包含的原始信息量的大小, 这就是典型变量的冗余分析. 表 15-6中给出的四组数据分别是身体形态变量被自身的典型变量解释的方差比例,身体形态变量被健康状况的典型变量解释的方差比例, 健康状况变量被自身的典型变量解释的方差比例,健康状况变量被身体形态的典型变量解释的方差比例.可以看出,4 个身体形态的原始变量被身体形态的第一典型变量解释了 57.6%的方差, 被健康状况的第一典型变量解释了 52.7%的方差;3 个健康状况的原始变量被健康状况的第一典型变量解释了 87.4%的方差, 被身体形态的第一典型变量解释了 80%的方差,说明提取的第一对典型变量可以代表原始变量的大部分信息.

表 15-6

典型冗余分析

Redundancy Analysis Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 CV1-2 CV1-3 .576 .129 .053 Prop Var CV2-1 CV2-2 CV2-3 .527 .044 .002 Prop Var CV2-1 CV2-2 CV2-3 .874 .086 .041 Prop Var CV1-1 CV1-2 CV1-3 .800 .029 .001

Proportion of Variance of Set-1 Explained by Opposite Can.Var.

Proportion of Variance of Set-2 Explained by Its Own Can. Var.

Proportion of Variance of Set-2 Explained by Opposite Can. Var.

15.2.3 一个经典的典型相关分析的例子

利用 SPSS 软件对 C.R.Rao(1952)关于典型相关的经典例子进行分析.数据文件中包 . 含了 25 个家庭的成年长子的头长(X1)和头宽(X2)以及次子的头长(Y1)和头宽(Y2) 利用典型相关分析法分析长子和次子头型的相关性. 按 File→New→Syntax 的顺序新建一个语句窗口.在语句窗口中输入下面的语句: INCLUDE 'Canonical correlation.sps'. CANCORR SET1=x1 x2 / SET2=y1 y2 / . 点击语句窗口 Run 菜单中的 All 子菜单项,运行典型相关宏命令,得到如下结果. 1. 典型相关系数和典型相关的显著性检验从表 15-7可以看出, 两队典型变量中, 第一对的典型相关系数达到 0.788, 属于强相关, 而第二对典型变量的相关则比较弱.这一点从表 15-8可以更清楚的看到.显著性检验的结果表明,在 0.05 的显著性水平下,只有第一对典型相关是显著的.

表 15-7 典型相关系数

Canonical Correlations 1 2 .788 .054

表 15-8

典型相关的显著性检验

Test that remaining correlations are zero: Wilk's 1 2 .378 .997 Chi-SQ 20.930 .062 DF 4.000 1.000 Sig. .000 .803

2. 典型变量的系数由于本例中的各变量单位是相同的, 不需要对数据进行标准化, 所以这里我们来观察典型

变量的未标准化系数, 见表 15-9. 其结果表明了代表长子头型特征的第一典型变量 V1 为:

V1 = 0.057 X 1 + 0.071X 2

同时表明,代表次子头型特征的第一典型变量 U1 为:

U1 = 0.051Y1 + 0.080Y2

两个典型变量中头长和头宽的系数都比较大, 可以认为是关于头型特征的综合变量. 这一对包含了长子和次子头型相关性主要信息的典型变量表明了, 由于遗传因素的作用, 长子和次子的头型具有很强的相关性.

表 15-9 两组典型变量的未标准化系数

Raw Canonical Coefficients for Set-1 1 X1 X2 .057 .071 2 .140 -.187

Raw Canonical Coefficients for Set-2 1 Y1 Y2 .051 .080 2 .174 -.262

3. 冗余分析从表 15-10可以看到,长子的头型变量被自身的第一典型变量解释了 86.7%,次子的头型变量被自身的第一典型变量解释了 91.8%.

表 15-10 冗余分析

Redundancy Analysis Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 CV1-2 .867 .133 Prop Var CV2-1 CV2-2 .539 .000 Prop Var CV2-1 CV2-2 .918 .082 Prop Var CV1-1 CV1-2 .570 .000

Proportion of Variance of Set-1 Explained by Opposite Can.Var.

Proportion of Variance of Set-2 Explained by Its Own Can. Var.

Proportion of Variance of Set-2 Explained by Opposite Can. Var.

与《典型相关分析1》相关的范文

06-09 访谈类成长热线电视节目策划方案

访谈类成长热线电视节目策划方案节目类型：心理咨询、服务类节目时长：30分钟（周播）节目拟播出日期：方案编目一、节目整体阐述方案二、节目形态方案（附一期节目文案）三、栏目组织方案四、节目运行方案第一部分策划整体阐述节目背景按照国务院关于加强和改进未成年人思想道德建设的若干意见，将节目的录制现场搬进校园，采用校方领导、专家及相关话题的当事人（学生或家长）与热线咨询、现场讨论的形 ...

08-16 "指导学生形成有效学习方法的策略研究"课题研究方案

“指导学生形成有效学习方法的策略研究”课题研究方案一、课题研究的现实背景、理论基础、现状分析 1、时代趋势：学会学习是新时代的必然选择。当今世界正面临着一场“学习的革命”。联合国教科文组织早在八十年代就提出“现代文盲不再是不识字的人，而是不会学习的人。”进入二十一世纪，学会学习早已成为世界各国教育改革的核心。学会学习就是要学会“高效率地处理信息以创造新的资源”的方法。这就要求受教育者要掌握一定的 ...

12-17 高考语文万能答题模式:典型题实战兵法

词曲小知识　　词牌名(或曲牌名)表示词(或曲)的格律，而题目则限定词(或曲)的内容。　　如《补算子.咏梅》，补算子是词牌名，咏梅是题目。　　引号的作用：　　1、表引用(引用人物对话、诗文句等); 　　2、表特定称谓(特殊含义); 　　3、表否定、反语、讽刺等意味; 　　4、表强调。　　词语的比较(选词填空)：　　1、比较词义，尤其是意思相近的词，一定要仔细辨别两个词在程度、适用范围、感 ...

06-04 公文写作基本要求之材料可靠情况确实

　　公文的材料包括形成公文主旨和表达主旨所依据的事实现象、统计数字、政策法规、上级精神等等。公文材料不同于文学作品的素材和题材，也与一般新闻体、史传体或说明体、议论体等实用文章不同，它的范围要广泛一些。概而言之，公文材料的范围主要包括两个方面：精神依据和事实情况。精神依据是指党和国家的路线、方针，国家的法律、法规，上级领导机关所颁布的相关政策、规定以及其他有关的文件精神。事实情况包括直接发生的 ...

12-31 远程教育学用典型培养计划

远程教育学用典型培养计划为了认真贯彻落实长远办发〔xx〕1号《xx市关于农村党员干部现代远程教育学用典型培养实施意见（试行）的通知》和县远教办有关会议精神，加大学用典型的培养，不断扩大远程教育工作的影响力和辐射力，现就我镇远程教育学用典型培养工作作如下计划：一、培养目标 1、计划从xx-xx年，用三年时间，优化配置全镇远程教育培训资源，逐步完善远程教育学用典型培养长效机制，培养和扶植一批学用典 ...

04-08 调查报告的概念

一、调查报告的概念调查报告是通过对典型问题、情况、事件的深入调查，经过分析、综合，揭示出客观规律的书面报告。调查报告是一种重要的公务文书，应用范围相当广泛。它可以为党的方针、政策的制定和修改提供有价值的第一手材料；为领导机关掌握情况、研究问题、进行科学决策提供依据；可以引导人们正确看待社会的热点、焦点问题，为两个文明建设服务。二、调查报告的特点（一）针对性。调查报告应社会的实际需要而产生。 ...

12-18 典型病句分析

·典型病句分析　　识别和修改病句是一个让人头疼的事，我们可抓住一些典型病句进行分析，从而提高辨识和修改病句的能力，取得事半功倍的效果。 1.“对于”句 A.对于这个问题来说，我认为应交给党委讨论。 B.对于你来说，应当马上休息。　　“对于”是介词，动词带的宾语有些可以用“对于”提到前面，表示怎样对待它。这种介词结构可以用在动词前面，也歌词用在句子前头。如：“对于这些建议，校长非常重视。”但“对 ...

11-17 学生暑期社会实践活动方案

　　在“五四”运动九十周年到来之际，胡锦涛总书记到我校视察。总书记在师生代表座谈会上提出“希望同学们把深入实践作为成长成才的必由之路”的殷切期望。要求我们既要“读万卷书”，又要“行万里路”，要求同学们到基层一线去经受锻炼、发挥才干。按照团中央、北京团市委的统一部署，为了深入贯彻《中共中央、国务院关于进一步加强和改进大学思想政治教育的意见》（16号文件）和《教育部、共青团中央关于进一步加强改进大学生 ...

03-29 税务局工作要点通知

　　根据全省地税局长会议精神，结合计统工作实际，*年全省计统工作要点是：认真落实全省地税工作会议精神和开展“质效年”活动，以组织收入为中心，以省级“大集中”为依托，按照全省地税*年工作意见的总体要求，抓基础促管理，抓创新促服务，加强收入调度预测，强化税收收入分析，深化重点税源管理，规范税收会计核算，全面提高计统工作质效。一、组织收入工作 1、大力组织收入。坚持“依法征税，应收尽收，坚决不收‘过头 ...

11-18 高三历史教学计划3

根据实验区省份文综历史试题的特点及高考阅卷中所反映的问题，结合新课标下高三历史教学的现状，整合各地高考历史试题及复习策略，特制订高三历史复习计划如下。一、指导思想-三个“明确” 1．明确复习依据高三历史学科的教学要以《普通高中历史课程标准（实验）》、《普通高等学校招生全国统一考试大纲的说明文科综合》、四种版本的教材为依据。课程标准是国家意志的体现，是历史新课改赖以进行的纲领性文件（根本大法）； ...

随机推荐

猜你喜欢

典型相关分析1

·区委组织部2014年上半年总结及下半年打算

·师德师风建设活动督察小结

·工会劳动保护监督检查工作总结

·三线摆法测定转动惯量的计算原理分析

·大学生创新创业第二课堂教育的问题与对策

·[看房确认书]的法律认定

·国外学前教育的基本原则与现象

·主版师的个人简历模板

·我们怎样做父母阅读答案

·观察教师选择的幼儿舞蹈特点

·六年级德育工作总结

·体育教学实习工作思路

·新物流实习总结

·2012党支部基本情况

·我国的基本经济制度说课稿

·公务员辞去公职规定(试行)

·抛补套利国际金融计算题

·2005年全国高考语文试卷评价报告(16份试卷)

·小班主题教案--小蜗牛

·电子电路设计必备软件