多元统计分析:对应分析实验报告
============================================== 实验目的
对应分析是一种数据分析技术,它能够帮助我们研究由定性变量构成的交互汇总表来揭示变量间的联系。交互表的信息以图形的方式展示。主要适用于有多个类别的定类变量,可以揭示同一个变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。适用于两个或多个定类变量。本文会通过对自杀数据对分析,达到熟练掌握对应分析操作的目的。本文会对对应分析对列链表和卡方独立性检验、对应图分析结果做详细的分析。
实验数据
本文选用了自杀数据,包括自杀方式以及自杀者年龄数据,样本容量为48961(个人)。具体数据如表1所示。其中年龄age(1=“10-20”;2=“25-35”;3=“40-50”;4=“55-65”;5=“70-80”),自杀方式method(1=“POISON毒药”;2=“GAS毒气”;3=“HANG上吊”;4=“DROWN溺水”;5=“GUN枪杀”;6=“JUMP跳楼”)
表1 自杀数据
实验分析
打开数据,选择Reduction→Correspondence Analysis可进入相应分析的主对话框,对行变量和列变量进行设置,设置结果如表2所示。
表2 对应分析主对话框设置结果
设置完成后,点击OK,即可得到对应分析结果。
表3为Correspondence Table(相应分析表),即列联表。Active Margin为边际频数。
表3 相应分析表
表4为Summary(总览表)。表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。Singular Value为特征值的平方根。第一个维度惯量为0.056,占总惯量的94%;第二个维度惯量为0.002,仅占总惯量3.7%;第三个维度惯量为0.001,占总惯量的2%;第四个维度的惯量接近于0,仅占总惯量的0.2%。因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,我们保留前两个维度。卡方统计量伴随概率为0.000,说明行列变量之间存在显著的相关性,相应分析是有意义的。
表4 总览表
表5、表6分别为行/列点总览表。以表5为例,Mass项表示行变量中每个类目的边际概率。Sore in dimension下面则是行点在前两个维度的坐标,即有坐标点“10-20”(0.0555,-0.077),“25-35”(-0.610,-0.252);“40-50”(-0.095,0.283);“55-65”(0.425,0.064);“70-80”(0.668,-0.248)。 Inertia项为惯量,即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和。比较表5和表6的总惯量,可以发现行惯量与列惯
量相等。Contribution项有两个部分,分别是行变量的每个类目对维度(公共因子)特征值的贡献,每一个维度对每个类目的特征值的贡献。
表5 行点总览表
表6 列点总览表
表7为相应分析散点图。观察表7,可以看出,年龄在10-20岁的人自杀时倾向于GUN(枪杀)或POISON(毒药);年龄在25-35的人自杀时倾向于选择POISON(毒药);年龄在40-50的人自杀时倾向于选择POISON(毒药)或HANG(上吊);年龄在55-65岁的人倾向于选择HANG(上吊);年龄在70-80的人倾向于选择(DROWN)。GAS(毒气)和JUMP(跳楼)是两种不经常被选择的自杀方式,不过,相对来看,25-35年龄段的人更容易GAS(毒气)自杀,70-80年龄段的人更容易JUMP(跳楼)自杀。
表8 相应分析散点图