在列联表分析中的应用
SPSS 在列联表分析中的应用
3.4.1 列联表的方法原理
频数表可以描述一个变量的分布情况,但是在实际中研究者往往希望对两个甚至多个分类变量的频数分析进行联合观察,例如希望考察不同年龄阶段和不同行业的人群购买商品房的意愿,这就需要将年龄和行业这两个分类变量交叉起来构成复合频数表,简称为列联表。 列联表是指一个频率对应两个变量的表(一个变量用来对行分类,第二个变量用来对列分类)。列联表非常重要,它经常被用来分析调查结果。它有两个基本任务:第一,根据收集到的样本数据产生二维或多维交叉列联表;第二,在列联表基础上,对两两变量间是否存在一定的相关性进行分析。
(1)交叉列联表
列联表是两个或两个以上的变量交叉分组后形成的频数分布表。它一般由表头、列、行、排序、计算和求百分比等部分构成。例如二维r ×c 列联表,假设有n 个个体根据两个属性A 和B 进行分类。属性A 有r 类:A 1, L , A r ,而属性B 有c 类:B 1, L , B c 。n 个个体中既属于A i 类又属于B j 类的有n ij 个。那么,可以构成一张二维r ×c 列联表,如表3-8所示。
表3-8 二维r ×c 列联表 B 1
n 11
n 21 B 2 n 12 n 22 L L L
B c n 1c n 2c 合计 A 1 A 2 n 1⋅ n 2⋅ M
A r
合计
其中,n i ⋅=M n r 1 n ⋅1 M n r 2 n ⋅2 M n rc n ⋅c M n r ⋅ n L L ∑n
j ij ,n ⋅j =∑n i ij 。
SPSS 中的【Crosstabs 】过程能对两个或多个分类变量进行联合描述,可以产生二维甚至n 维表格,并计算相应的行、列、合计百分比和行、列汇总指标。
(2)行列变量间关系的分析
列联表的频数分布不可能用来直接确定行、列变量之间的关系及关系的强弱。令人感兴趣的二维列联表的检验问题是行、列变量的独立性检验。
独立性检验指的是对列联表中行变量和列变量无关这个零假设进行的检验,即检验行、列变量之间是否彼此独立。常用的衡量变量间相关程度的统计量是简单相关系数,但在交叉列联表分析中,由于行、列变量往往不是连续等距变量,不符合计算简单相关系数的前提要
求。所以,一般采用的检验方法是卡方(χ2)检验,它的计算公式为:
χ2=∑(f 0−f e )
f e 2
其中,f 0表示实际观察频数,f e 表示期望频数。χ2值是观察频数和期望频数之间距离的一种度量指标。当χ2值越小说明行、列变量之间相关程度越密切。由于χ2统计量服从(行数-1)×(列数-1)个自由度的卡方分布,SPSS 在自动计算统计量后,会给出相应的相伴概率P 值,用户可以通过比较概率P 值和显著性水平值的大小来判断是否接受还是拒绝零假设。
除此之外,SPSS 中提供了若干种适用于不同数据取值范围和条件的相关系数,例如Kendall 相关系数、Eta 值等。对这些相关系数的检验是必不可少的,SPSS 提供了不同相关系数的不同统计检验方法,这些检验的零假设都是:行、列变量之间彼此独立。SPSS 将自动给出各统计检验的统计量和它们对应的概率P 值。如果P 值小于等于显著性水平α,则拒绝原假设,认为行、列变量不独立;否则,接受原假设。
3.4.2 列联表的SPSS 操作详解
(1)打开主窗口
选择主菜单中的【Analyze 】→【Descriptive Statistics】→【Crosstabs 】命令,弹出【Crosstabs 】对话框,如图3-17所示,这是列联表分析的主操作窗口。
图3-17 【Crosstabs 】对话框
(2)选择行、列变量
在【Crosstabs 】对话框左侧的【候选变量】清单中,选取一个或多个待分析变量,将它们移入右侧的【Row(s)】列表框中,作为列联表的行变量;同理,选择若干候选变量移入右侧的【Column(s)】列表框中,作为列联表的列变量。
(3)选择层变量
如果要进行三维或多维列联表分析,可以根据需要选择控制变量进入【Layer 】列表框中。该变量决定列联表的层。如果要增加另外一个控制变量,首先单击Next ,再选入一个变量。单击按钮可以重新选择以前确定的变量。
(4)列联表输出格式的选择
在【Crosstabs 】对话框下面有两个复选项,它们是用来选择列联表的输出格式。 ● Display clustered bar charts:显示各变量交叉分组下频数分布条形图。
● Suppress tables:只输出统计量,而不输出列联表。
(5)行、列变量相关程度的度量
在【Crosstabs 】对话框中单击Statistics ,弹出如图3-18对话框。该选项主要是根据数据类型选择不同的独立性检验方法和相关度量。在对话框中选择输出
统计量,完成后单击,返回主对话框。
图3-18 【Crosstabs :Statistics 】对话框
● Chi-square :进行行变量和列变量独立的卡方检验。
● Correlations :计算Pearson 相关系数,用于检测两变量的线性相关程度;计算Spearman 相关系数,用于检测秩次之间的关联。两者的取值介于-1(完全负相关)与+1(完全正相关)之间,如果取值为0,则表示两者不存在线性相关关系。
● Kappa :内部一致性系数。用来检验两个评估人对同一对象进行评估时是否具有一致性。
● Risk :计算相对危险度(relative risk)和比数比(odd ration),反映一个因素与发生的某一特定事件之间的关联程度。
● McNemar :用于两个相关二项分类变量的非参数检验。
● 适用于两定类变量的方法。
Contingency coefficient:列联系数,其数值在0~1之间。其值如果为0,表示行列变量之间没有关联;其值如果接近1,表示行列变量之间有高度关联。
,Phi and Cramers V:同列联系数一样,是根据卡方统计量修改计算得到的反映变量
关联程度的值。
Lambda :当自变量用于预测因变量时,该检验反映预测误差。Lambda 数等于1时,表明自变量完全预测因变量;Lambda 系数等于0,表明自变量无助于预测因变量。
Uncertainty coefficient:不确定性系数。表示使用一个变量的值来预测其他变量的值可能发生的错误。
● 适用于两定序变量的方法。
Gamma :反映两个有序变量之间的对称关联程度,其值的范围在-1~1之间。其值的绝对值接近于1表示两个变量之间存在高度关联性,接近于0表示变量之间有低度或无线性关
系。
, Somers d :两个有序变量之间关联性的检验。它是Gamma 系数的非对称性推广,其
意义和Gamma 系数基本相同,不同点仅在于它包括与自变量不相关的成对数据。
,Kendall s tau-b :它是对相关的有序变量进行的非参数相关检验,适合行数与列数相
同表格的检验。其值在-1到1之间
,Kendall s tau-c:反映忽略定序变量之间相关关系的非参数关联程度,其取值范围和
,意义与Kendall s tau-b系数一致。 ●适用于一定类变量、一定距变量的方法。选项Eta 系数反映行列变量的关联程度,其值在0和1之间,0表示行列变量之间没有关联性,1表示行列变量之间存在很高的关联性。
(6)选择列联表单元格的输出类型
在【Crosstabs 】对话框中单击,弹出如图3-19对话框。在对话框中可以选择显示在列联表单元格中的统计量,包括观测数量、百分比和残差
。在对话框中选择相应选项,完成后单击按钮,返回主对话框。
图3-19 【Crosstabs :Cell 】对话框
● :用于选择单元格中频数的显示格式。
Observed :显示观测值的频数,这是系统默认选择项。
Expected :期望频数。如果行、列变量具有统计上的相互独立意义,显示期望的或预测的观察值频数。
● 于选择单元格中百分比的显示格式
Row :行百分比,即单元格中观测值数占该行全部观测值总数的百分比。
Column :列百分比,即单元格中观测值数占该列全部观测值总数的百分比。
Total :总百分比,即单元格中观测值数占全部观测值数的百分比。
● 用于选择单元格中残差的显示格式。
Unstandardized :非标准化残差,即单元格中的观测值减预测值之差。
Standardized :标准化残差,即皮尔逊残差,其均值等于0,标准差等于1。
Adj. standardized:调整的标准化残差。
● Noninteger Weights
(7)选择列联表单元格的输出排列顺序
在【Crosstabs 】对话框中单击,弹出如图3-20对话框,它用于选择各单元格的输出排列顺序。
图3-20 【Crosstabs :Format 】对话框
● Ascending :以行变量升序方式显示各变量值,这是默认选择项。 ● Descending :以行变量升序方式显示各变量值。
(8)单击按钮,结束操作,SPSS 软件自动输出结果。