SAS的卡方检验(正式)
SAS应用
卡方检验
蒋红卫
Email: [email protected]
华中科技大学公卫学院 流行病与卫生统计系
学习目标
• 掌握四格表普通卡方检验和配对卡方检验方法以及相应的 SAS程序; • 了解FREQ过程语句格式; • 熟悉R×C表资料的分类类型以及相应的统计检验方法; • 掌握双向无序R×C表资料检验以及SAS程序; • 掌握单向有序R×C表资料检验以及SAS程序; • 掌握趋势卡方检验方法以及SAS程序; • 掌握分层R×C表的分析以及SAS程序;
概述
• 前面已介绍了两个率比较的检验,在观察例数不 够大或拟对多个率进行比较时,检验就不适宜了 ,因为直接对多个样本率作两两间的检验有可能 增加第一类误差。2检验可解决此类问题。 • 卡方检验是用途很广的一种假设检验方法,这里 我们主要学习它在分类资料统计推断中的应用, 包括:两个率或两个构成比比较的卡方检验;多 个率或多个构成比比较的卡方检验以及分类资料 的相关分析等。
四格表资料
• 定性指标分为有序的(如:疗效分为“治愈、显效、好转 、无效、死亡”)和名义的(如:血型分为“O、A、B、 AB”型)2类,对于每1个受试者来说,有序指标的观 测结果只能是该有序指标若干等级中的1级(如某人的疗 效为“显效”);名义指标的观测结果只能是该名义指标 若干标志中的1个(如某人的血型为B型),显然,无法 像处理定量指标那样去直接分析定性指标,故这类资料常 被整理成列联表的形式后再进行分析。 • 当表中只有2个定性指标时,称为2维列联表;有3个或 3个以上定性指标时,称为多维列联表。常用R、C表示 2维列联表的行数和列数,并称为R×C表;当R=C=2时 ,称为2×2表(或四格表)。2×2表看起来很简单, 但根据资料所具备的条件有许多不同的处理方法。
四格表卡方检验的SAS程序
• 在SAS/STAT模块中FREQ、TABULATE和SUMMARY 等过程可用于分类资料的统计描述,其中FREQ过程兼具 统计描述和统计推断的功能,对分类变量计算频数分布, 产生从一维到n维的频数表和列联表;对于二维表,可进 行2检验,对于三维表,可作Mentel-Hanszel分层分析 。FREQ过程是SAS用于分析分类资料的一个常用过程。 本节将先向大家介绍FREQ过程的语句及其格式。 • FREQ过程的语句基本格式如下: Proc freq data= order= ; Table 分类变量*分类变量/ ; Weight 变量; Run;
四格表卡方检验的SAS程序
• DATA=数据集:规定PROC FREQ语句使用的数据集; • ORDER=FREQ,按频数递减顺序排列;ORDER= DATA,按数据集中出现的顺序排列;ORDER= INTERNAL,按内部值排列(缺省);ORDER= FORMATTED,按外部格式值
排列; • Table语句指定构成表格的变量和表格结构。表格的结构 由变量个数和变量排列顺序决定,一个table语句允许列 出多个表格结构。PROC FREQ过程中可有多条TABLES 语句,TABLES语句后可接多个表格请求式,每个请求式 可包含任何数量的变量,从而得到所需的表格。
四格表卡方检验的SAS程序
• 如果TABLES语句缺省,则FREQ过程对数据集中的所有 变量都给出相应的一维频数表。不规定任何选项时,若需 某变量的一维频数,FREQ给出该变量每一水平的频数、 累积频数、频数的百分比和累积百分比;若需二维频数表 ,FREQ产生交叉分组列表,即包括各格的频数、总频数 的格百分数、行频数的格百分数和列频数的格百分数。 • 请求式由一个或多个用“*”连接起来的变量名组成。几 个变量可放在括号中,如: • TABLES A*(B C);等价于TABLES A*B A*C; • TABLES (A-C)*D;等价于TABLES A*D B*D C*D;
四格表卡方检验的SAS程序
• 下列选项可用于TABLES语句中“/”的后面: • OUT=数据集:建立一个包含变量值和频数计数的输出数 据集。如果TABLES语句中不止一个请求式,数据集的内 容相应于TABLES语句中最后一个请求。 • CHISQ对每层作c2检验,包括Pearson c2、似然比c2和 Mantel-Haenszel c2。此外还给出与c2检验有关的关联 指标包括Phi系数、列联系数和Cramer’s V。对于2×2 表,给出Fisher精确概率。 • AGREE 进行配对c 2检验。 • EXACT 对大于2×2的列联表计算Fisher精确概率。同时 也给出CHISQ选项的全部统计量。
四格表卡方检验的SAS程序
• MEASURES对每层的二维表计算一系列关联指标及相应 的标准误,包括Pearson和Spearman相关系数,以及 Gamma和Kendall系数等。对于2×2表,还给出常用的 危险度指标及其标准误。 • CMH 给出Cochran-Mantel-Haenszel统计量,可检验 在调整了TABLES语句中其它变量后,行变量与列变量之 间的关联程度。对于2×2表,FREQ过程给出相对危险度 估计及其可信区间,还给出各层关联度指标是否齐性的 Breslow检验。 • ALL 给出CHISQ、MEASURES、CMH所请求的全部统 计量。 • ALPHA=p给出检验水准。缺省为0.05。
四格表卡方检验的SAS程序
• EXPECTED给出期望频数。 • DEVIATION给出每格的实际频数与期望频 数的差值。 • CELLCHISQ给出每格对总c2的贡献,即 计算每格的(实际频数-期望频数)2/期望频 数。 • CUMCOL给出累积列百分数。 • NOFREQ不给出列联表中的格频数。 • NOPERCENT不给出列联表中的格百分数 。
四格表卡方检验的SAS程序
• • • • NOROW不给出列联表中各格的行百分数。 NOCOL不给出列联表中各格的列百分数。 NOCUM不给出频数表的累积频数和累积百分数。 NOPRINT不给出表格
,但给出CHISQ、MEASURES或 CMH等语句所指定的统计量。 • Trend指令系统对2×C频数表的C个百分率进行 Cochran-Armitage趋势检验; • WEIGHT语句:通常每个观察值提供数值1给频数计数, 当WEIGHT语句出现时,每个观察值提供的是该观察值的 加权变量值。该值必须非负,但可不必为整数。只能使用 一个WEIGHT语句,且该语句作用于所有的表。
四格表卡方检验
• 理论频数,记为T。理论数的计算公式为:
nr nc Trc n
四格表卡方检验
• 卡方检验的统计量是2值,它是每个格子实际频 数A与理论频数T差值平方与理论频数之比的累计 和。每个格子中的理论频数T是在假定两组的发病 率相等的情况下计算出来的,故2值越大,说明 实际频数与理论频数的差别越明显,两组发病率 不同的可能性越大。
•
( A T )2 2 T
例题
• 某医院欲比较异梨醇口服液(试验组)和 氢氯噻嗪+地塞米松(对照组)降低颅内压 的疗效。将200例颅内压增高症患者随机分 为两组。问两组降低颅内压的总体有效率 有无差别?
连续性校正公式
• 2分布是正态变量的一种分布。设 是k个独立的标准正态变量,则 X 1 , X 2 ,, X k 。2界值表就是根据这种连续性分布计算出来的 。2统计量计算公式实质上是正态近似法。分类 资料是间断性的,由此计算的2值不连续,尤其 自由度为1的四格表,求出的概率可能偏小,此时 需要对2值进行连续性校正,公式为
2
( A T 0.5) 2 T
•
2检验的应用条件
• 连续性校正主要针对四格表资料,尤其理 论数较小时,连续性校正不可忽略。 • 四格表2检验的应用条件为: • 当n≥40且所有T≥5时,用普通的2检验 ,若所得,改用确切概率法; • 当n≥40但有1≤T
例题
• 某医师欲比较胞磷胆碱与神经节苷酯治疗 脑血管疾病的疗效,将78例脑血管疾病患 者随机分为两组。问两种药物治疗脑血管 疾病的有效率是否有差别?
配对计数资料的卡方检验
• 把每一份样本平均分成两份,分别用两种 方法进行化验,比较此两种化验方法的结 果(两类计数资料)是否有本质的不同; 或者分别采用甲、乙两种方法对同一批病 人进行检查,比较此两种检查方法的结果 (两类计数资料)是否有本质的不同,此 时要用配对卡方检验。
配对计数资料的卡方检验
• 比较两法结果有无差别,要着眼于两法结果不一 致的部分。表中观察变量是对子中两法的差值或 差别,由b和c两格数据来反映,总体中与b和c对 应的数据可用B和C表示(a格和d格表示两法差
值为0,不予考虑)。 • 当≥40时, (b c ) 2 2 , 1 bc
• 当
( b c 1) 2 2 , 1 bc
•
例题
• 某实验室分别用乳胶凝集法和免疫荧光法 对58名可疑系统红斑狼疮患者血清中抗核 抗体进行测定。问两种方法的检测结果有 无差别?
行×列表资料的2检验
• 前面介绍了两个样本率比较的2检验方法 ,其基本数据有2行2列,称为2×2表或四 格表资料。本节介绍的行×列表资料的2 检验,用于多个样本率的比较、两个或多 个构成比的比较以及双向有序或无序分类 资料的检验等。 • R×C表可以分为双向无序、单向有序、双 向有序属性相同和双向有序属性不同4类。
双向无序R×C表
• R×C表中两个分类变量皆为无序分类变量 ,对于该类资料:①若研究目的为多个样 本率(或构成比)的比较,可用行×列表 资料的2检验;②若研究目的为分析两个 分类变量之间有无关联性以及关系的密切 程度时,可以用行×列表资料的2检验以 及Pearson列联系数进行分析。
例题1
• 某医师研究物理疗法、药物治疗和外用膏 药三种疗法治疗周围性面神经麻痹的疗效 。问三种疗法的有效率有无差别?
例题2
• 测得某地5801人的ABO血型和MN血型结 果,问两种血型系统之间是否有关联?
单向有序R×C表
• 有两种形式。一种是R×C表中的分组变量 是有序的,而指标变量是无序的。此种单 向有序R×C表资料可用行×列表资料的2 检验进行分析。另一种情况是R×C表中的 分组变量是无序的,而指标变量是有序的 ,此种单向有序R×C表资料宜用秩和检验 进行分析。
例题
• 某地城市与农村高血压患者严重程度情况 ,试比较该地城市和农村高血压患者高血 压严重程度是否有差别?
双向有序R×C表
• 双向有序属性相同的R×C表 R×C表中的 两分类变量皆为有序且属性相同。实际上 是2×2配对设计的扩展,此时宜用一致性 检验(或称Kappa检验)。 • 双向有序属性不同的R×C表 R×C表中的 两分类变量皆为有序且属性不相同。对于 该类资料,需要分析两有序分类变量间是 否存在线性变化趋势,宜用有序分组资料 的线性趋势检验。
行列均为顺序变量的相关检验
• 变量虽然是有序的,但毕竟还不是定量的 ,需要给有序变量的各等级赋值方可进行 相关分析。最简单的赋值法是按顺序赋给 秩次(即得分),即给行变量的等级赋值1,2 ,…,R和给列变量的等级赋值1,2,… ,C。这样(X,Y)的不同取值就有R×C对, 表中的R×C个频数就是这R×C对取值所对 应的频数,然后计算Spearman秩相关系 数,并作显著性检验,这是比较粗糙的分 析方法
。
行列均为顺序变量的相关检验
• Spearman秩相关分析比较粗糙,这是因为它给有序变量 的等级赋值过于简单,不能最大限度地获得有序变量之间 的相关信息。而典型相关分析是在使有序变量的相关达到 极大的前提下给有序变量的各等级赋值,就是对于表的边 缘(指“行合计”与“列合计”)设法产生一双变量正态 ,从而进行相关分析。因产生各等级的得分值的计算过程 中涉及矩阵运算,故手工计算较麻烦,将用SAS程序实现 统计计算。一旦有了各等级的得分值后,就可运用求2维 频数资料相关系数的公式计算了。典型相关分析可以得出 几个典型相关系数R, 与每一个典型相关系数对应的检验 为卡方检验,其数值为nR2,其中n为R×C表中的总频数 ,与第k个卡方值对应的自由度dfk=R+C-2k-1。
行列均为顺序变量的相关检验
• 与定量资料的相关与回归分析类似,也可 对R×C表资料中有序变量之间是否存在线 性趋势作显著性检验,通常这两种检验的 结果是基本一致的,即相关分析结果显著 ,线性趋势检验结果也显著。可以通过检 验实现线性趋势检验,即利用回归分析思 想产生的与线性回归有关的卡分量和偏离 线性回归的卡分量。
行列均为顺序变量的相关检验
• 首先计算R×C表的值,然后将总的值分解 成线性回归分量与偏离线性回归分量。若 两分量均具有统计学意义,说明两分类变 量存在相关关系,但关系不是简单的直线 关系;若线性回归分量有统计学意义,偏 离线性回归分量无统计学意义时,说明两 分类变量不仅存在相关关系,而且是线性 关系。
行列均为顺序变量的相关检验
• 计算 2 总的值 • 计算线性回归分量 回归 2 • b 2 n SS回 2 系数 回归= 2 =n R 2 , 回归= 1
Sb SS总
l XY lYY 2 b= , S b= l XX n * l XX
b为回归
• 计算偏线性回归分量 2 值分解成线性回归分量和偏离线性回归分量。若 • 将总的 两分量均有统计学意义,说明两分类变量存在相关关系, 但关系不是简单的直线关系;若线性回归分量有统计学意 义,偏离线性回归分量无统计学意义时,说明两变量不仅 存在相关关系,而且是线性关系。
例题
• 某研究者欲研究年龄与冠状动脉粥样硬化 等级之间的关系,将278例尸解资料整理成 行乘列表,问年龄与冠状动脉粥样硬化等 级之间是否存在线性变化趋势?
分层资料的分析
• 按一个或多个因素分层后,研究行变量与 列变量间的联系。 • 通过控制分层变量的影响,检验研究行变 量与列变量的关系。
例题
• 某研究者欲研究男女性使用别嘌 呤是否引 发皮疹。
本章小节
• 2检验是用途很
广的一种假设检验方法,这里我们主要学 习它在分类资料统计推断中的应用,包括:两个率或两个 构成比比较的卡方检验;多个率或多个构成比比较的卡方 检验以及分类资料的相关分析等。 • 本章第一节介绍了四格表的普通2检验方法,理论频数与 实际频数的定义,2检验统计量的计算方法,2分布以及 2界值表确定P值的方法。说明了四格表2检验的应用条 件,以及连续性校正公式和四格表专用公式。通过SAS分 析实例演示了四格表2检验过程以及结果解释。我们需要 重点理解2检验的含义以及应用。掌握2检验的应用条件 以及连续性校正公式等。
本章小节
• R×C表可以分为双向无序、单向有序、双向有序属性相 同和双向有序属性不同4类。①双向无序R×C表,R×C 表中两个分类变量皆为无序分类变量。若研究目的为多个 样本率(或构成比)的比较,可用行×列表资料的2检验 ;若研究目的为分析两个分类变量之间有无关联性以及关 系的密切程度时,可以用行×列表资料的2检验以及 Pearson列联系数进行分析。②单向有序R×C表有两种 形式:一种是R×C表中的分组变量是有序的,而指标变 量是无序的,此种单向有序R×C表资料可用行×列表资 料的2检验进行分析;另一种情况是R×C表中的分组变 量是无序的,而指标变量是有序的,此种单向有序R×C 表资料宜用秩和检验进行分析。
本章小节
• ③双向有序属性相同的R×C表,R×C表中的两分类变量 皆为有序且属性相同,实际上是2×2配对设计的扩展,此 时宜用一致性检验(或称Kappa检验);双向有序属性不 同的R×C表,R×C表中的两分类变量皆为有序且属性不 相同,对于该类资料,需要分析两有序分类变量间是否存 在线性变化趋势,宜用有序分组资料的线性趋势检验。 • 本章针对不同类型的R×C表资料分别予以介绍,并通过 实例进行数据分析,并通过SAS程序完成统计分析过程, 大家在练习不同类型数据的分析方法时,掌握常用数据分 析的SAS程序,并能够灵活运用。