SAS的卡方检验(正式)

02-26

SAS应用

卡方检验

蒋红卫

华中科技大学公卫学院流行病与卫生统计系

学习目标

• 掌握四格表普通卡方检验和配对卡方检验方法以及相应的 SAS程序； • 了解FREQ过程语句格式； • 熟悉R×C表资料的分类类型以及相应的统计检验方法； • 掌握双向无序R×C表资料检验以及SAS程序； • 掌握单向有序R×C表资料检验以及SAS程序； • 掌握趋势卡方检验方法以及SAS程序； • 掌握分层R×C表的分析以及SAS程序；

概述

• 前面已介绍了两个率比较的检验，在观察例数不够大或拟对多个率进行比较时，检验就不适宜了，因为直接对多个样本率作两两间的检验有可能增加第一类误差。2检验可解决此类问题。 • 卡方检验是用途很广的一种假设检验方法，这里我们主要学习它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。

四格表资料

• 定性指标分为有序的（如：疗效分为“治愈、显效、好转、无效、死亡”）和名义的（如：血型分为“O、A、B、 AB”型）２类，对于每１个受试者来说，有序指标的观测结果只能是该有序指标若干等级中的１级（如某人的疗效为“显效”）；名义指标的观测结果只能是该名义指标若干标志中的１个（如某人的血型为Ｂ型），显然，无法像处理定量指标那样去直接分析定性指标，故这类资料常被整理成列联表的形式后再进行分析。 • 当表中只有２个定性指标时，称为２维列联表；有３个或３个以上定性指标时，称为多维列联表。常用R、C表示２维列联表的行数和列数，并称为R×C表；当R=C=２时，称为２×２表（或四格表）。２×２表看起来很简单，但根据资料所具备的条件有许多不同的处理方法。

四格表卡方检验的SAS程序

• 在SAS/STAT模块中FREQ、TABULATE和SUMMARY 等过程可用于分类资料的统计描述，其中FREQ过程兼具统计描述和统计推断的功能，对分类变量计算频数分布，产生从一维到n维的频数表和列联表；对于二维表，可进行2检验，对于三维表，可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本节将先向大家介绍FREQ过程的语句及其格式。 • FREQ过程的语句基本格式如下： Proc freq data= order= ; Table 分类变量*分类变量/ ; Weight 变量; Run;

四格表卡方检验的SAS程序

• DATA＝数据集：规定PROC FREQ语句使用的数据集； • ORDER＝FREQ，按频数递减顺序排列；ORDER＝ DATA，按数据集中出现的顺序排列；ORDER＝ INTERNAL，按内部值排列(缺省)；ORDER＝ FORMATTED，按外部格式值

排列； • Table语句指定构成表格的变量和表格结构。表格的结构由变量个数和变量排列顺序决定，一个table语句允许列出多个表格结构。PROC FREQ过程中可有多条TABLES 语句，TABLES语句后可接多个表格请求式，每个请求式可包含任何数量的变量，从而得到所需的表格。

四格表卡方检验的SAS程序

• 如果TABLES语句缺省，则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时，若需某变量的一维频数，FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比；若需二维频数表，FREQ产生交叉分组列表，即包括各格的频数、总频数的格百分数、行频数的格百分数和列频数的格百分数。 • 请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中，如： • TABLES A*(B C)；等价于TABLES A*B A*C； • TABLES (A-C)*D；等价于TABLES A*D B*D C*D；

四格表卡方检验的SAS程序

• 下列选项可用于TABLES语句中“/”的后面： • OUT＝数据集：建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式，数据集的内容相应于TABLES语句中最后一个请求。 • CHISQ对每层作c2检验，包括Pearson c2、似然比c2和 Mantel-Haenszel c2。此外还给出与c2检验有关的关联指标包括Phi系数、列联系数和Cramer’s V。对于2×2 表，给出Fisher精确概率。 • AGREE 进行配对c 2检验。 • EXACT 对大于2×2的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。

四格表卡方检验的SAS程序

• MEASURES对每层的二维表计算一系列关联指标及相应的标准误，包括Pearson和Spearman相关系数，以及 Gamma和Kendall系数等。对于2×2表，还给出常用的危险度指标及其标准误。 • CMH 给出Cochran-Mantel-Haenszel统计量，可检验在调整了TABLES语句中其它变量后，行变量与列变量之间的关联程度。对于2×2表，FREQ过程给出相对危险度估计及其可信区间，还给出各层关联度指标是否齐性的 Breslow检验。 • ALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。 • ALPHA＝p给出检验水准。缺省为0.05。

四格表卡方检验的SAS程序

• EXPECTED给出期望频数。 • DEVIATION给出每格的实际频数与期望频数的差值。 • CELLCHISQ给出每格对总c2的贡献，即计算每格的(实际频数-期望频数)2/期望频数。 • CUMCOL给出累积列百分数。 • NOFREQ不给出列联表中的格频数。 • NOPERCENT不给出列联表中的格百分数。

四格表卡方检验的SAS程序

• • • • NOROW不给出列联表中各格的行百分数。 NOCOL不给出列联表中各格的列百分数。 NOCUM不给出频数表的累积频数和累积百分数。 NOPRINT不给出表格

，但给出CHISQ、MEASURES或 CMH等语句所指定的统计量。 • Trend指令系统对2×C频数表的C个百分率进行 Cochran-Armitage趋势检验； • WEIGHT语句：通常每个观察值提供数值1给频数计数，当WEIGHT语句出现时，每个观察值提供的是该观察值的加权变量值。该值必须非负，但可不必为整数。只能使用一个WEIGHT语句，且该语句作用于所有的表。

四格表卡方检验

• 理论频数，记为T。理论数的计算公式为：

nr nc Trc  n

四格表卡方检验

• 卡方检验的统计量是2值，它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发病率相等的情况下计算出来的，故2值越大，说明实际频数与理论频数的差别越明显，两组发病率不同的可能性越大。

•

( A  T )2 2   T

例题

• 某医院欲比较异梨醇口服液（试验组）和氢氯噻嗪+地塞米松（对照组）降低颅内压的疗效。将200例颅内压增高症患者随机分为两组。问两组降低颅内压的总体有效率有无差别？

连续性校正公式

• 2分布是正态变量的一种分布。设是k个独立的标准正态变量，则 X 1 , X 2 ,, X k 。2界值表就是根据这种连续性分布计算出来的。2统计量计算公式实质上是正态近似法。分类资料是间断性的，由此计算的2值不连续，尤其自由度为1的四格表，求出的概率可能偏小，此时需要对2值进行连续性校正，公式为

2  

( A  T  0.5) 2 T

•

2检验的应用条件

• 连续性校正主要针对四格表资料，尤其理论数较小时，连续性校正不可忽略。 • 四格表2检验的应用条件为： • 当n≥40且所有T≥5时，用普通的2检验，若所得，改用确切概率法； • 当n≥40但有1≤T

例题

• 某医师欲比较胞磷胆碱与神经节苷酯治疗脑血管疾病的疗效，将78例脑血管疾病患者随机分为两组。问两种药物治疗脑血管疾病的有效率是否有差别？

配对计数资料的卡方检验

• 把每一份样本平均分成两份，分别用两种方法进行化验，比较此两种化验方法的结果（两类计数资料）是否有本质的不同；或者分别采用甲、乙两种方法对同一批病人进行检查，比较此两种检查方法的结果（两类计数资料）是否有本质的不同，此时要用配对卡方检验。

配对计数资料的卡方检验

• 比较两法结果有无差别，要着眼于两法结果不一致的部分。表中观察变量是对子中两法的差值或差别，由b和c两格数据来反映，总体中与b和c对应的数据可用B和C表示（a格和d格表示两法差

值为0，不予考虑）。 • 当≥40时， (b  c ) 2 2  ,  1 bc

• 当

( b  c  1) 2 2  ,  1 bc

•

例题

• 某实验室分别用乳胶凝集法和免疫荧光法对58名可疑系统红斑狼疮患者血清中抗核抗体进行测定。问两种方法的检测结果有无差别？

行×列表资料的2检验

• 前面介绍了两个样本率比较的2检验方法，其基本数据有2行2列，称为2×2表或四格表资料。本节介绍的行×列表资料的2 检验，用于多个样本率的比较、两个或多个构成比的比较以及双向有序或无序分类资料的检验等。 • R×C表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。

双向无序R×C表

• R×C表中两个分类变量皆为无序分类变量，对于该类资料：①若研究目的为多个样本率（或构成比）的比较，可用行×列表资料的2检验；②若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时，可以用行×列表资料的2检验以及Pearson列联系数进行分析。

例题1

• 某医师研究物理疗法、药物治疗和外用膏药三种疗法治疗周围性面神经麻痹的疗效。问三种疗法的有效率有无差别？

例题2

• 测得某地5801人的ABO血型和MN血型结果，问两种血型系统之间是否有关联？

单向有序R×C表

• 有两种形式。一种是R×C表中的分组变量是有序的，而指标变量是无序的。此种单向有序R×C表资料可用行×列表资料的2 检验进行分析。另一种情况是R×C表中的分组变量是无序的，而指标变量是有序的，此种单向有序R×C表资料宜用秩和检验进行分析。

例题

• 某地城市与农村高血压患者严重程度情况，试比较该地城市和农村高血压患者高血压严重程度是否有差别？

双向有序R×C表

• 双向有序属性相同的R×C表 R×C表中的两分类变量皆为有序且属性相同。实际上是2×2配对设计的扩展，此时宜用一致性检验（或称Kappa检验）。 • 双向有序属性不同的R×C表 R×C表中的两分类变量皆为有序且属性不相同。对于该类资料，需要分析两有序分类变量间是否存在线性变化趋势，宜用有序分组资料的线性趋势检验。

行列均为顺序变量的相关检验

• 变量虽然是有序的，但毕竟还不是定量的，需要给有序变量的各等级赋值方可进行相关分析。最简单的赋值法是按顺序赋给秩次(即得分)，即给行变量的等级赋值1，2 ，…，R和给列变量的等级赋值1，2，… ，C。这样(X,Y)的不同取值就有R×C对，表中的R×C个频数就是这R×C对取值所对应的频数，然后计算Spearman秩相关系数，并作显著性检验，这是比较粗糙的分析方法

。

行列均为顺序变量的相关检验

• Spearman秩相关分析比较粗糙，这是因为它给有序变量的等级赋值过于简单，不能最大限度地获得有序变量之间的相关信息。而典型相关分析是在使有序变量的相关达到极大的前提下给有序变量的各等级赋值，就是对于表的边缘（指“行合计”与“列合计”）设法产生一双变量正态，从而进行相关分析。因产生各等级的得分值的计算过程中涉及矩阵运算，故手工计算较麻烦，将用SAS程序实现统计计算。一旦有了各等级的得分值后，就可运用求２维频数资料相关系数的公式计算了。典型相关分析可以得出几个典型相关系数R，与每一个典型相关系数对应的检验为卡方检验，其数值为nR2，其中n为R×C表中的总频数，与第k个卡方值对应的自由度dfk=R+C-2k-1。

行列均为顺序变量的相关检验

• 与定量资料的相关与回归分析类似，也可对R×C表资料中有序变量之间是否存在线性趋势作显著性检验，通常这两种检验的结果是基本一致的，即相关分析结果显著，线性趋势检验结果也显著。可以通过检验实现线性趋势检验，即利用回归分析思想产生的与线性回归有关的卡分量和偏离线性回归的卡分量。

行列均为顺序变量的相关检验

• 首先计算R×C表的值，然后将总的值分解成线性回归分量与偏离线性回归分量。若两分量均具有统计学意义，说明两分类变量存在相关关系，但关系不是简单的直线关系；若线性回归分量有统计学意义，偏离线性回归分量无统计学意义时，说明两分类变量不仅存在相关关系，而且是线性关系。

行列均为顺序变量的相关检验

• 计算 2 总的值  • 计算线性回归分量回归 2 • b 2 n  SS回 2 系数  回归＝ 2  ＝n  R 2 , 回归＝ 1

Sb SS总

l XY lYY 2 b＝ , S b＝ l XX n * l XX

b为回归

• 计算偏线性回归分量  2 值分解成线性回归分量和偏离线性回归分量。若 • 将总的两分量均有统计学意义，说明两分类变量存在相关关系，但关系不是简单的直线关系；若线性回归分量有统计学意义，偏离线性回归分量无统计学意义时，说明两变量不仅存在相关关系，而且是线性关系。

例题

• 某研究者欲研究年龄与冠状动脉粥样硬化等级之间的关系，将278例尸解资料整理成行乘列表，问年龄与冠状动脉粥样硬化等级之间是否存在线性变化趋势？

分层资料的分析

• 按一个或多个因素分层后，研究行变量与列变量间的联系。 • 通过控制分层变量的影响，检验研究行变量与列变量的关系。

例题

• 某研究者欲研究男女性使用别嘌呤是否引发皮疹。

本章小节

• 2检验是用途很

广的一种假设检验方法，这里我们主要学习它在分类资料统计推断中的应用，包括：两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。 • 本章第一节介绍了四格表的普通2检验方法，理论频数与实际频数的定义，2检验统计量的计算方法，2分布以及 2界值表确定P值的方法。说明了四格表2检验的应用条件，以及连续性校正公式和四格表专用公式。通过SAS分析实例演示了四格表2检验过程以及结果解释。我们需要重点理解2检验的含义以及应用。掌握2检验的应用条件以及连续性校正公式等。

本章小节

• R×C表可以分为双向无序、单向有序、双向有序属性相同和双向有序属性不同4类。①双向无序R×C表，R×C 表中两个分类变量皆为无序分类变量。若研究目的为多个样本率（或构成比）的比较，可用行×列表资料的2检验；若研究目的为分析两个分类变量之间有无关联性以及关系的密切程度时，可以用行×列表资料的2检验以及 Pearson列联系数进行分析。②单向有序R×C表有两种形式：一种是R×C表中的分组变量是有序的，而指标变量是无序的，此种单向有序R×C表资料可用行×列表资料的2检验进行分析；另一种情况是R×C表中的分组变量是无序的，而指标变量是有序的，此种单向有序R×C 表资料宜用秩和检验进行分析。

本章小节

• ③双向有序属性相同的R×C表，R×C表中的两分类变量皆为有序且属性相同，实际上是2×2配对设计的扩展，此时宜用一致性检验（或称Kappa检验）；双向有序属性不同的R×C表，R×C表中的两分类变量皆为有序且属性不相同，对于该类资料，需要分析两有序分类变量间是否存在线性变化趋势，宜用有序分组资料的线性趋势检验。 • 本章针对不同类型的R×C表资料分别予以介绍，并通过实例进行数据分析，并通过SAS程序完成统计分析过程，大家在练习不同类型数据的分析方法时，掌握常用数据分析的SAS程序，并能够灵活运用。

与《SAS的卡方检验(正式)》相关的范文

02-04 与雷锋同行(银行)

一个人的名字与一种精神连在一起并能够为大众所接受，古今中外屈指难寻，但是，一个年轻的生命却做到了，他以自己巨大的人格魅力树立了一种精神，这就是带着春天的温暖、伴着青春的激情、像一株常青的木棉，年年吐蕊、岁岁勃发的“雷锋精神”。我的名字当中也有一个“锋”字，但是我知道自己永远代表不了一种精神，因为我不如雷锋那样勤奋，也不如雷锋那样敬业。您的名字当中或许也有一个“锋”字，但是我相信你也代表了一种精 ...

05-05 电信营业部文员竞聘演讲稿

尊敬的各位领导、各位评委：我叫张绍钰，毕业于河南财经学院，会计专业，20XX年应聘到洛阳移动通信分公司市区营业部工作。今天，对我来说，与其是竟聘优秀员工这一荣誉，不如说是给我一个检验自我、寻找差距的机会。以下是我的竞聘报告，请各位评委审阅：一、刻苦学习业务知识、真心服务广大用户自进入移动公司那天起，我便深深地爱上了这份工作，经过紧张的培训之后，我被分到了营业厅从事前台营业员的工作，在这里奠定 ...

06-16 中国银行实习生报告总结

我在中国银行呆了几天，大致对里面的一些制度有了了解，下面说说我的看法。（主要是对南京的中国银行）我觉得中国银行比较适合想要过安逸生活，没有太多竞争压力的人，尤其是女孩子。中国银行的福利很好，小康不成问题，但是也不会让你大富大贵，或是有一番惊天动地的事业，因为制度在那里。很多规定束缚你的手脚。中行里的人员大致分为两类，编内和编外。编内属于中国银行编制，相对来说工资起点比较高，福利也好一些，不过刚 ...

01-05 教学体会:日记课关注孩子心灵成长的轨迹

教学体会：日记课关注孩子心灵成长的轨迹题引：我曾跟教师们交谈过关于走向生动语言源泉的“旅行”的思想。我把幼儿就他亲眼所见的周围世界的事物和现象所作的富有表现力的充满情感的简短的讲述叫做这种“旅行”。 -摘自苏霍姆林斯基《我把心给了孩子们》以上“题引”是从苏霍姆林斯基的《我把心给了孩子们》这部书中的其中一个章节-“蓝天下的学校”中摘引而来的，实际上，有幸读过“苏”的著作的读者朋友大概都明白，诸 ...

02-08 质量检验实习报告

质量检验实习报告实习人员：xxx 实习时间：实习单位：xxx（天津）汽车零部件有限公司实习内容：质量检验正文：一、检验实习 1、工作前的培训上班的前两天是培训，讲一些安全方面的问题，培训完后便就正式的步入实际的生产工作中。培训的第一天讲了公司的组成，领导关系（注①），组织构架，企业文化等，说本公司很讲求环境保护和循环利用，并在节约成本与减少浪费上也做的很到位。听到这里时我感觉这家日本 ...

03-27 小学教学交流活动总结:跨越万水千山粤藏共牵手

小学教学交流活动总结：跨越万水千山粤藏共牵手 10月31日，一个值得期待的日子！这天我校与广州xx区xx小学开展了为期一天的教学交流活动。地区教体局党委副书记、副局长吴珍珠同志、地区教研室教研员、地区一小的老师代表与我校教师共同聆听了广州xx区xx小学及我校语数英共六位老师上的六堂观摩课，六场评课。由于精心安排，全校在正常开课的情况下，相应学科老师通过调整课程全员参加了本次教学交流活动，达到了预期 ...

12-13 大学生假期银饰店营业员社会实践报告

大学生假期银饰店营业员社会实践报告暑期六月二十六日，我收拾好包裹，踏上前往暑期社会实践的车程。先从九堡客运中心站，买了张汽车票，目的地-嘉善西塘。　　二零零八年的高三寒假我就来这边帮忙，20岁的新年也在此度过，西塘古镇是个修身养性的地方。对于这我显得一点也不陌生。大学的第一个暑期，我还是选择了这个古镇。对于我们艺术生来说，这里正是写生的好地方，老街、小桥、流水。每年都有一批批的学子来到这写生， ...

12-21 生产外协管理制度

一、外协管理办法第一条适用范围 (一)用于本公司人员、设备不足，生产能力负荷已达饱和时。 (二)特殊零件无法购得现货，也无法自制时。 (三)协作厂商有专门性的技术，利用外协质量较佳且价格较廉。第二条选定方法及基准 (一)审查方式：书面审查及实地调查(表4.1) 1.外协加工及外协制造的申请，是否符合规定，数量方面是否适宜。 2.申请核准后，由外协管理人员判定是否有协作厂商承制，若没有则选择三家 ...

07-09 优秀零售业绩单位销售经营经验分享

优秀零售业绩单位销售经营经验分享纵观20XX年xx零售业务的发展历程，我支行紧密团结在以xx行长为中心，xx行长为指导的领导班子下，在充满艰辛与坎坷的发展道路上，我们披荆斩棘，攻克重重难关，取得骄人战绩。年初3月即以全行第一的成绩率先完成全年个贷任务；全年各季度均超额完成工资代发任务目标；年底9月以全行第二的战绩攻克信用卡全年任务目标；作为全年考核的储蓄存款任务要素，xx人更是屡屡创造着属于我 ...

09-26 检验员实习报告

检验员实习报告 09海大电子班周俊虎 5月8日　　　　　　　　　　　　　　　　　　　我20XX年在深圳索菱股份有限公司电子一部，检验员职位实习。我们公司于1991年开始筹备，1997年注册并成功挂牌，20XX年10月进行股份制改革，正式成立深圳市实业股份有限公司，至今已发展成一家集研发、生产、销售、服务为一体的高新电子信息技术企业，主营汽车影音导航系统、智能信息系统、防盗系统、安全检测系统、智 ...

随机推荐

猜你喜欢

SAS的卡方检验(正式)

·先进"两新"基层团组织事迹

·2012-2013学年春学期八年级物理教学反思

·会计试用期个人鉴定

·[名言警句]青年篇

·学习[中小学教师专业标准]心得体会

·林语堂[苏东坡传]导读

·2011全国会计技能大赛总结

·解析人力资源管理中角色模型的作用

·高通量透析临床研究新进展

·威能锅炉说明书

·在同学会上的发言稿

·2010大学生毕业自我鉴定

·公司食堂承包管理方案

·坚韧不拔是我的名片作文450字

·2015年医院党建工作计划

·语文课堂有效教学

·2012上海辰山植物园一日游

·语文,心中的一股清泉

·每天一小时体育锻炼倡议书及告家长书

·费用报销与付款管理制度2015

SAS的卡方检验(正式)

与《SAS的卡方检验(正式)》相关的范文

·先进"两新"基层团组织事迹

·2012-2013学年春学期八年级物理教学反思

·会计试用期个人鉴定

·[名言警句]青年篇

·学习[中小学教师专业标准]心得体会

·林语堂[苏东坡传]导读

·2011全国会计技能大赛总结

·解析人力资源管理中角色模型的作用

·高通量透析临床研究新进展

·威能锅炉 说明书

·在同学会上的发言稿

·2010大学生毕业自我鉴定

·公司食堂承包管理方案

·坚韧不拔是我的名片作文450字

·2015年医院党建工作计划

·语文课堂有效教学

·2012上海辰山植物园一日游

·语文,心中的一股清泉

·每天一小时体育锻炼倡议书及告家长书

·费用报销与付款管理制度2015

·威能锅炉说明书