相关回归案例分析
第四次案例分析----相关回归分析
案例1 对某地的12个乡镇的饮水氟含量及中老年人群的骨关节炎患病情况作了调查,数据如下表10-12,初步发现不同乡镇的骨关节炎的患病率高低与本地区饮水的氟含量有关。于是把氟含量视为变量X,把骨关节炎患病率视为Y,计算出Pearson积矩相关系数,得r=0.827,经检验P
表10-12 某地12个乡镇饮水氟含量与骨关节炎患病率
序号
1
2
3
4
5
6
7
8
9
10
11
12 氟含量 (mg/L)) 1.20 0.35 2.50 3.18 0.75 5.92 7.97 2.06 7.05 5.30 3.52 1.50 患病率 (%) 7.5 8.9 9.0 12.6 8.2 15.4 20.3 10.1 30.3 24.2 7.5 10.3
讨论:(1)作者以上结论是否正确?原因是什么?
(2)线性相关分析的适用条件是什么?如何验证其适用条件?
(3)应如何进行分析?本分析方法的适用条件是什么?
案例2 回顾第八章例8-3,用三种不同药物治疗慢性支气管炎,治疗结果见表10-13所示。
表10-13 三种不同药物治疗慢性支气管炎的疗效
第八章曾做过2检验,得232.736,p0.005,按0.05水准,可以认为三种药物治疗效果有效的总体概率有差别。研究者认为,既然不同药物组有不同的治疗效果,则治疗效果与不同的药物治疗方法必定有关联;其关联的程度可用列联系数来描述:
r0.493 讨论:
(1) 该推理和计算是否正确?
(2) 应当如何研究治疗效果和药物种类的关联性?
案例3 现有一份170例某病患者的治疗效果资料,按年龄和疗效两种属性交叉分类,结果见表10-14.
作者进行了独立性2检验,得到2=23.582,4,拒绝两种属性分类相互独立的零假设;进一步计算Pearson列联系数r为r
是疗效和年龄间存在关联性。
请问:(1)上述分析方法及结论是否正确?为什么?
(2)2检验的用途是什么?2检验用于关联性分析其适用条件是什么?0.35,结论2检验用于差异性检验与关联性分析基本思想的异同点是什么?
(3)双向有序资料可以进行哪些分析?
案例4 某医生收集了29例二型糖尿病患者的体重指数BMI(kg/m2)和病程(年),结果见表10-16。为探讨两变量间有无关系,对此数据计算了pearson相关系数,得到相关系数r=0.285(P=0.133),故认为两变量间无关系。
后来有人建议按照每个观测值是否大于两变量各自的均数,分别将这两个变量转化为分类变量,
即按照BMI是否大于其均数24.7分为Y1=1(
病程(年)是否大于其均数6.94分为Y2=1(
这样就把原始变量BMI和病程(年)转换成新的两个分类变量Y1和Y2,对Y1和Y2整理成四格表数据进行关联性检验,得到27.535(p0.006),故
此时认为两变量事实上存在高度相关。
问题:请对以上统计分析方法及结论做出评价,您认为应如何分析解释结果。
表10-16 29例二型糖尿病患者的体重指数BMI与病程
BMI Y( 病程(年) Y( 1BMI分类)2病程分类)19.03114 1 15.0 2
19.03114 1 2.9 1
19.48696 1 4.0 1
20.81165 1 4.0 1
21.10727 1 4.0 1
22.85714 1 2.0 1
23.32342 1 5.0 1
23.37473 1 6.0 1
23.38869 1 3.0 1
23.80869 1 6.0 1
24.13960 1 5.0 1
24.22145 1 10.0 2
24.22145 1 3.0 1
24.33748 1 2.0 1
24.38237 1 6.0 1
24.48980 1 12.0 2
25.22137 2 2.3 1
25.71166 2 7.0 2
25.92593 2 8.0 2
26.39580 2 9.0 2
26.44628 2 7.0 2
26.98962 2 12.0 2
27.21730 2 3.0 1
27.45865 2 16.0 2
27.99036 2 10.0 2
28.40550 2 20.0 2
28.40816 2 4.0 1
28.72738 2 10.0 2
29.38776 2 3.0 1
某作者经计算求得线性回归方程:y=19.87X—463.73,通过方程预测当气温
为28时,产卵数为92个。计算得r=0.864,R2=0.746,故这个线性回归模型中温度解释了74.6%产卵数的变化。
对以上结论请讨论:
(1)该作者的结论是否正确?原因是什么?
(2)你的计算结果是什么?
(3)如何判断拟合的回归方程何者更优?该方法的用途与意义?
(4)试比较一下作者拟合的回归方程与你拟合的回归方程何者更优?
案例6 为了探索胎儿身长与胎龄之间的关系,某研究者调查了某妇产科医院某时期140例因自然流产死亡的胎儿,测量了胎儿身长等数据;接着按胎龄分成7个组(4~10个月),计算每组胎儿身长均数(表11-6);并得到胎儿身长与胎龄之间有线性正相关的关系,相关系数为0.98,p
ˆ9.324.37X。结论是:胎儿身长与胎龄之间高度胎龄X的线性回归方程为Y
相关,该回归方程可用来预测胎儿身长。
请讨论:
(1) 该研究的线性相关分析结果是否准确?用线性相关分析来表达胎
儿身长与胎龄之间的关系是否合理?
(2) 该研究用线性回归方程来表达胎龄与胎儿身长之间的数量变化关
系是否合理?若不合理,应如何做?
(3) 该研究实际使用的是胎龄均数与胎儿身长均数进行的统计分析,这
样做是否合理?
案例7 某研究者调查了某单位某年76例25~60岁的健康男性,检测了每人的血清胆固醇和血清甘油三酯数据,并绘制了散点图,经相关分析,得r=0.302,p
ˆ3.8860.376X.得出结论可以根据回归方程同此建立了线性回归模型:Y
用血清甘油三酯含量推测血清胆固醇含量。
请讨论:(1)该研究用线性相关分析的检验结果来代替回归分析的检验结果是否正确?为什么?相关与回归的区别与联系?
(2)从散点图来看,该研究用线性回归方程来表达血清胆固醇与血清甘油三酯之间的数量变化关系是否合理?
(3)预测一下当血清甘油三酯含量=5.0(mmol/L)时血清胆固醇含量为多少,该预测结果是否合理?为什么?
(4)该研究建立的线性回归模型实际意义有多大?
(5)指出该研究的缺陷。
案例8 课本257页案例12-1
请讨论:
(1) 多重线性回归的用途及条件是什么?
(2) 变量筛选方法有哪些?自变量筛选的标准有哪些?
(3) 要比较自变量对Y的贡献大小用什么指标?
(4) 如何看待表12-21与表12-22结果之间的矛盾?
案例9 课本403页案例18-1
请讨论:
(1)logistic回归模型OR及偏回归系数的含义是什么?
(2)logistic回归的参数估计方法是什么?基本思想是什么?
(3)logistic回归的假设检验方法有哪些?特点是什么?
(4)研究中统计学缺陷有哪些?
案例10 课本403页案例18-2