11多元线性回归分析
多重线性回归分析
(Multiple Linear Regression)
施红英 主讲 温州医学院预防医学系
多重线性回归模型是直线回归的扩展和延伸,其基本原理 和直线回归相同。
内容提要
§ 1 多重线性回归模型简介 § 2 多重线性回归模型的参数估计 § 3 多重线性回归模型的假设检验 § 4 衡量模型优劣的标准 § 5 自变量的筛选 § 6 多重线性回归模型的应用 § 7 注意事项
案例
血糖的影响因素研究: 27 名糖尿病患者的血清 总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋 白、空腹血糖的测量值列于下表中,试建立血糖 与其它几项指标关系的多元线性回归方程。
27名糖尿病人的血糖及有关变量的测量结果
总胆固醇 序号i (mmol/L) X1
1 2 3 4 5 6 7 5.68 3.79 6.02 4.85 4.60 6.05 4.90 …… 24 25 26 27 7.98 11.54 5.84 3.84
甘油三脂 (mmol/L) X2
1.90 1.64 3.56 1.07 2.32 0.64 8.50
胰岛素 (μU/ml) X3
4.53 7.32 6.95 5.88 4.05 1.42 12.60
糖化血 红蛋白(%) X4
8.2 6.9 10.8 8.3 7.5 13.6 8.5
血糖 (mmol/L) Y
11.2 8.8 12.3 11.6 13.4 18.3 11.1
……
7.92 10.89 0.92 1.20
……
3.37 1.20 8.61 6.45
……
9.8 10.5 6.4 9.6 13.2 20.0 13.3 10.4
2、多重线性回归模型
ˆ = b + b X + b X +归系数。 意义:通常在有统计学意义的前提下,该系数 绝对值越大,表示相应的自变量对反应变量Y的 贡献越大。
a Coefficients
Standardized Unstandardized Coefficients Coefficients Model 1 (Constant) B 5.943 .142 .351 -.271 .638 Std. Error 2.829 .366 .204 .121 .243 .078 .309 -.339 .398 Beta t 2.101 .390 1.721 -2.229 2.623 Sig. .047 .701 .099 .036 .016
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白
a. Dependent Variable: 血糖
问题: 各自变量对反应变量的影响强度怎么比较?
假设检验
1. 整体回归效应(即回归方程)的假设 检验(方差分析) 2. 偏回归系数(即各自变量)的假设检 验(t 检验)
1、整体回归效应的假设检验
H 0:β 0 = β1 = β 2 = β 4 = 0 H1:回归方程有意义
方法:方差分析
α =0.05
b ANOVA
Model 1 Residual Total
Sum of Squares Regression 133.711 SSR 88.841 SSE 222.552 SST
df 4 υ回归 22 υ残差 26 υ总
Mean Square 33.428 4.038
F 8.278
Sig. .000a
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇 b. Dependent Variable: 血糖
F = MS F = MS 回归 回归 /MS /MS 残差 残差
b ANOVA
Model 1 Residual Total
Sum of Squares Regression 133.711 88.841 222.552
df 4 22 26
Mean Square 33.428 4.038
F 8.278
Sig. .000a
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇
P
0 1
2、偏回归系数的 t 检验
在回归方程有意义的前提下,检验某个总体偏 回归系数等于 0 的假设,以判断是否相应的自 变量对回归方程有贡献。
H 0:β i = 0 H1:β i ≠ 0
α=0.05
计算检验统计量:
bi tbi = Sbi
Sbi:第i个偏回归系数的标准误
a Coefficients
Unstandardized Coefficients Model 1 (Constant) B 5.943 .142 .351 -.271 .638 Std. Error 2.829 .366 .204 .121 .243
Standardized Coefficients Beta .078 .309 -.339 .398 t 2.101 .390 1.721 -2.229 2.623 Sig. .047 .701 .099 .036 .016
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白
a. Dependent Variable: 血糖
衡量模型优劣的标准
1. 2. 3. 4. 复相关系数 确定系数 调整确定系数 剩余标准差
Model Summary
Adjusted R Square .528 Std. Error of the Estimate 2.0095
Model 1
R .775a
R Square .601
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素 , 总胆固醇
1、复相关系数
复相关系数R:表示模型中所有自变量与反应变量
之间线性相关的密切程度。实际上是实测值与估计值y hat 的简单相关系数。取值范围为( 0 , 1 ),没有负 值。是确定系数的算术平方根,即
R=
SSR SST
缺点:增加无统计学意义的自变量,R值仍增大。
当回归方程中包含有很多自变量,即使 其中有一些自变量对解释变量变异的贡 献很小,随着回归方程的自变量的增 加, R 表现为只增不减。这是复相关系 数的缺点。
2、确定系数
复相关系数的平方称为确定系数或决定系数,记 为 R2 ,用以反映线性回归模型能在多大程度上解 释反应变量Y的变异性。
SSR R = SST
2
检验回归方程整体意义的方差分析表
变异来源 自由度 回 归 残 差 总变异 4 19 23 SS 0.06396 MS 0.01599 F 17.59 P
0.01727 0.00090903 0.08123
R2=0.06396/0.08123=0.7874
确定系数的取值范围为 0≤R2≤1 。直接反映了 回归方程中所有自变量解释了反应变量总变异 的百分比。其值越接近于1,表示回归模型的拟 合效果越好。
3、调整的确定系数
调整的R2:记为
k (1 − R ) R =R − n − k −1
2 2 a 2
优点:对回归方程中自变量个数实 优点:对回归方程中自变量个数实 2降低。 施惩罚,较大的 k 会使 R 降低。 施惩罚,较大的 k 会使 R2
4、剩余标准差
是误差均方 MSE 的算术平方根,就是残差 的标准差。 反映了用建立的模型去预测因变量时的精 度。其值越小,说明模型拟合的效果越 好。 优点:同调整的确定系数
自变量筛选
为确保回归方程包含所有对反应变量有较大影响的自 变量,而把对反应变量关系不大或可有可无的自变量 排除在方程之外,应该进行自变量的选择。 回归模型的正确选择在根本上依赖于专业知识。
1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法
1、自变量筛选的标准与原则
① ② ③
残差平方和SSE缩小与确定系数增大 残差均方缩小与调整确定系数增大 Cp统计量
2、自变量筛选的常用方法
① ② ③ ④
所有可能自变量子集选择 Forward:前进法(向前选择法) Backward:后退法(向后剔除法) Stepwise:逐步回归法
无论采用何种选择自变量的方法,都需要对不同的自变量 子集进行比较,计算量很大。Æ 借助统计软件
① 所有可能自变量子集选择
p个变量,所有可能的自变量子集有2p个。 根据某种变量的选择准则,通过比较各子
集符合准则的程度,从中选择出一个或几 个最优的回归,称为“最优子集回归”。
仅适合于自变量个数不太多的情况。
② Forward:向前选择法
从仅含常数项的模型开始,首先对每个变量计算反映其进入模 型后该变量对新模型贡献量的F值,然后将最大F统计量与预 先指定的临界值Fin比较,如果F
直到剩下的变 量中无一个能使其F值大于Fin为止。
局限性:不一定能保证“最优”(后续变量的引入会使得先进入 方程的自变量变得不重要)。
③ Backward:向后剔除法
首先建立包含所有p个自变量的全模型,然后逐个计算出剔除某一变 量后仅包含p-1 个自变量的p 个模型,同时计算剔除变量后所致残差 平方和增量的 F 值,然后将 p 个 F 值的最小值与预先指定的剔除临界 Fout 相比较,若最小的 F
④ 逐步选择法
是在前述两种方法基础上进行双向筛选的过程,本质上 前进法。即在逐步选择的过程中,把经F检验有意义的变 量引入方程后,又在对已在方程中的自变量进行一次关 于剔除的F检验,保留有统计学意义的变量,而剔除无统 计学意义的变量。反复进行引入、剔除过程,直到既没 有变量被引入,也没有变量被剔除为止。
是选择变量的有效方法。
前进法、后退法、逐步回归法的侧重点不 同。
当自变量之间不存在简单线性相关关系时,三种方法计算结果 是一致的。 当自变量之间存在简单线性相关关系时,前进法侧重于向模型 中引入单独作用较强的变量,后退法侧重于引入联合作用较强 的变量,逐步回归法则介于两者之间。
注意:剔除变量的标准( 0.1 )应 大于或等于引入变量的标准 (0.05)。
SPSS分析结果
c ANOVA
Model 1 Regression Residual Total 2 Regression Residual Total
Sum of Squares 133.711 88.841 222.552 133.098 89.454 222.552
df 4 22 26 3 23 26
Mean Square 33.428 4.038
F 8.278
Sig. .000a
44.366 3.889
11.407
.000b
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇 b. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素 c. Dependent Variable: 血糖
a Coefficients
Unstandardized Coefficients Model 1 (Constant) B 5.943 .142 .351 -.271 .638 6.500 .402 -.287 .663 Std. Error 2.829 .366 .204 .121 .243 2.396 .154 .112 .230
Standardized Coefficients Beta .078 .309 -.339 .398 t 2.101 .390 1.721 -2.229 2.623 2.713 .354 -.360 .413 2.612 -2.570 2.880 Sig. .047 .701 .099 .036 .016 .012 .016 .017 .008
总胆固醇 甘油三酯 胰岛素 糖化血红蛋白
2 (Constant)
甘油三酯 胰岛素 糖化血红蛋白
a. Dependent Variable: 血糖
ˆ = 6.500 + 0.402 X − 0.287 X + 0.663 X Y 2 3 4
Model Summary
Adjusted R Square .528 .546 Std. Error of the Estimate 2.0095 1.9721
Model 1 2
R .775a .773b
R Square .601 .598
a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇 b. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素
应用
1. 影响因素分析 2. 控制混杂因素 3. 估计和预测 4. 统计控制(逆估计)
影响因素分析
如,影响高血压的因素可能有年龄、饮食 习惯、吸烟状况、工作紧张度和家族史 等,在影响高血压的众多可疑因素中,需 要研究哪些因素有影响,哪些因素影响较 大。
控制混杂因素
在临床试验中,可能由于种种原因难以保证各组 的指标基线相同,如在年龄、病情等指标不一致 出现混杂的情况下,如何对不同的治疗方法进行 比较? 利用回归分析。控制混杂因素(confounding factor) 的一个简单办法就是将其引入回归方程中,与其 他主要变量一起进行分析。
估计和预测
如: 由儿童的心脏横径、心脏纵径和心脏宽径 估计心脏的表面积; 由胎儿的孕龄、头颈、胸径和腹径预测出 生儿体重等。
注意事项
1. 指标的数量化 2. 样本含量 3. 关于逐步回归 4. 多重共线性 5. 交互作用 6. 残差分析 7. 强影响点的诊断
1、指标的数量化
多元线性回归分析,要求因变量为连续性 变量,而自变量可以是连续性变量、无序 分类变量或者有序分类变量。
☻连续性变量:原始观测值 ☻无序分类变量:哑变量(同进同出) ☻有序分类变量:按连续性变量或哑变量处理
4、多重共线性
多重共线性:是指一些自变量之间存在较 强的线性相关关系,即一个自变量可以用 其他一个自变量或多个自变量的线性表达 式来表示。
☻例如,研究高血压与年龄、吸烟年限、饮酒 年限等变量之间的关系。
4、多重共线性
多重共线性的处理:
☻逐步回归 ☻岭回归 ☻主成分回归 ☻路径分析
6、残差分析
作用:模型诊断(检查资料是否符合模型 条件的有用工具,还可以考察是否存在离 群值)。 残差:实测值-估计值
学习本章后应知道的:
多重线性回归模型的作用,适用条件,结果 的阅读和解释 模型拟合优劣的评价 基本概念:偏回归系数 确定系数 复相关系 数