11多元线性回归分析

03-18

多重线性回归分析

（Multiple Linear Regression）

施红英主讲温州医学院预防医学系

多重线性回归模型是直线回归的扩展和延伸，其基本原理和直线回归相同。

内容提要

§ 1 多重线性回归模型简介 § 2 多重线性回归模型的参数估计 § 3 多重线性回归模型的假设检验 § 4 衡量模型优劣的标准 § 5 自变量的筛选 § 6 多重线性回归模型的应用 § 7 注意事项

案例

血糖的影响因素研究： 27 名糖尿病患者的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于下表中，试建立血糖与其它几项指标关系的多元线性回归方程。

27名糖尿病人的血糖及有关变量的测量结果

总胆固醇序号i （mmol/L） X1

1 2 3 4 5 6 7 5.68 3.79 6.02 4.85 4.60 6.05 4.90 …… 24 25 26 27 7.98 11.54 5.84 3.84

甘油三脂 (mmol/L) X2

1.90 1.64 3.56 1.07 2.32 0.64 8.50

胰岛素 (μU/ml) X3

4.53 7.32 6.95 5.88 4.05 1.42 12.60

糖化血红蛋白(%) X4

8.2 6.9 10.8 8.3 7.5 13.6 8.5

血糖 (mmol/L) Y

11.2 8.8 12.3 11.6 13.4 18.3 11.1

……

7.92 10.89 0.92 1.20

……

3.37 1.20 8.61 6.45

……

9.8 10.5 6.4 9.6 13.2 20.0 13.3 10.4

2、多重线性回归模型

ˆ = b + b X + b X +归系数。意义：通常在有统计学意义的前提下，该系数绝对值越大，表示相应的自变量对反应变量Y的贡献越大。

a Coefficients

Standardized Unstandardized Coefficients Coefficients Model 1 (Constant) B 5.943 .142 .351 -.271 .638 Std. Error 2.829 .366 .204 .121 .243 .078 .309 -.339 .398 Beta t 2.101 .390 1.721 -2.229 2.623 Sig. .047 .701 .099 .036 .016

总胆固醇甘油三酯胰岛素糖化血红蛋白

a. Dependent Variable: 血糖

问题：各自变量对反应变量的影响强度怎么比较？

假设检验

1. 整体回归效应（即回归方程）的假设检验（方差分析） 2. 偏回归系数（即各自变量）的假设检验（t 检验）

1、整体回归效应的假设检验

H 0：β 0 = β1 = β 2 = β 4 = 0 H1：回归方程有意义

方法：方差分析

α =0.05

b ANOVA

Model 1 Residual Total

Sum of Squares Regression 133.711 SSR 88.841 SSE 222.552 SST

df 4 υ回归 22 υ残差 26 υ总

Mean Square 33.428 4.038

F 8.278

Sig. .000a

a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇 b. Dependent Variable: 血糖

F ＝ MS F ＝ MS 回归回归 /MS /MS 残差残差

b ANOVA

Model 1 Residual Total

Sum of Squares Regression 133.711 88.841 222.552

df 4 22 26

Mean Square 33.428 4.038

F 8.278

Sig. .000a

a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇

0 1

2、偏回归系数的 t 检验

在回归方程有意义的前提下，检验某个总体偏回归系数等于 0 的假设，以判断是否相应的自变量对回归方程有贡献。

H 0：β i = 0 H1：β i ≠ 0

α=0.05

计算检验统计量：

bi tbi = Sbi

Sbi：第i个偏回归系数的标准误

a Coefficients

Unstandardized Coefficients Model 1 (Constant) B 5.943 .142 .351 -.271 .638 Std. Error 2.829 .366 .204 .121 .243

Standardized Coefficients Beta .078 .309 -.339 .398 t 2.101 .390 1.721 -2.229 2.623 Sig. .047 .701 .099 .036 .016

总胆固醇甘油三酯胰岛素糖化血红蛋白

a. Dependent Variable: 血糖

衡量模型优劣的标准

1. 2. 3. 4. 复相关系数确定系数调整确定系数剩余标准差

Model Summary

Adjusted R Square .528 Std. Error of the Estimate 2.0095

Model 1

R .775a

R Square .601

a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素 , 总胆固醇

1、复相关系数

复相关系数R：表示模型中所有自变量与反应变量

之间线性相关的密切程度。实际上是实测值与估计值y hat 的简单相关系数。取值范围为（ 0 ， 1 ），没有负值。是确定系数的算术平方根，即

SSR SST

缺点：增加无统计学意义的自变量，R值仍增大。

当回归方程中包含有很多自变量，即使其中有一些自变量对解释变量变异的贡献很小，随着回归方程的自变量的增加， R 表现为只增不减。这是复相关系数的缺点。

2、确定系数

复相关系数的平方称为确定系数或决定系数，记为 R2 ，用以反映线性回归模型能在多大程度上解释反应变量Y的变异性。

SSR R = SST

检验回归方程整体意义的方差分析表

变异来源自由度回归残差总变异 4 19 23 SS 0.06396 MS 0.01599 F 17.59 P

0.01727 0.00090903 0.08123

R2=0.06396/0.08123=0.7874

确定系数的取值范围为 0≤R2≤1 。直接反映了回归方程中所有自变量解释了反应变量总变异的百分比。其值越接近于1，表示回归模型的拟合效果越好。

3、调整的确定系数

调整的R2：记为

k (1 − R ) R =R − n − k −1

2 2 a 2

优点：对回归方程中自变量个数实优点：对回归方程中自变量个数实 2降低。施惩罚，较大的 k 会使 R 降低。施惩罚，较大的 k 会使 R2

4、剩余标准差

是误差均方 MSE 的算术平方根，就是残差的标准差。反映了用建立的模型去预测因变量时的精度。其值越小，说明模型拟合的效果越好。优点：同调整的确定系数

自变量筛选

为确保回归方程包含所有对反应变量有较大影响的自变量，而把对反应变量关系不大或可有可无的自变量排除在方程之外，应该进行自变量的选择。回归模型的正确选择在根本上依赖于专业知识。

1. 自变量筛选的标准与原则 2. 自变量筛选的常用方法

1、自变量筛选的标准与原则

① ② ③

残差平方和SSE缩小与确定系数增大残差均方缩小与调整确定系数增大 Cp统计量

2、自变量筛选的常用方法

① ② ③ ④

所有可能自变量子集选择 Forward：前进法（向前选择法） Backward：后退法（向后剔除法） Stepwise：逐步回归法

无论采用何种选择自变量的方法，都需要对不同的自变量子集进行比较，计算量很大。Æ 借助统计软件

① 所有可能自变量子集选择

p个变量，所有可能的自变量子集有2p个。根据某种变量的选择准则，通过比较各子

集符合准则的程度，从中选择出一个或几个最优的回归，称为“最优子集回归”。

仅适合于自变量个数不太多的情况。

② Forward：向前选择法

从仅含常数项的模型开始，首先对每个变量计算反映其进入模型后该变量对新模型贡献量的F值，然后将最大F统计量与预先指定的临界值Fin比较，如果F

直到剩下的变量中无一个能使其F值大于Fin为止。

局限性：不一定能保证“最优”（后续变量的引入会使得先进入方程的自变量变得不重要）。

③ Backward：向后剔除法

首先建立包含所有p个自变量的全模型，然后逐个计算出剔除某一变量后仅包含p-1 个自变量的p 个模型，同时计算剔除变量后所致残差平方和增量的 F 值，然后将 p 个 F 值的最小值与预先指定的剔除临界 Fout 相比较，若最小的 F

④ 逐步选择法

是在前述两种方法基础上进行双向筛选的过程，本质上前进法。即在逐步选择的过程中，把经F检验有意义的变量引入方程后，又在对已在方程中的自变量进行一次关于剔除的F检验，保留有统计学意义的变量，而剔除无统计学意义的变量。反复进行引入、剔除过程，直到既没有变量被引入，也没有变量被剔除为止。

是选择变量的有效方法。

前进法、后退法、逐步回归法的侧重点不同。

当自变量之间不存在简单线性相关关系时，三种方法计算结果是一致的。当自变量之间存在简单线性相关关系时，前进法侧重于向模型中引入单独作用较强的变量，后退法侧重于引入联合作用较强的变量，逐步回归法则介于两者之间。

注意：剔除变量的标准（ 0.1 ）应大于或等于引入变量的标准（0.05）。

SPSS分析结果

c ANOVA

Model 1 Regression Residual Total 2 Regression Residual Total

Sum of Squares 133.711 88.841 222.552 133.098 89.454 222.552

df 4 22 26 3 23 26

Mean Square 33.428 4.038

F 8.278

Sig. .000a

44.366 3.889

11.407

.000b

a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇 b. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素 c. Dependent Variable: 血糖

a Coefficients

Unstandardized Coefficients Model 1 (Constant) B 5.943 .142 .351 -.271 .638 6.500 .402 -.287 .663 Std. Error 2.829 .366 .204 .121 .243 2.396 .154 .112 .230

Standardized Coefficients Beta .078 .309 -.339 .398 t 2.101 .390 1.721 -2.229 2.623 2.713 .354 -.360 .413 2.612 -2.570 2.880 Sig. .047 .701 .099 .036 .016 .012 .016 .017 .008

总胆固醇甘油三酯胰岛素糖化血红蛋白

2 (Constant)

甘油三酯胰岛素糖化血红蛋白

a. Dependent Variable: 血糖

ˆ = 6.500 + 0.402 X − 0.287 X + 0.663 X Y 2 3 4

Model Summary

Adjusted R Square .528 .546 Std. Error of the Estimate 2.0095 1.9721

Model 1 2

R .775a .773b

R Square .601 .598

a. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素, 总胆固醇 b. Predictors: (Constant), 糖化血红蛋白, 甘油三酯, 胰岛素

应用

1. 影响因素分析 2. 控制混杂因素 3. 估计和预测 4. 统计控制（逆估计）

影响因素分析

如，影响高血压的因素可能有年龄、饮食习惯、吸烟状况、工作紧张度和家族史等，在影响高血压的众多可疑因素中，需要研究哪些因素有影响，哪些因素影响较大。

控制混杂因素

在临床试验中，可能由于种种原因难以保证各组的指标基线相同，如在年龄、病情等指标不一致出现混杂的情况下，如何对不同的治疗方法进行比较？利用回归分析。控制混杂因素(confounding factor) 的一个简单办法就是将其引入回归方程中，与其他主要变量一起进行分析。

估计和预测

如：由儿童的心脏横径、心脏纵径和心脏宽径估计心脏的表面积；由胎儿的孕龄、头颈、胸径和腹径预测出生儿体重等。

注意事项

1. 指标的数量化 2. 样本含量 3. 关于逐步回归 4. 多重共线性 5. 交互作用 6. 残差分析 7. 强影响点的诊断

1、指标的数量化

多元线性回归分析，要求因变量为连续性变量，而自变量可以是连续性变量、无序分类变量或者有序分类变量。

☻连续性变量：原始观测值 ☻无序分类变量：哑变量(同进同出) ☻有序分类变量：按连续性变量或哑变量处理

4、多重共线性

多重共线性：是指一些自变量之间存在较强的线性相关关系，即一个自变量可以用其他一个自变量或多个自变量的线性表达式来表示。

☻例如，研究高血压与年龄、吸烟年限、饮酒年限等变量之间的关系。

4、多重共线性

多重共线性的处理：

☻逐步回归 ☻岭回归 ☻主成分回归 ☻路径分析

6、残差分析

作用：模型诊断（检查资料是否符合模型条件的有用工具，还可以考察是否存在离群值）。残差：实测值－估计值

学习本章后应知道的：

多重线性回归模型的作用，适用条件，结果的阅读和解释模型拟合优劣的评价基本概念：偏回归系数确定系数复相关系数

与《11多元线性回归分析》相关的范文

06-29 高一数学下学期教学计划

一、指导思想：使学生在九年义务教育数学课程的基础上，进一步提高作为未来公民所必要的数学素养，以满足个人发展与社会进步的需要。具体目标如下。 1．获得必要的数学基础知识和基本技能，理解基本的数学概念、数学结论的本质，了解概念、结论等产生的背景、应用，体会其中所蕴涵的数学思想和方法，以及它们在后续学习中的作用。通过不同形式的自主学习、探究活动，体验数学发现和创造的历程。 2．提高空间想像、抽象概括、 ...

07-29 高一数学下学期教学计划2

02-22 远程培训学习笔记:课程与教学理论发展的轨迹与启示

远程培训学习笔记：课程与教学理论发展的轨迹与启示科学化课程开发理论发展的里程碑（1-3-2）美国著名教育学家、课程理论专家、评价理论专家泰勒对科学化课程开发理论起里程碑作用。他所提出的泰勒原理被当作课程研究的范式。由于泰勒对教育评价理论、课程理论的卓越贡献，被誉为“现代评价理论之父”“现代课程理论之父”。 1934年，泰勒出版了《成绩测验的编制》，确立其评价原理；1949年，又出版了《课程与教 ...

04-10 高二数学下学期备课组教学计划

教学目标、教材的重点通过推理与证明的教学，进一步体会合情推理、演绎推理以及二者之间的联系与差异；体会数学证明的特点，了解数学证明的基本方法，包括直接证明的方法和间接证明的方法；感受逻辑证明在数学以及日常生活中的作用，养成言之有理、论证有据的习惯。通过计数原理的教学，使学生掌握两个基本计数原理、排列、组合、二项式定理及应用，会解决简单的计数问题；体验计数与现实生活的联系，充分体会两个基本计数原理 ...

08-05 第二学期高一数学学科教学计划

一、教材分析（结构系统、单元内容、重难点）必修5第一章：解三角形；重点是正弦定理与余弦定理；难点是正弦定理与余弦定理的应用；第二章：数列；重点是等差数列与等比数列的前n项的和；难点是等差数列与等比数列前n项的和与应用；第三章：不等式；重点是一元二次不等式及其解法、二元一次不等式（组）与简单的线性规划问题、基本不等式；难点是二元一次不等式（组）与简单的线性规划问题及应用；必修2第一章：空间几何体 ...

06-09 现代科技文阅读

·现代科技文阅读　　现代科技类文章的阅读是以理解文中重要语句、辨别和筛选文中重要信息、归纳文章要点、理解分析文章内容为主要目标的阅读行为。科技类文章的内容范围很广，可能会涉及到天文、地理、生物、物理、化学以及当代最新的高科技知识，但其阅读目的并不是为了弄清楚这些知识本身，而是借助语文的学习方法和规律，完成一定的阅读任务。具体来说有以下四点。　　（一）理解文中重要语句《考试说明》把理解词语和句子 ...

03-07 车间工艺技术员先进事迹

　　“三十而立”是孔老夫子流行千年不衰的名言，男人到了三十岁似乎应该发一点儿庄严的感慨，抗金英雄如岳飞不禁也感叹“三十功名尘与土”！问问现今已至三十的郭常辉，而立宣言是什么，他说：“功名和欲望人人都有，但是我最大的愿望就是在我的岗位上，脚踏实地做好本职工作。” 　　这就是不善言谈的塑料厂线性车间工艺技术员郭常辉。1996年毕业于哈尔滨工程大学，分配到塑料厂低压车间。初入工厂，他的心情激动中透着一丝 ...

10-10 下学期高二数学教学计划-

一、学生基本情况 261班共有学生75人，268班共有学生72人。268班学习数学的气氛较浓，但由于高一函数部分基础特别差，对高二乃至整个高中的数学学习有很大的影响，数学成绩尖子生多或少，但若能杂实复习好函数部分，加上学生又很努力，将来前途无量。若能好好的引导，进一步培养他们的学习兴趣，…… 二、教学要求（一）情意目标（1）通过分析问题的方法的教学、通过不等式的一题多解、多题一解、不等式的一题 ...

12-13 澳门回归十年留下了什么印记?

澳门回归十年留下了什么印记？　　当澳门回归祖国10周年纪念日来临之际，澳门全城充满喜庆气氛，民众纷纷用自己的方式，表达欢庆回归的喜悦心情。　　今年12月20日是澳门回归祖国十周年纪念日，迎接澳门回归十周年使人们再一次把目光投向澳门。近日来，通过媒体的报道让人们感受到了澳门浓浓的爱国热情和喜庆气氛。此时此刻，回顾澳门回归祖国后走过的十年历程，笔者认为，这十年在澳门的历史上留下了深深的印记。　　 ...

08-21 十六届六中全会心得-政绩篇

通过科学.有效的政绩考评,引导各级领导干部坚持科学发展观和正确政绩观,积极推进和谐社会建设,是一个重要的理论和实践问题. 构建和谐社会对政绩考评工作提出新要求对各级领导干部的政绩考评工作应当体现构建社会主义和谐社会的理念和要求.在指导思想上,应把科学发展观贯穿创造政绩的全过程.各级领导干部在创造政绩的过程中,应坚持以科学发展观为统领,破除影响社会和谐的体制性弊端,建立适应和谐社会要求的制度规范,

随机推荐

猜你喜欢

11多元线性回归分析

·2014年财经所工作规划之思考

·小学校园文化建设的策划方案

·党委宣传部工作总结及工作要点

·住房救助申请书范文

·工地安全口号

·爱岗敬业优秀员工演讲稿

·新农村建设情况的调查报告

·感恩的心[散文欣赏]

·加强党性修养培养优良作风争做新时期合格的党员干部

·体育考试过程性考核实施方案

·十八大征文:青年当自强

·2012-2013第一学期二年级数学教师工作总结

·区庆祝教师节座谈会主持词

·四边形知识点经典总结

·王店子镇科学素养大赛试题试卷及答案

·人生黄金定律100条

·精致户型文案

·调研报告的作用

·计算思维案例及平时成绩讨论题

·增加抚养费起诉状(诉讼)