多元线性回归模型
多元线性回归模型
主要内容
n n n n
多元线性回归模型的一般形式 参数估计( OLS估计) 假设检验 预测
一. 多元线性回归模型
n n n
问题的提出 解析形式 矩阵形式
问题的提出
n
现实生活中引起被解释变量变化的因素并非仅 只一个解释变量,可能有很多个解释变量。 例如,产出往往受各种投入要素——资本、劳 动、技术等的影响;销售额往往受价格和公司 对广告费的投入的影响等。 所以在一元线性模型的基础上,提出多元线性 模型——解释变量个数≥ 2
n
n
社会经济现象的复杂性 !
● 对人均国民生产总值(Y)的 影响因素(X)有: 人口变动因素、固定资产数、货币供给量、 物价指数、国内国际市场供求关系等
● 对汽车需求量(Y)的 影响因素(X)有: 收入水平、汽车价格、 汽油价格等
多元线性回归模型表示方法
n
n
n
多元回归模型:含两个以上解释变量的回归模 型 多元线性回归模型:一个应变量与多个解释变 量之间设定的是线性关系 多元线性回归模型一般形式为:
Y = b + b X 1 + b X 2 + L + b X k + u 0 1 2 k
多元线性回归模型的假设
Y = b + b X + b X 2 + L + b X k + u 0 1 1 2 k
n
解释变量 X 是确定性变量,不是随机变量;解释变量 i 之间互不相关,即无多重共线性。 随机误差项具有0均值和同方差 随机误差项不存在序列相关关系 随机误差项与解释变量之间不相关 随机误差项服从0均值、同方差的正态分布
n n n n
多元模型的解析表达式
Y = b + b X 1 + b X 2 + L + b X k + u 0 1 2 k n 个样本观测值 ( i , X 1 i , X 2 i , , X ki ) Y L i = 1 2 L , n , , 得: Y = b + b X 1 i + b X 2 i + L + b X ki + u i 0 1 2 k i ìY1 = b + b X 11 + b X 21 + L + b X k 1 + u 0 1 2 k 1 ïY = b + b X + b X + L + b X + u ï 2 0 1 12 2 22 k k 2 2 í ïL L L L L L ïY = b + b X 1 n + b X 2 n + L + b X kn + u 2 k n î n 0 1
多元模型的矩阵表达式
æ Y 1 ö æ 1 ç ÷ ç ç Y 2 ÷ ç 1 ç M ÷ = ç M ç ÷ ç ç ÷ ç 1 è Y n ø è
X X X
11
12
X X X
21 22
L L L
M
1 n
M
2 n
æ 0 ö ö ç b ÷ æ u ö X k 1 ÷ ç ÷ ç 1 ÷ 1 X k 2 ÷ ç b ÷ + ç u 2 ÷ 2 M ÷ ç b ÷ ç M÷ ÷ ÷ ç M÷ ç ÷ ç ÷ ç ÷ è u ø X kn ø è b k ø n
Y = XB + U
矩阵形式
Y = XB + U æ Y 1 ö ç ÷ ç ÷ Y = ç Y 2 ÷ M ç ÷ ç ÷ è Y n ø æ b ö ç 0 ÷ ç b ÷ 1 ç ÷ B = b ç 2 ÷ ç M÷ ç ÷ k è b ø æ 1 ç ç 1 X = ç M ç ç 1 è æ u ö ç 1 ÷ ç 2 ÷ U = ç u ÷ M
ç ÷ ç ÷ n è u ø
X X X
11
12
X X X
21
L L L
22
X X
M
1 n
M
2 n
ö ÷ k 2 ÷ M ÷ ÷ X kn ÷ ø
k 1
二. 参数估计(OLS)
n n n n n
参数值估计 参数估计量的性质 偏回归系数的含义 正规方程 样本容量问题
2.1参数值估计(OLS)
n
Q = å
i = 1 n
e
i
2
i
=
ˆ å (y - y )
i i
n
2
i = 1
=
ˆ ˆ å (Y - (b + b X
0 1
1 i
ˆ + L + b k X ki
i = 1
))
2
ì ¶ Q ï ¶ b ˆ 0 ï ï ¶ Q ï ˆ ï ¶ b 1 ï ¶ Q ï í ˆ ï ¶ b 2 ïL L ï ï ¶ Q ï ¶ b ˆ k ï ï î
= 0 = 0 = 0 L L = 0
得到下列方程组
ì å ˆ ˆ ˆ Y i - å b 0 + b X 1 i + L + b k X ki = 0 1 ï ï å Y i X 1 i - å b + b X 1 i + L + b X ki X 1 i = 0 ˆ ˆ ˆ 0 1 k ï ï å Y i X 2 i - å ˆ + ˆ X 1 i + L + ˆ X ki X 2 i = 0 b 0 b b k 1 í M ï ï M ï ˆ ˆ ˆ ï å Y i x - å b + b X 1 i + L + b X ki X ki = 0 ki 0 1 k î
(
( (
)
) )
(
)
求参数估计值的实质是求一个k+1元方程组
正规方程
变成矩阵形式
ˆ ìn ˆ0 + b å 1 i + b åX i +L + b åX = åY b ˆ X ˆ 1 2 2 k ki i ï ˆ ˆ ˆ ïb åX i + b åX 2 + b åX i X i +L + b åX X i = åX i Y ï ˆ 0 1 1 2 2 1 k ki 1 1 i 1 i í ïL L L L L L L L L ï ˆ 2 ˆ ˆ ˆ ïb åX + b åX i X + b åX i X +L + b åX = åX Y ki 1 1 ki 2 2 ki k ki i ki î 0
é n ê êå X 1 i ê L ê êå X ki ë
å X å X
L
1 i
1 i 2
1 i
å X å X X
2 i 2 i
1 i
L
ki 2 i ki
å X X å X X
ˆ éb ù L X ki ù ê 0 ú é å Y ù å ú ˆ ê i ú 1 L å X ki X 1 i ú êb ú êå X 1 i Y ú i êb ú = ˆ ú ê 2 ú ê M ú L L úê M ê ú ú 2 L X ki ú ê ú êå X ki Y ú å û b ë i û ˆ ë k û
正规方程
矩阵形式
é n ê 1 êåX i X¢X = ê L ê êåX ki ë X å åX åX åX X
1 i 2 i 2 1 i 2 i
L L L L
1 i
åX ù ú X X ú å
ki ki 1 i
L
1 i ki
L
2 i ki
åX X åX X
ú ú 2 åX ki ú û L
ˆ éb ù 0 ê ú ˆ êb ú 1 ˆ ˆ B = êb ú ê 2 ú êM ú ê ˆ ú k ëb û
é å i ù Y ê ú X 1i Y ú å i X ¢Y = ê ê M ú ê ú êå X ki Y ú i û ë
X ¢X ˆ = X ¢Y B ˆ B = ( X ¢X ) -1 X ¢Y
最小二乘法的矩阵表示
ˆ Y = X ˆ B
n 2 i =1
Y = XB + U
n i =1
U ~ N ( , ) 0 s ˆ E = Y - Y = Y - X ˆ B
2
Q = å ei = å y - y ˆ i i
(
)
2
ˆ ¢ Y ˆ ¢ = e e = ( -
X B ) ( - X B ) Y Q = ( ¢ - B ¢X ¢)( - X ˆ ) Y ˆ Y B ˆ ˆ ˆ ˆ = ( Y ¢Y - Y ¢X B - B ¢X ¢Y + B ¢X ¢X B ) ˆ ˆ = Y ¢Y - 2 B ¢X ¢Y + B ¢X ¢X ˆ B ¶ Q = 0 ˆ ¶ B - X ¢Y + X ¢X ˆ = 0 B 为什么 Y ¢X ˆ = B ¢X ¢Y ? B ˆ
-1 ˆ B = ( X ¢X ) X ¢Y
ˆ s
2
=
¢ e e n - k - 1
2.2最小二乘估计量的性质
n
(1)线性(估计量都是被解释变量观测值的线性组 合) (2)无偏性(估计量的数学期望=被估计的真值) (3)有效性(估计量的方差是所有线性无偏估计中最 小的)
n n
结论:在古典假定下, OLS 估计式 b 是最佳线性 无偏估计( BLUE )
Ù
OLS估计量的性质(续)
( ) 4 在古典假定下, j ~ N ( b j , ( b j )), j = 1 2 k b Var , ,..., 其中, Var ( b j ) = s 2 c jj , c jj 是( X ' X -1 ) 中对角线上第 j 个元素。 ( u 正态 , Y u 的线性函数 Þ Y 正态,又 b 是 i i 是 Y 的线性函数 Þ b j 正态)
Ù Ù j Ù Ù Ù
线性
- ˆ = ( X ¢X ) 1 X ¢Y B
无偏性
- ˆ ) = E X ¢X ) 1 X ¢Y ] E( B [(
= E X ¢X ) X ¢( XB + N )] [( = E X ¢X ) X ¢XB + ( X ¢X ) X ¢N ] [( = B + ( X ¢X ) E X ¢N ) ( = B
-1 -1 -1
-1
有效性
回忆:Cov x = E ( x - E ( x ) ( ) ) ˆ )( ˆ ˆ ) ¢ Cov B = E B - E ( B B - E ( B ) ] ( ˆ ) [( ˆ
2
( k + 1 ´ ( k + 1 ) )
= E B - B B - B ¢] [( ˆ )( ˆ )
-1 -1 = E X ¢X ) X ¢Y - B X ¢X ) X ¢Y - B ¢] [(( )(( ) -1 -1 = E X ¢X ) X ¢( XB + N ) - B X ¢X ) X ¢( XB + N ) - B ¢] [(( )(( ) -1 -1 = E X ¢X ) X ¢N ¢X ( X ¢X ) ] [( N -1 -1 = ( X ¢X ) X ¢E ( N ¢) X ( X ¢X ) N -1 -1 = E ( N ¢)( X ¢X ) X ¢X ( X ¢X ) N -1 = s ( X ¢X ) 2
2.2 OLS回归线的性质
n
完全同一元情形:
Ù Ù Ù Ù
( )回归线过样本均值 1 Y = b 1 + b 2 X 2 i + b 3 X 3 i ... + b k X ki ( ) 2 估计值 Y i 的均值等于实际观测值Y 的均值 i ( ) 3 剩余项(残差)e 的均值为0 i (4 )应变量估计值 Y i 与残差e 不相关; i (5 )解释变量X i 与残差e 不相关 i
Ù Ù
注解:k与k+1
n
n
凡是按解释变量的个数为k的,那么共有k+1 个参数要估计。而按参数个数为k的,则实 际有k1个解释变量。总之两者相差1而已! 要小心所用的k是什么意思! 所以如果本来是用解释变量个数的k表示的 要转换成参数个数的k则用k1代换原来的k就 可以了!
2.3偏回归系数
的意义
n n
多元回归模型中的回归系数称为偏回归系数 某解释变量前回归系数的含义是,在其他解释 变量保持不变的条件下,该变量变化一个单 位,被解释变量将平均发生偏回归系数大小的 变动
2.4多元回归模型参数估计中的样本容量问 题
n
样本是一个重要的实际问题,模型依赖于实际 样本。 获取样本需要成本,企图通过样本容量的确定 减轻收集数据的困难。 最小样本容量:满足基本要求的样本容量
n
n
最小样本容量 n ≥ k+1
-1 ˆ B = ( X ¢X ) X ¢Y
n
1 (X`X) 存在Û| X`X | 0 Û ¹ X`X 为k+1阶的满秩阵
n n n
R(AB) ≤ min(R(A),R(B)) R(X) ≥ k+1 因此,必须有n≥k+1
满足基本要求的样本容量
n Ø
一般经验认为: n ≥ 30或者n ≥ 3(k+1)才能满足模型估计的基 本要求。 n ≥ 3(k+1)时,t分布才稳定,检验才较为有效
Ø
三 多元线性回归模型的检验
n
本节主要介绍:
3.1 拟合优度检验(判定系数及其校正) n 3.2 回归参数的显著性检验(t-检验) n 3.3 回归方程的显著性检验(F-检验) n 3.4 拟合优度、t-检验、F-检验的关系
n
3.1.1 拟合优度检验 -总平方和、自由度的分解
n n
目的:构造一个不含单位,可以相互比较, 而且能直观判断拟合优劣的指标。 类似于一元情形,先将多元线性回归作如下 平方和分解:
2 (Yi - Y ) = å(Yi - Yi ) + å(Yi - Y ) å 2 Ù 2 Ù
TSS
=
RSS
+
ESS
总离差平方和 = 回归平方和 +残差平方和 自由度:n1 = k1 + nk
对以上自由度的分解的说明
TSS = å
(Y - Y )
2 i 2 i Ù 2 i
1 受Y = å Y 一个方程的约束, 所以 df = n - 1 i T n
2
Ùö Ù Ù Ù æ æ ö RSS = å ç Y -Y ÷ = å ç Y -( b + b X +... b X ) + k ki ÷ i 1 2 2 è ø è ø ¶ å e ¶ å e 而 b ,..., b 由 = 0 ,....., = 0 方程求出,共有k 个方程
i Ù 2 i 1 k Ù Ù
¶ b 1
R
¶ b k
对n Y 约束, 所以, 个 i df = n - k 再由:ESS = TSS - RSS 知 df = ( - 1 - ( - k ) = k - 1 n ) n
E
3.1.2 判定系数R 2
n
判定系数的定义:
RSS ESS TSS = RSS + ESS Þ 1 = + TSS TSS RSS ESS 2 R = TSS = 1 - TSS
n
n
意义:判定系数越大,自变量对因变量的解释 程度越高,自变量引起的变动占总变动的百分 比高。观察点在回归直线附近越密集。 取值范围:01
3.1.3 校正判定系数 R
n
2
为什么要校正?
n
n n
判定系数随解释变量个数的增加而增大。易 造成错觉:要模型拟合得越好,就应增加解 释变量。然而增加解释变量会降低自由度, 减少可用的样本数。
并且有时增加解释变量 是不必要的。 导致解释变量个数不同模型之间对比困难。 判定系数只涉及平方和,没有考虑自由度。
n
校正思路: 引进自由度校正所计算的平方和。
校正判定系数 R (续)
ESS /(n - k ) R = 1 TSS /(n - 1)
2
2
校正判定系数和未校正的判定系数的关系: n - 1 (1) R = 1 - 1 - R ) ( n - k
2 2 2 (2) k > 1时,
两者的差距将越来越大. 也就是说校正的比 未校正的判定系数增加得慢些!
2 (3) 判定系数R 非负(取值在[0,1])但是, ; 2 2
R 取值可能为负,这时规定R = 0
3.2 回归方程的显著性检验
3.2 回归方程的显著性检验
检验的目的 检验的目的:检验Y与解释变量x1,x2,……xk之 间的线性关系是否显著。
3.2 回归方程的显著性检验
检验的步骤 第一步,提出假设: 原假设:H0:b1=b2=……bk=0 备择假设:H1:bi不全为0 (i=1,2,…,k)
3.2 回归方程的显著性检验
检验的步骤 第二步,计算统计量:
RSS k ) F = ~ F (k , n - k - 1 ESS (n - k - 1)
(10-8)
R 2
或: F =
(1 - R )
2
k
(n - k - 1 )
3.2 回归方程的显著性检验
检验的步骤
第三步,查表,得:
Fa = Fa ( k , n - k - 1 )
3.2 回归方程的显著性检验
检验的步骤 第四步,做检验:
检验 法则
F > F a
F
拒绝H0, 回归方程显著 接受H0, 回归方程不显著
3.3 回归系数的显著性检验
回归系数检验的必要性
回归方程显著,并不意味着每个解释变量对因 变量Y的影响都重要,因此需要进行检验:
回归方程显著
¹
每个回归系数 都显著
3.3 回归系数的显著性检验
回归系数检验的步骤
第一步,提出假设: 原假设:H0: bi=0 (i=1,2,……k)
备择假设:H1:bi≠0 (i=1,2,……k)
3.3 回归系数的显著性检验
回归系数检验的步骤
第二步,构造并计算统计量 :
ˆ b Ti = i ;(i = 1, 2,......, k ) ˆ s b
( )
i
(109)
3.3 回归系数的显著性检验
回归系数检验的步骤
第三步,查表得 :
ta = ta ( n - k - 1 )
2 2
3.3 回归系数的显著性检验
回归系数检验的步骤 第四步,做检验:
T
检验 法则
2
接受H0
Ti > ta
2
拒绝H0
3.3 回归系数的显著性检验
关于模型的异方差、自相关、多重共线性问题 的检验,请参考计量经济学有关教材。
3.4 多元线性回归模型的预测
ˆ ˆ ˆ ˆ 点预测: YF = b 1 X F 1 + L + b k X Fk = X F b
区间预测:
ˆ 中心: Y F
¢ s 半径: ˆ X F ( X ¢X ) -1 X F t / 2 ( n - k ) a
四 逐步回归分析
多元线性回归建立的回归方程
包含了所有的自变 量,但在实际问题中,可能有这样的情况:参加回 归方程的P个自变量中,有些自变量单独看对因变 量Y有作用(相关程度密切),但P个自变量又可能 是相互影响的,在作回归时,它们对因变量所起的 作用有可能被其他自变量代替,而使得这些自变量 在回归方程中变得无足轻重。这时把这些自变量留 在回归方程中,不但增加计算上的麻烦,而且不能 保证有好的回归效果。为了克服这些缺点,提出了 多元逐步回。
多元逐步回归要求回归方程 中包含所有对因变量作用显著的自 变量,而不包含作用不显著的自变 量,从而建立最优回归方程。
逐步筛选变量的方法:
1、强行进入法(Enter): 预先选定的自变量全部进入回归模 型,这是系统默认方式。 2、消去法(Remove): 根据设定的条件剔除部分自变量。
3、向前引入法(Forward): 自变量由少到多一个一个引入回归方 程,将与因变量的相关系数最大的第一 个自变量选入方程并进行检验,如果F值 >F ,拒绝H ;将其余的变量中与因变 a 0 量的相关系数最大的第二个自变量选入 方程,当F值>F ,拒绝H ;如此下 a 0 去,不断引入新的自变量,直到不能拒 绝H ,再没有变量被引入为止。 0
4、向后剔除法(Backward): 自变量由多到少一个一个从回归 方程中剔除,首先,对预先选定自变 量全部进行回归,然后把对因变量影 响不显著的自变量从方程中剔除并进 行检验,如果F值
5、逐步引入—剔除法 (Stepwise): 向前引入法与向后剔除法的结合。
操作(一)
2 1
SPSS软件包逐步回归操作(二)
点击逐步回归
操作(三)
结果变量Y
多个自变量
点击逐步回归
操作(四)
模型拟合
回归系数估计
回归系数可信区间
操作(五)
直方图 正态概率图
操作(六)
(一) SPSS软件包逐步回归筛选自变量
Variables Entered/Removed Model 1 Variables Entered Variables Removed
a
铁(Fe)
.
Method Stepwise (Criteria: Probabilit yofFto enter = .100).
a. Dependent Variable: 血红蛋白(Hemoglobin,g)
(二) SPSS软件包逐步回归相关系数及检验
Model Summaryb
Model 1
Change Statistics Std. Error Adjusted R of the R Square Sig. F R R Square Square Estimate Change F Change df1 df2 Change a .863 .746 .736 1.11991 .746 79.096 1 27 .000
a. Predictors: (Constant), 铁(Fe) b. Dependent Variable: 血红蛋白(Hemoglobin,g)
(三) SPSS软件包逐步回归残差分 析
ANOVA b Sum of Model Squares 1 Regress
ion 99.201 Residual Total 33.863 133.064 df Mean Square 1 99.201 27 28 1.254 F 79.096 Sig. a .000
a. Predictors: (Constant), 铁(Fe) b. Dependent Variable: 血红蛋白(Hemoglobin,g)
(四) SPSS软件包逐步回归回归系数及检验
a Coefficients
Standar dized Unstandardized Coeffic Coefficients ients Model B Std. Error Beta 1 (Constant) .657 1.276 铁(Fe) 2.938E02 .003 .863
a. Dependent Variable: 血红蛋白( Hemoglobin,g)
t .515 8.894
Correlations Sig. Zero-orderPartial Part .611 .000 .863 .863 .863
ˆ y = - 0 . 657 + 0 . 038 x ( 铁 )
(五) SPSS软件包逐步回归残差直方图
Histogram
5 4 3 2
Dependent Variable: 血红蛋白(Hemoglobi
Frequency
1 0 -1.75 -1.25 -.75 -.25 .25 .50 .75 1.25 1.75 -1.50 -1.00 -.50 0.00 1.00 1.50
Std. Dev = .98 Mean = 0.00 N = 29.00
Regression Standardized Residual
(六) SPSS软件包逐步回归未进入方程的变量及检验
Excluded Variables b Collineari ty Statistics Partial Sig. Correlation Tolerance .081 .335 .910 .785 .351 .844 .054 .183 .039 .597 .927 .930
Model 1
Beta In a 钙(Ca) .177 镁(Mg) 锰(Mn) 铜(Cu)
a .035 a .096 a .020
t 1.815 .276 .950 .199
a. Predictors in the Model: (Constant), 铁(Fe) b. Dependent Variable: 血红蛋白( Hemoglobin,g)
图
Normal P-P Plot of Regression S Dependent Variable: 血红蛋白(
1.00
.75
Expected Cum Prob
.50
.25
0.00 0.00 .25 .50 .75 1.00
Observed Cum Prob
逐步回归的主要用途:
1、建立一个自变量个数较少的 多元线性回归方程,可用于描述 某些自变量与某一医学现象间的 数量关系,以及进行疾病的预测 预报,辅助诊断等。
2、进行因素筛选,有助于从大量 因素中筛选出对某一医学现象作 用显著的因素和因素组,因此在 病因分析和疗效分析中有着广泛 的应用。