线性回归推导及实例
数据点基本落在一条直线附近。这告诉我们,变量X 与Y 的关系大致可看作是线性关系,即它们之间的相互关系可以用线性关系来描述。但是由于并非所有的数据点完全落在一条直线上,因此X 与Y 的关系并没有确切到可以唯一地由一个X 值确定一个Y 值的程度。其它因素,诸如其它微量元素的含量以及测试误差等都会影响Y 的测试结果。如果我们要研究X 与Y 的关系,可以作线性拟合
(2-1-1)
我们称(2-1-1)式为回归方程,a 与b 是待定常数,称为回归系数。从理论上讲,(2-1-1)式有无穷多组解,回归分析的任务是求出其最佳的线性拟合。 二、最小二乘法原理 如果把用回归方程归值
计算得到的
i 值(i=1,2,…n) 称为回归值,那么实际测量值y i 与回
i 之间存在着偏差,我们把这种偏差称为残差,记为e i (i=1,2,3,…,n) 。这样,我们就可以用残
差平方和来度量测量值与回归直线的接近或偏差程度。残差平方和定义为:
(2-1-2)
所谓最小二乘法,就是选择a 和b 使Q(a,b)最小,即用最小二乘法得到的回归直线
是在所
有直线中与测量值残差平方和Q 最小的一条。由(2-1-2)式可知Q 是关于a,b 的二次函数,所以它的最小值总是存在的。下面讨论的a 和b 的求法。 三、正规方程组
根据微分中求极值的方法可知,Q(a,b)取得最小值应满足
(2-1-3)
由(2-1-2)式,并考虑上述条件,则
(2-1-4)
(2-1-4)式称为正规方程组。解这一方程组可得
(2-1-5)
其中
(2-1-6)
(2-1-7)
式中,L xy 称为xy 的协方差之和,L xx 称为x 的平方差之和。 如果改写(2-1-1)式,可得
(2-1-8)
或
由此可见,回归直线是通过点
即是N 个散点
(2-1-9)
的,即通过由所有实验测量值的平均值组成的点。从力学观点看,
的重心位置。
现在我们来建立关于例1的回归关系式。将表2-1-1的结果代入(2-1-5)式至(2-1-7)式,得出
a=1231.65 b=-2236.63
因此,在例1中灰铸铁初生奥氏体析出温度(y)与氮含量(x)的回归关系式为
y=1231.65-2236.63x
四、一元线性回归的统计学原理
如果X 和Y 都是相关的随机变量,在确定x 的条件下,对应的y 值并不确定,而是形成一个分布。当X 取确定的值时,Y 的数学期望值也就确定了,因此Y 的数学期望是x 的函数,即
E(Y|X=x)=f(x) (2-1-10)
这里方程f(x)称为Y 对X 的回归方程。如果回归方程是线性的,则
E(Y|X=x)=α+βx (2-1-11)
或
Y=α+βx+ε (2-1-12)
其中
ε―随机误差
从样本中我们只能得到关于特征数的估计,并不能精确地求出特征数。因此只能用f(x)的估计式
来取代(2-1-11)式,用参数a 和b 分别作为α和β的估计量。那么,这两个估计
量是否能够满足要求呢?
1. 无偏性
把(x,y)的n 组观测值作为一个样本,由样本只能得到总体参数α和β的估计值。可以证明,当满足下列条件:
(1)(xi ,y i ) 是n 个相互独立的观测值 (2)εi 是服从
分布的随机变量
则由最小二乘法得到的a 与b 分别是总体参数α和β的无偏估计,即
E(a)= α E(b)=β
由此可推知
E(
)=E(y)
即y 是回归值 在某点的数学期望值。
2. a和b
的方差
2,
可以证明,当n 组观测值(xi, y i ) 相互独立,并且D(yi )=σ时,a 和b 的方差为
(2-1-13)
(2-1-14)
以上两式表明,a 和b 的方差均与x i 的变动有关,x i 分布越宽,则a 和b 的方差越小。另外a 的方差还与观测点的数量有关,数据越多,a 的方差越小。因此,为提高估计量的准确性,x i 的分布应尽量宽,观测点数量应尽量多。
建立多元线性回归方程,实际上是对多元线性模型(2-2-4)进行估计,寻求估计式(2-2-3)的过程。与一元线性回归分析相同,其基本思想是根据最小二乘原理,求解归值
的残差平方和达到最小值。由于残差平方和
使全部观测值
与回
(2-2-5)
是
的非负二次式,所以它的最小值一定存在。
应满足
根据极值原理,当Q 取得极值时,
由(2-2-5)式,即满足
(2-2-6)
(2-2-6)式称为正规方程组。它可以化为以下形式
(2-2-7
)
如果用A 表示上述方程组的系数矩阵可以看出A 是对称矩阵。则有
(2-2-8)
式中X 是多元线性回归模型中数据的结构矩阵, 是结构矩阵X 的转置矩阵。
(2-2-7)式右端常数项也可用矩阵D 来表示 即
因此(2-2-7)式可写成
Ab=D (2-2-10)
或
(2-2-11)
如果A 满秩(即A 的行列式 )那么A 的逆矩阵A -1
存在,则由(2-10)式和(2-11)式得
小二乘估计为
的最
(
2-2-12)
也就是多元线性回归方程的回归系数。 为了计算方便往往并不先求
,再求b ,而是通过解线性方程组(2-2-7)来求b 。(2-2-7)
是一个有p+1个未知量的线性方程组,它的第一个方程可化为
(2-2-13)
式中
(2-2-14)
将(2-2-13)式代入(2-2-7)式中的其余各方程,得
(2-2-15)
其中
(2-2-16)
将方程组(2-2-15)式用矩阵表示,则有
Lb=F (2-2-17)
其中
于是
-1
b=LF (2-2-18)
因此求解多元线性回归方程的系数可由(2-2-16)式先求出L ,然后将其代回(2-2-17)式中求解。求b 时,可用克莱姆法则求解,也可通过高斯变换求解。如果把b 直接代入(2-2-18)式,由于要先求出L 的逆矩阵,因而相对复杂一些。
例2-2-1 表2-2-1为某地区土壤内含植物可给态磷(y)与土壤内所含无机磷浓度(x1) 、土壤内溶于K 2CO 3溶液并受溴化物水解的有机磷浓度(x2) 以及土壤内溶于K 2CO 3溶液但不溶于溴化物的有机磷(x3) 的观察数据。求y 对x 1, x 2, x 3的线性回归方程 。
表2-2-1 土壤含磷情况观察数据
计算如下:
由(2-2-16)式
代入(2-2-15)
式得
若用克莱姆法则解上述方程组,则其解为
(2-2-19)
(2-2-20)
其中
计算得
b 1=1.7848,b 2=-0.0834,b 3=0.1611
回归方程为
应用克莱姆法则求解线性方程组计算量偏大,下面介绍更实用的方法——高斯消去法和消去变换。 在上一节所介绍的非线性回归分析,首先要求我们对回归方程的函数模型做出判断。虽然在一些特定的情况下我们可以比较容易地做到这一点, 但是在许多实际问题上常常会令我们不知所措。根据高等数学知识我们知道,任何曲线可以近似地用多项式表示,所以在这种情况下我们可以用多项式进行逼近,即多项式回归分析。
一、多项式回归方法
假设变量y 与x 的关系为p 次多项式,且在x i 处对y 的随机误差 N(0,
) ,则
(i=1,2,…,n) 服从正态分布
令
x i1=xi , xi2
=xi ,…,x ip =xi
则上述非线性的多项式模型就转化为多元线性模型,即
2
p
这样我们就可以用前面介绍的多元线性回归分析的方法来解决上述问题了。其系数矩阵、结构矩阵、常数项矩阵分别为
(2-4-11)
(2-4-12)
(2-4-13)
回归方程系数的最小二乘估计为
(2-4-14)
需要说明的是,在多项式回归分析中,检验b j 是否显著,实质上就是判断x 的j 次项x 对y 是否有显著影响。
对于多元多项式回归问题,也可以化为多元线性回归问题来解决。例如,对于
(2-4-15)
令x i1=Zi1, xi2=Zi2, xi3=Zi1, xi4=Zi1Z i2, xi5=Zi2 则(2-4-15)式转化为
转化后就可以按照多元线性回归分析的方法解决了。
下面我们通过一个实例来进一步说明多项式回归分析方法。
一、应用举例
例2-4-2 某种合金中的主要成分为元素A 和B ,试验发现这两种元素之和与合金膨胀系数之间有一定的数量关系,试根据表2-4-3给出的试验数据找出y 与x 之间的回归关系。
2
2
j
表
2-4-3
例2-4-2
试验数据
首先画出散点图(图
2-4-3)。从散点图可以看出,y 与x 的关系可以用一个二次多项式来描述:
i=1,2,3…,13
图2-4-3 例2-4-2的散点图
令
x i1=xi ,x i2=xi ,
则
现在我们就可以用本篇第二章介绍的方法求出出的数据,求出
由(2-2-16)式
的最小二乘估计。由表2-4-3给
2
由此可列出二元线性方程组
将这个方程组写成矩阵形式,并通过初等变换求b
1,b 2和系数矩阵L 的逆矩阵
L :
-1
于是
b 1=-13.3854 b2=0.16598
b0=2.3323+13.3854 因此
40-0.16598 1603.5=271.599
下面对回归方程作显著性检验: 由(2-2-43)式
S 回=
由(2-2-42)式
S 总=
S 残=Lyy - S回=0.2572
将上述结果代入表2-2-2中制成方差分析表如下:
表2-4-4 方差分析表
查F 检验表,F 0。01(2,10)=7.56, F>F0.01(2 ,10),说明回归方程是高度显著的。 下面对回归系数作显著性检验 由前面的计算结果可知:
b1=-13.3854 b 2=0.16598
-3
c11=51.125 c 22=7.9916 10 由(2-2-54)式
由(2-2-53)式
检验结果说明的x 一次及二次项对y 都有显著影响。