回归直线方程的推导
回归直线方程的推导
山东 王加祥 范玉峰
设x与y是具有线性相关关系的两个变量,且相应于样本的一组观测值的n个点的坐标(x2,y2),(x3,y3),,(xn,yn),下面给出回归方程的推导. 分别是:(x1,y1),
,2,3,,n). 设所求的回归方程为显然,上面的各个偏差的符号有正、yibxia,(i1
有负,如果将他们相加会相互抵消一部分,因此他们的和不能代表n个点与回归直线的整体上的接近程度,因而采用n个偏差的平方和Q来表示n个点与相应直线(回归直线)在整体上的接近程度,
yi)2(yibxia)2(y2bx2a)2(y3bx3a)2(ynbxna)2. 即Q(yi
i1
i1
n
n
求出当Q取最小值时的a,b的值,就求出了回归方程.
一、先证明两个在变形中用到的公式 公式(一)(xix)xi2nx,其中x
2
i1
i1
n
n
n
2
x1x2xn
n
证明:∵(xix)2(x1x)2(x2x)2(xnx)2
i1
22
x12x2xn2nx
2(x1x2xn)
nx
n
2
2
21
22
2n
n
2
(xxx)2nxnx(xxx)xi2nx
21
22
2n
i1
∴(xix)xi2nx.
2
i1
i1
nn
2
公式(二)(xix)(yiy)xiyinxy
i1
i1
nn
证明:∵(xix)(yiy)(x1x)(y1y)(x2x)(y2y)(xnx)(yny)
i1
n
(x1y1x2y2xnyn)(x1yy1xx2yy2xxnyynx)nxy xiyi[(x1x2xn)y(y1y2yn)x]nxy
i1nn
(yy2yn)(xx2xn)
xiyin1y1xnxy
nni1xiyi2nxynxyxiyinxy,
i1n
i1
n
n
∴(xix)(yiy)xiyinxy.
i1
i1
n
二、推导:将Q的表达式的各项先展开,再合并、变形
Q(y1bx1a)2(y2bx2a)2(y3bx3a)2(ynbxna)2
22
(y12y2ny2)[2yxa)22y(ba)]展开 1(b12x
y2bxiyi2ayib
2
ii1
i1
i1
nnn
2
x
i1
n
2i
2abxina2合并同类项
i1
n
n
n
xiyi
na22nai1bi1
nn
nnn
b2xi22bxiyiyi2以a,b的次数为标准整理 i1i1i1
2i
na2na(ybx)b
2
22
x
i1
n
2bxiyiyi2转化为平均数x,y
i1n
i1
2
nn
n[a(ybx)]n(ybx)b
2
2
x
i1
2
i2
2bxiyiyi2配方法
i1n
i1n
n
nn
n[a(ybx)]2ny2nbxynb2xb2xi22bxiyiyi2展开
i1
i1
i1
n[a(ybx)]b(xnx)2b(xiyinxy)(yi2ny)整理
2
2
2ii1
i1
i1n
n
2
nn
2
n[a(ybx)]b
22
(x
i1
n
i
x)2b(xix)(yiy)(yiy)2用公式(一)、(二)
2
i1
i1
n
变形
n
(xx)(yy)iinn
222i1
n[a(ybx)](xix)b(yy)配方 in
i1i1
(xix)2i1
n
n
(xx)(yy)(xx)(yy)iiiinn2
i122i1(xix)bna(ybx)(yy)inni1i1
(x1x)2(xix)2i1i1
22
配方法
在上式中,共有四项,后两项与a,b无关,为常数;前两项是两个非负数的和,因此
n
要使得Q取得最小值,当且仅当前两项的值都为0.所以aybx,b
(x
i1
n
i
x)(yiy)
或
i
(x
i1
x)
2
b
xy
ii1
n
n
i
nxynx
2
用公式(一)、(二)变形得
x
i1
2
i
三、总结规律
上述推导过程是围绕着待定参数a,b进行的,只含有xi,yi的部分是常数或系数,用到 的方法有:①配方法,有两次配方,分别是a的二次三项式和b的二次三项式;②变形时,用到公式(一)、(二)和整体思想;③用平方的非负性求最小值.④实际计算时,通常是分
步计算:先求出x,再分别计算(xix)(yiy),(xix)或xiyinxy,xi2nxy,
2
i1
i1
i1
i1
nnnn
2
的值,最后就可以计算出a,b的值.