浅谈加权最小二乘法及其残差图
浅谈加权最小二乘法及其残差图 ——兼答孙小素副教授
何晓群 刘文卿
ABSTRACT
The paper introduces some problems in relation to weighted least square regression ,and answers a question about weighted residual plots.
关键词:异方差;加权最小二乘法;残差图;SPSS
一、引言
好几年没有翻《统计研究》了。最近,有一同行朋友打电话告诉我《统计研究》2005年第11期上刊登了一篇有关我与刘文卿合作编著的《应用回归分析》(2001.6. 中国人民大
学出版社)教材的文章。赶紧找到这期的《统计研究》,看到其中孙小素副教授的文章《加权最小二乘法残差图问题探讨——与何晓群教授商榷》一文,以下简称《孙文》。认真拜读后感触良多。首先衷心感谢孙小素副教授阅读了我们《应用回归分析》拙作的部分章节,同时感谢《统计研究》给我们提供这样一个好的机会,使我们能够借助贵刊对加权最小二乘法的有关问题谈谈更多的认识。
《孙文》谈到《应用回归分析》教材中有关加权最小二乘法残差图的问题。摆出了与加权最小二乘法相关的三类残差图,指出第三类残差图的局限性。直接的问题是三类残差图的作用,而更深层的原因应该是对加权最小二乘法统计思想的理解和认识上的差异。
二、对加权最小二乘法的认识 1. 加权最小二乘估计方法
拙作《应用回归分析》中对加权最小二乘法有详尽的讲述,这里仅做简要介绍。多元线
(1)
普通最小二乘估计就是寻找参数 的估计值 使式(1)的离差平方和 达极小。式(1)中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项 等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。
然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项 的方差 大的项,在式(1)平方和中的取值就偏大,在平方和中的作用就大,因而普通最小二乘估计的回归
线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由式
(1)求出的 仍然是 的无偏估计,但不再是最小方差线性无偏估计。
加权最小二乘估计的方法是在平方和中加入一个适当的权数 ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为:
(2)
加权最小二乘估计就是寻找参数 的估计值 使式(2)的离差平方和 达极小。所得加权最小二乘经验回归方程记做
(3)
理论上最优的权数 为误差项方差 的倒数,
(4)
误差项方差大的项接受小的权数,以降低其在式(2)平方和中的作用; 误差项方差小的项接受大的权数,以提高其在平方和中的作用。由(2)式求出的加权最小二乘估计 就是参数 的最小方差线性无偏估计。
一个需要解决的问题是误差项的方差 是未知的, 因此无法真正按照式(4)选取权数。在实际问题中误差项方差 通常与自变量的水平有关, 可以利用这种关系确定权数。例如 与第j 个自变量取值的平方成比例时, 即 =k 时,
(5)
更一般的情况是误差项方差 与某个自变量 取值的幂函数 成比例,即 =k ,其中m 是待定的未知参数。此时权数为
(6)
这时确定权数 的问题转化为确定幂参数m 的问题,可以借助SPSS 软件解决。《应用回归》书中和《孙文》中都讲了这个方法,本文不再重述。需要注意的是,在实际问题中比例关系 =k 只是近似的,式(6)确定的权数 只是式(4)最优权数的近似值,因此所得的参数最小二乘估计也只是近似的最小方差线性无偏估计。
2. 变量变换的加权最小二乘法
《孙文》中谈到:加权最小二乘法的实质是要对原始数据实施变换,获得新的解释变量和被解释变量,变换的方法是:
( 表示变换后的被解释变量) (7)
,h=0,1,2,„„,p ( 是对应于原始变量 的新解释变量) (8)
对变换后的变量( )重新进行普通最小二成估计(注意,此处的回归模型不包含常数项,增加了数据变换后派生出的一个新解释变量 ),即可得到加权最小二乘法的经验回归方程:
(9)
以上是《孙文》中对加权最小二乘法的解释,其中公式(7)、(8)、(9)分别对应《孙文》中的公式(3)、(4)、(5)。
3. 两种方法的异同
相同之处。显然,式(3)与式(9)两个回归方程是等价的,把式(3)同时乘以 后就转化为式(9)。
拙作《应用回归分析》在正文中对加权变换残差图完全没有提及,不过“本章小结与评注”中的一句话“如果把误差项加权,那么加权的误差项 是等方差的”,可以看作是对加权变换残差 的诠释。
拙作《应用回归分析》关于加权普通残差图的内容是这样讲述的:“为了画残差图,需要计算出加权最小二乘估计的残差 ,这需要重新做回归。
第一步,在Weight Estimation对话框的Options 选项中,保存最优权作为新的变量。 第二步,进入线性回归对话框,点选左下角的WLS ,线性回归对话框会增加一行Weight 变量框,把在第一步保存的最优权变量选入。
第三步,点选线性回归对话框的Save 选项,保存残差变量,运行。
第四步,以自变量x 为横轴,以加权最小二乘估计的残差 为纵轴画残差图”
这段内容的直接作用是介绍加权普通残差图的绘制方法,其间接作用是介绍SPSS 软件加权最小二乘估计功能的使用方法,也就是“第二步”的内容。在SPSS 软件中,加权最小二乘回归具有普通最小二乘回归的很多功能,包括共线性诊断、异常值判定、自相关分析、区间预测等等,这些功能都是以“第二步”的内容为基础的,计算残差只是众多功能之一而已。
用图形来评价结果往往只是一种粗糙的辅助手段。正像我们在拙作《应用回归分析》第121页“本章小结与评注”上强调指出:“关于异方差性的诊断,方法很多,至于哪种检验方法最好,目前还没有一致的看法。残差图方法直观但较粗糙。等级相关系数检验要比残差图检验方法更为可取。”
四、对异方差问题的深入思考
拙作《应用回归分析》教材定位于统计学专业的本科生或非统计学专业的硕士生,作为3学分54学时的课程教材,限制篇幅和深度,教材中对一些问题不可能全面展开叙述,在此对异方差的一些问题再做进一步探讨。
当回归模型存在异方差时,加权最小二乘估计只是对普通最小二乘估计的改进,这种改进有可能是细微的,不能理解为加权最小二乘估计会得到与普通最小二乘估计截然不同的回归方程,或者一定有大幅度的改进。对本例的数据,普通最小二乘的经验回归方程是 ,加权最小二乘的经验回归方程是 ,两者相差不大。比较加权普通残差图与普通残差图的差异就可以如实反映这种改进幅度。看来需要强调指出的是这个改进幅度不是指 是否变为等方差了,而是指回归方程也就是回归系数估计值的差异幅度,在这一问题上加权普通残差图是优于加权变换残差图的。实际上,可以构造出这样的数据,回归模型存在很强的异方差,加权回归后 变为等方差了,但是普通最小二乘与加权最小二乘所得的回归方程却完全一样。
加权最小二乘以牺牲大方差项的拟合效果为代价改善了小方差项的拟合效果,这也并不总是研究者所需要的。在社会经济现象中,通常变量取值大时方差也大,在以经济总量为研究目标时,更关心的是变量取值大的项,而普通最小二乘恰好能满足这个要求。动态数据的指数平滑法把近期数据加上大的权数,强调近期数据的贡献就是这样的统计思想。
加权最小二乘估计的理论权数是式(4),但是实际使用的只能是近似的,通常取为某个自变量 平方的倒数,即 。对本例的数据,取 ,加权最小二乘回归方程为 ,判定系数 =0.933。而取最优权数 所得加权最小二乘回归方程为 , =0.936,两者非常接近。所以当手头没有SPSS 软件时,直接取 是一个可行的方法,这时对加权最小二乘回归的效果要用
残差图等方法验证。如前所述,当用变换变量方法做加权最小二乘估计时,选取 的一个好处是回归模型中仍然含有常数项,这时不同软件对回归拟合优度检验的结果就一致了。
异方差问题是社会经济现象建立回归模型时的普遍问题,加权最小二乘估计是解决异方差的一个常用方法,另外一个方法是当模型存在异方差性时, 人们往往还考虑对因变量作变换, 使得对变换过后的数据误差方差能够近似相等, 即方差比较稳定, 所以通常称这种变换为方差稳定化变换,常见的变
(1)如果 与 存在一定的比例关系, 使用 ;
(2)如果 与 存在一定的比例关系, 使用 ;
(3)如果 与 存在一定的比例关系, 使用
方差稳定变换在改变误差项方差的同时,也会改变误差项的分布,改变回归函数的形式。因而当误差项服从正态分布,因变量与自变量之间遵从线性回归函数,只是误差项存在异方差时,应该采用加权最小二乘估计,以消除异方差的影响。当误差项不仅存在异方差,而且误差项不服从正态分布,因变量与自变量之间也不遵从线性回归函数关系时,应该采用方差稳定变换。
变换变量的加权最小二乘估计方法可以看作方差稳定变换的一个特例,是同时变换自变量与因变量的方法,对因变量的变换是线性的,因此只改变误差项的方差,而不改变分布。从统计思想看,方差稳定变换是真正消除了异方差。加权最小二乘并不是去真正消除异方差,而只是通过加权的方法消除异方差对回归估计的不良影响,虽然存在异方差但是也能够构造良好的估计量,这体现了统计方法的灵活多样性。如果认为统计方法只能适用于等方差的情况,遇到异方差时一定要先把数据变换为等方差才能处理,这种认识就显狭隘和片面了。
异方差、自相关、共线性是计量经济学建立经济回归模型常遇到的问题,拙作《应用回归分析》中重点讲的是共线性问题,用一章的内容讲述共线性的危害及识别方法,再用一章的内容讲述用SPSS 软件做岭回归解决共线性问题的详细方法,而淡化了对异方差和自相关的讲述。自相关虽然是很重要的内容,但是对此问题的深入探讨属于时间序列分析的内容,作为回归分析教材只是做简要介绍。如前所述,即使回归模型存在很强的异方差,但是加权最小二乘所得的回归方程可能只是对普通最小二乘的微小调整,并且这种调整还不一定是研究者所需要的,所以我们认为异方差对回归模型的危害远不如共线性严重。这样就把异方差、自相关和异常值这三个问题合并为教材的一章内容,仅对重要的方法做简要介绍,一些没能在正文中讲述的问题则在“本章小结与评注”中做简要的说明或提示。这种认识是否正确,处理方式是否妥当,还请孙小素副教授和广大同行不吝指正。