分位数回归的思想与简单应用
第10期
)(总第121期
2009年10月
统计教育Statistical Thinktank
No. 10(SeriesNo. 121) Oct 2009
分位数回归的思想与简单应用
苏
瑜
万宇艳
与普通最小二乘法相比,分位数回归能够更充分反映自变量对不同部分因变量的分布产生不同的影响,摘要:
有着十分广泛的应用。本文对分位数回归的思想做了一个简单的介绍,并将其方法应用于恩格尔定律中,比较分析了异方差和同方差下分位数回归与普通最小二乘法的优劣。分位数回归;普通最小二乘法;恩格尔曲线关键词:
The Idea and Application of Quantile Regression
Su Yu, Wan Yuyan
Abstract:Compared with ordinary least squares, quantile regression can more fully reflect that the dependent variable has different effects in the different parts of the distribution of the independent variables, and has a very wide range of applications. The paper makes a brief introduction to the idea of quantile regression, applying the methods into Engel's law and having a comparative analysis of the good or bad about quantile regression and ordinary least squares under different variance and same variance.
Key Words:Quantile regression, Ordinary least squares, Engel's curve
1引言
回归分析的基本思想就是设法通过使所构建
分位数和自变量之间线性关系的估计方法,其本质是通过分位数取0—1之间的任何值,调节回归平面的位置和转向,让自变量估计不同分位数的因变量,它也能在一定程度代表所有数据的信息,但更侧重于特定区域的数据,如极端位置的数据。
近十几年来,分位数回归的理论和方法在各个领域中都得到了迅速发展,在环境科学方面有城市日死亡率与空气污染集中度的相互关系研究,在生态学方面有不同河流对鲑鱼密度的影响研究,在金融方面有风险价值(VaR )和共同基金的投资类型研究,在经济学中的应用研究包括教育回报、财富分失业持续时间、酒精使用需求以及日间用配不均、电需求问题等。
的方程与样本之间的距离最短来描述因变量的条件分布受到自变量影响的过程。当随机干扰项满足与自身和自变量互不相关且均值为零方差相同的正态分布时,普通最小二乘法(Ordinary Least Squares ,OLS )能够很好地描述自变量对因变量的条件均值的影响过程,且回归系数的估计量具有最佳线性无偏性。但是在实际的经济生活中,上述假设常常不成立,例如,数据服从高峰厚尾的分布或者有显著的异方差等情况,都会导致普通最小二乘法失效。同时,普通最小二乘法只描述了平均的总体信息,不能充分体现整个分布的各部分信息。
为了弥补普通最小二乘法在回归分析中的缺陷,Koenker 和Bassett 于1978年提出了分位数回归(Quantile Regression ,QR ),它提供了因变量的条件
2分位数回归的基本思想
假设随机变量的分布函数为
F (y )=Prob (Y ≤y )
(1)
作者简介:苏瑜,1980年生,河南安阳人,华中科技大学经济学院博士研究生,研究方向为宏观经济学;万宇艳,1981年生,河南安阳人,华中科技大学经济学院博士研究生,研究方向为产业经济学。
第10期苏瑜等:分位数回归的思想与简单应用59
Y 的τ分位数的定义为满足F (y )≥τ的最小y 值,即
Q (τ)=inf{y:F(y )≥τ},0
其中中位数可以表示为Q (0.5)
回归分析的基本思想就是使样本值与拟合值之间的距离最短,对于Y 的一组随机样本{y 1, y 2, …,y n }
样本均值回归是使误差平方和最小,即
n
min ξ∈R
Σ(y i -ξ)2
(3)
i =l 样本中位数回归是使误差绝对值之和最小,即
n
min ∈R
Σy i -ξ
ξ(4)
i =l 样本分位数回归是使加权误差绝对值之和最小,即
min ξ∈R
{Σy i -ξ+Σ(1-τ)y i -ξ}
(5)
i :yi ≥ξ
i :yi≤ξ
(5)式可等价表示为:
n
min Σρ(τy i -)ξ
ξ∈R
(6)
i =l 式中,ρ(τu
)为检查函数(check function ),定义为:ρ(τu
)=(τ-I (u
其中,I (z )=0是指示函数(indicator function ),z 是条件关系式,当z 为真时,(I z )=1;当z 为假时,(I z )=0。同线性方程y =kx 相比较,τ-(I u <0)相当于直线的斜率k ,可以看出,ρ(τu
)为分段函数,如图1所示。图1检查函数示意图
现假设因变量Y 由k 个自变量组成的矩阵X 线性表示,对于条件均值函数E (Y │X =x ) =x i ′β,通过求解(8)式得到参数估计值
n
β赞=argmin β∈R k {Σ(y i -x i ′β)2}
(8)
i =l 对于条件分位数函数,通过求解(9)式得到参
数估计值
n
β赞τ=argmin β∈R k {Σρ(τy i -x ′i β)τ
}(9)
i =l
式中,arg min{·}函数表示取函数最小值时β的取值。
与普通最小二乘法相比,分位数回归具有四个方面的优势:(1
)分位数回归特别适合具有异方差性的模型;(2)分位数回归并不需要对模型中的随机干扰项做任何分布的假定,在干扰项非正态的情形下,分位数估计可能比普通最小二乘估计更为有效;(3)与普通最小二乘法通过使误差平方和最小得到参数的估计不同,分位数回归则通过使加权误差绝对值之和最小得到参数的估计,因此估计量不易受到异常值的影响,从而估计更加稳健;(4)与普通最小二乘法只拟合一条曲线不同,分位数回归可以拟合一簇曲线,当自变量对不同部分的因变量的分布产生不同影响时,能更加全面的刻画条件分布
的大体特征。
3分位数回归的简单应用
1857年,德国统计学家恩格尔(Ernst Engel )在
对235个比利时家庭的预算开支数据进行统计分析后,对消费结构的变化得出一个规律:一个家庭收入越少,家庭收入中用来购买食物的支出所占的比例就越大,随着家庭收入的增加,家庭收入中用来购买食物的支出比例则会下降,这又称为恩格尔定律(Engel's law )。推而广之,一个国家越穷,每个国民的平均收入中用于购买食物的支出所占比例就越大,随着国家的富裕,这个比例呈下降趋势。
本文仿效Koenker (2005)在《分位数回归》一书中以恩格尔定律为例阐述分位数回归的基本思想,重新收集原始数据(见表1),并在方法上加以延伸,对分位数回归与普通最小二乘法分别在同方差与异方差的情形下进行比较分析,以展示分位数回归
的独有魅力。
3.1异方差情形下的QR 与OLS
利用Eviews 6.0,其中普通最小二乘法估计的线性模型如下:
Y =150.3666+0.481066X
(33.73587)
R 2=0.830065F =1138.109
60
苏瑜等:分位数回归的思想与简单应用
2009年
表1
恩格尔曲线基本统计量(235个观测值)
家庭收入(X )食品支出(Y )均值982.4744623.0017中位数883.9900582.5400极大值4957.8302032.680极小值377.0600242.3200标准差519.2323274.1640偏态系数2.7807391.715930峰态系数17.634357.669237Jarque-Bear 值
2399.882
328.7986
但从y 和x 观测值的散点图(见图2)可以发现数据中存在异方差。在上式回归的基础上,做White 检验。因为TR 2=176.1140>x 20.05(2)
=6,所以存在异方差。利用Eviews 6.0,在τ值依次为0.05、0.1、0.25、0.5、0.75、0.9、0.95处做分位数回归,得到一组回归方程和曲线,其结果如下:
表2
恩格尔曲线在异方差情况下QR 与OLS 的系数比较
τ
αβ0.05124.87900.343360**0.1110.13750.401768**0.25
95.486550.474100**QR
0.591.973680.547947**0.7562.384900.644028**0.967.350970.686301**0.95
64.103550.709066**OLS
150.3666
0.481066**
由表2可知,随着τ取值逐渐变大,自变量X 的回归系数β也逐渐递增,变化范围从0.34336到0.709066,全距为0.365706。在0.05的分位数上,每增加1个单位的X ,Y 增加0.343360个单位;而在0.95的分位数上,每增加1个单位的X ,Y 增加0.709066个单位。因变量Y 从低水平到高水平,自变量X 所起的作用越来越大。
图2异方差情形下QR 曲线与OLS 曲线
由图2可知,从右下方到右上方,随着取值逐渐变大,7条QR 曲线的斜率逐渐增大,其间的间隙先宽后窄,间隙较宽说明两条分位数回归曲线间的数据比较稀疏,间隙较窄说明两条分位数回归曲线间的数据比较密集。另外,OLS 曲线为图中的虚线,中位数曲线为图中的粗实线,中位数曲线位于OLS 曲线的上方说明食品支出的数据是右偏分布,而非正态分布。可见,在异方差情形下,QR 比OLS 能够提供更多有用的信息。
3.2同方差情形下QR 与OLS
为克服异方差,对和同取对数,得到两个新变量和。利用Eviews 6.0,其中普通最小二乘法估计的线性模型如下:
LnY =0.571425+0.851879LnX
(41.99496)
R 2=0.8833F =1763.577
利用Eviews 6.0,在τ值依次为0.05、0.1、0.25、0.5、0.75、0.9、0.95处做分位数回归,得到一组回归方程和曲线,其结果如下:
表3恩格尔曲线在同方差情况下QR 与OLS 的系数比较
τ
αβ0.050.6074780.811292**0.10.6983830.804107**0.25
0.4953500.849463**QR
0.50.4272200.875296**0.750.3315010.901792**0.90.4777500.890870**0.95
0.2897270.922218**OLS
0.571425
0.851879**
由表3可知,随着τ取值逐渐变大,自变量X 的回归系数β并没有发生显著的变化,变化范围从0.804107到0.922218,全距为0.118111。这说明在因变量LnY 的不同水平上,自变量LnY 的影响力并没有发生显著的变化。
无论因变量LnY 处于哪一个水平,每增加一个单位自变量LnY ,都会使LnY 增加0.85单位左右的大小。
由图3可知,7条QR 曲线与OLS 曲线几近于平行。中位数曲线与OLS 曲线十分接近,这说明在一组没有极端值的数据中,平均数和中位数的取值常常很接近。可见,在同方差情形下,QR 并不比
OLS 有优势。
第10期苏瑜等:分位数回归的思想与简单应用61
准确行研究,挖掘出更多有用的信息,从而更真实、地反映自变量与因变量之间的相互关系。
参考文献
[1]Koenker R ,Bassett G W. Regression quantiles [J].Econometrica ,
1978,46:33-50. [2][3][4]
Koenker R ,Hallock K F. Quantile regression :an introduction [J].Journal of Economic Perspectives ,2001,15:143-156.
Koenker R. Quantile regression [M].Cambridge :Cambridge Uni -versity Press ,2005,London.
邓露,郑展. 一种刻画不同水平研究对象的统计方法:分位数回2009(4):154-155. 归[J].统计与决策,
图3同方差情形下QR 曲线与OLS 曲线
4结论
通过以上实例可以看出,分位数回归可视为普
[5]陈建宝,丁军军. 分位数回归技术综述[J].统计与信息论坛,2008
(3):89-96.
[6]李育安. 分位数回归及应用简介[J].统计与信息论坛,2006(5):35-38.
通最小二乘法的有益补充。当普通最小二乘法的前提假定不能满足时,分位数回归则提供了一种新的
(责任编辑:王锋) 统计方法和视野,通过对因变量分布的不同部分进
!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 上接第57页
从回归结果可以看出,在1994年经过财政改革后,我国的建设性支出每增加1单位,国债的净发行量国债基本上是用于建设性支出的。就增加0.93单位,
3.5Granger 因果关系检验
本区间内,由于我国的建设性支出和国债净发行量(CONS 和DB )均为I(1)过程并具有协整关系,故可对其进行Granger 因果关系检验。检验结果见表。
Granger 因果关系检验结果显示,在滞后1期、2期和3期, 建设性支出是国债净发行的Granger 原因。
滞后阶数
根据协整关系检验结果,在1994-1006年的样
表4建设性支出和国债净发行量之间的Granger 因果关系检验结果
零假设
F 值
LNCONS 不是LNDB 的Granger 原因LNDB 不是LNCONS 的Granger 原因
3.094515.50983
1
概率0.100060.04083
F 值9.376560.80604
2
概率0.010470.48413
F 值17.75137.60514
3
概率0.008940.03958
4结论
国债政策作为国民收入分配体系中的一个重
[1]
报,2005(3)22-25.
参考文献
张宇. 国债、债务负担与代际公平[J].吉林财税高等专科学校学
要组成部分,对收入分配有影响。本文首先论述国债代际负担的有关理论,然后从两个方面进行了理论分析,最后通过协整分析和Granger 因果关系检验实证地分析了国债的支出方向,得出在1994年后国债与建设性支出是协整的,Granger 因果关系检验结果显示,在滞后1期、2期和3期, 建设性支出是国债净发行的Granger 原因。我国国债是用在了建设性支出方面,从而解除了人们的心中疑惑。虽然我国的国债是用在建设性支出方面,但是对国债资金的利用效率怎么样和如何提高使用效率还有待于进一步研究。
[6][5]
王晓岚. 国债代际负担研究[J].投资研究,1999(5):11-[2]杨大楷,
17.
[3]赵巧英和张华国债的收入分配效应分析[J].华中农业大学学
报报(社会科学版),(总37期)2000(3):35-37.[4]
徐利君, 朱柏铭. 国债资金真实投向的实证分析[J].财经研究, 2003(5):22-26.
宋永明, 梁春满. 国债资金投向论[J].数量经济技术经济研究, 2001(8):30-33.
易丹辉. 数据分析与Eviews 应用[M].北京:中国统计出版社,2002:151-156.
(责任编辑:扈媛媛)