基于核密度估计的上证A股收益率分析
第六章 基于核密度估计的上证A股收益率分析
一、模型的相关理论知识
(一)问题的提出
经济计量研究中常用的是参数估计,即假定经济变量之间具有一定的函数关系,且函数形式是可以确定的,可以写成带参数的形式进行估计,经典的线性回归和非线性回归就属于参数估计方法。但经济变量之间的关系未必是线性关系或可线性化的非线性关系,而变量之间的真实关系到底是什么又很难确定。因而当模型及参数的假定与实际背离时,就容易造成模型设定误差。此时,基于经典假设模型所做出的预测,很难达到预期的效果。针对该问题,非参数估计方法提供了最佳的解决办法,它使我们能寻找到最精确的非线性系统来描述变量之间的内在关系。非参数估计的回归函数的形式可以任意,没有任何约束,解释变量和被解释变量的分布也很少限制,因而有较大的适应性,其目的在于放松回归函数形式的限制,为确定或建议回归函数的参数表达式提供有用的工具,从而能在广泛的基础上得出更加带有普遍性的结论。核估计就是一种非参数估计方法,主要用于对随机变量密度函数进行估计。 (二)核密度估计方法的原理
设x1,x2, xn是从具有未知密度函数f(x)的总体中抽出的独立同分布样本,要依据这些样本对每一x去估计f(x)的值。
密度估计最基本的方法是直方图估计,我们可以从直方图估计导出密度核估计。作直方图时,先用点{ai}i=1把直线分成若干小的计数区间。这样,计数区间的端点与宽度都是固定的。记Ni为样本点x1,x2, xn落在第i个计数区间[ai,ai+1)里的个数,则密度函数f(x)在[ai,ai+1)里的函数估计值就取为:
Ni
,ai≤x
n(ai+1-ai)
这样的直方图估计结果是阶梯函数,如果对每个x,各作一个以x为中点的小计数区间[x-h,x+h), 再对落在该计数区间的样本点计数,设为N,则(x,h)
ˆ(x)=f
k
ˆ(x)=N(x,h)。其与直方图不同在于它的计数区间端点划分不是密度估计为:f
2nh
固定的,而是随x而变,可以自始至终保持x点在计数区间中间。不过此时计数
⎧0.5 当-1≤x
区间宽度h一般是固定的。如果引进均匀核函数K0(x)=⎨,则
0 其他⎩1n⎛x-xi⎫ˆK上述变端点计数区间的密度估计可写为: f(x)=∑0 ⎪。 nhi=1⎝h⎭
后来Parzen(1962)提出,可以将这种核函数形式放宽限制,只须积分为1(最好还为恒正)即可。这就导出了一般的密度核估计:
1n⎛x-xi⎫ˆ f(x)=∑K ⎪ (6-1) nhi=1⎝h⎭
其中K(∙)为核函数,h为窗宽。
另外也可以从经验分布函数导出密度核估计。
1
经验分布函数F(x)=(x1,x2, ,xn中小于x的个数)也是一种计数,不过从-∞
n
一直计到x为止。利用它表示一个以x为中心,窗宽为2h计数区间里的样本点数,于是密度估计为:
x+h+∞
x-xi11x-t1n
ˆf(x)=[F(x+h)-F(x-h)]h=dF(t)=K()dF(t)=K()∑⎰⎰2hx-hhhnhi=1h-∞
对核函数形式放宽了,一般来说,要求核函数满足以下条件: ⎧K(x)≥0,+∞K(x)dx=1
⎰-∞⎪
+∞⎪2
supK(x)
K(x)⋅x=0⎪limx→∞
⎩ 对于一般概率密度函数,这些条件是能满足的,所以可以选一个概率密度函数作核函数。对窗宽h的要求,显然样本数越多,窗宽应越小,但不能太小,即h是n的函数,且limh(n)=0,limnh(n)=n→∞。在上述要求的核函数及窗宽条件
x→∞
n→∞
ˆ(x)是f(x)的渐近无偏估计与一致估计。 下,密度f(x)的核估计f
(三)几种常用的和函数
下面介绍几种常用的核函数:
⎧0.5 当-1≤x
K(x)=1,均匀核0, ⎨
0 其他⎩
2,高斯核K1(x)=(2π)-exp(-x22), 3,Epanechnikov核K2(x)=0.75(1-x2)+, 4,三角形核K3(x)=(1-x)+,
152
((1-x)+)2, 16703
6,六次方核K5(x)=((1-x)+)3。
81
通常在大样本的情况下,非参数估计对核函数的选择并不敏感,但是,窗宽h 的选择对估计的效果影响较大。一般来说,窗宽取得越大,估计的密度函数就越平滑,但偏差可能会较大。如果选的h太小,估计的密度曲线和样本拟合得较好,但可能很不光滑,即方差过大。所以,窗宽的变化不可能既使核估计的偏差减小,同时又使核估计的方差较小。因此,最佳窗宽的选择标准必须在核估计
ˆ(x))达到最小。选择的偏差和方差之间作一个权衡,即使积分均方误差AMISE(f
5,四次方核K4(x)=
h的方法有许多,比如交错鉴定选择法,直接插入选择法,在各个局部取不同的
ˆ(x)等等1。 窗宽,或者估计出一个光滑的窗宽函数h
ˆ(x))=E(fˆ(x)-f(x))2dx=[(Efˆ(x)-f(x))2+Var(fˆ(x))]dx AMISE(f
⎰⎰
1
见于吴喜之.非参数统计[M].中国统计出版社,p188-p189.
ˆ(x)))2+Var(fˆ(x))]dx (6-2) =⎰[(Bias(f
可以证明,在很一般的正则条件下,使积分均方误差极小化的任何h取值一
-二、案例分析:基于核密度估计的上证A股收益率分析
(一)案例背景材料
中国的股票市场经过二十多年的发展,已经取得了令人瞩目的成就。在市场参与者各方的共同努力之下,市场日渐走向成熟和完善,对中国股票市场的研究也日渐深入和丰富多彩。几乎所有的关于市场的学术研究中都会涉及到股票的收益率,而在股票市场,对收益率随机过程的充分认识是做出正确投资决定的基础,因为它提供了有关资产风险的基本信息。
在现代金融经济学中,线性范式一直占据着主导地位,许多经典理论都是以正态分布或对数正态分布为基础建立的。股市收益率作为反映股票市场波动性的指标,在描述股价行为的经典计量模型中,通常被假定服从正态分布。但是许多计量金融学家对这一经典假设做了大量的研究并发现,收益率的分布并不服从正态分布这一假设。事实上,大多数收益率的变化存在很明显的尖峰现象,也就是说相对正态分布而言,在均值附近的数据点特别多。许多学者认为这只不过是由一些“异常值”所引起,从而在统计分析中将这些“异常值”去掉。例如,国内学者陶亚民认为,上海股市收益率分布是服从正态分布的,但这却是在剔除了“异常点”的基础上得到的结论。然而Mandelbrot认为将这些“异常值”值从数据中去掉是不可取的。因为“异常值”的出现并不是一种偶然现象,尖峰和厚尾现象几乎是所有股票收益率数据所共有的。这说明“异常值”本身反映了股票收益率并不服从正态分布这一假定。陈启欢也通过实证研究的方法得到我国股市收益率分布曲线并不服从正态分布。
因此,在收益率分布非正态的情况下,本案例利用非参数估计中的核密度估计方法来对上证A股指数收益率的密度进行估计。 (二)数据来源及说明
本案例采用wind资讯公司提供的2005年1月至2009年11月12日期间我国上证A股日收盘指数,共计1180个观测值为样本,运用密度估计模型来研究股指数收益率波动。
2
见于罗素.戴维森,詹姆斯.G.麦金农.计量经济理论和方法[M]上海财经大学出版社.p580-p581.
(三)模型建立与估计结果
Pt+1-Pt
,Pt
Pt
是第t日的收盘指数,Pt+1是第t+1日的收盘指数。另外,本案例的模型估计是通
本模型的建立,采用上证A股指数日收益率Rt+1为变量。Rt+1=
过使用R软件来实现的。 1、收益率分布的正态性检验
本案例利用Shapiro-Wilk(夏皮罗-威尔克)W统计量对样本作正态性检验。在R软件中,函数shapiro.test()提供W统计量和相应的p值,当p值小于某个显著水平α(比如0.05)时,则认为样本不是来自正态分布的总体;否则认为样本是来自正态分布的总体。在此,假设上证A股指数收益率服从正态分布,得出的检验结果如下:
Shapiro-Wilk normality test data: x
W = 0.8, p-value
从上述结果可以看出,上证A股指数收益率不服从正态分布。 2、核函数与窗宽的选择
由于核函数在核密度估计中不敏感,满足核函数条件的高斯核、均匀核、Ep-anch-nikov核、Biweight核的最优性几乎一致(Prakasa Rao,1983)。因此,本文仅选取高斯核作为核函数进行估计。
对于窗宽的选择,本案例先由(3)式和(4)式分别计算得出h1=0.006376,
(x))h2=0.003952。再在选用高斯核函数的条件下,根据使积分均方误差AMISE(fˆ达到最小法则,得到高斯核估计的最优窗宽为h1=0.006376。 (四)非参数估计下的上证A股指数收益率密度函数的实际应用
在核估计的核函数与窗宽都确定后,就可以得到上证A股指数收益率的核估
计密度函数的确定形式:
n⎡1⎛x-xi⎫2⎤1ˆ(x)=(6-5) fexp⎢- ⎪⎥ ∑1181*0.006376*2πi=1⎢⎣2⎝0.006376⎭⎥⎦
在非参数核密度估计的情况下,收益率的期望和方差为:
∞∞
⎛(x-xi)2⎫1n1ˆ⎪dxEX=⎰xf(x)dx=∑xexp -2⎰ ⎪ni=12h-∞2h⎝⎭-∞
(6-6)
∞2nn
⎛y⎫111 ⎪=∑(hy+x)exp-dy=xi∑i 2⎪ni=12π-⎰ni=1⎝⎭∞
⎫1n22
⎪dx=h+∑xi (6-7) ⎪ni=1⎭
2
Var(X)=E(X2)-[E(X)] (6-8) 通过公式(6-6),(6-7),(6-8),可以计算出核估计密度函数的期望与方差,见表1:
2
2
∞2n
⎛(x-x)112iˆ(x)dx=E(X)=⎰xfxexp -∑2⎰ ni=12πh-∞2h⎝-∞
∞
表1 上证A股指数收益率非参数估计与实际的收益率的统计特征比较
从表1
但是方差却不同,核估计的方差比实际数据的方差偏大。
由于本案例采用的是高斯核(正态核)函数,所以可以推导出核估计条件下的收益率分布函数是:
1n⎛x-xi⎫ˆ(≤x)=∑Φ F(x)=PrX ⎪ (6-9)ni=1⎝h⎭
由公式(6-9)可以知道在核估计密度函数下的收益率分布函数形式,因此我们就可以计算出收益率落在不同区间时概率值的大小,计算结果见表2:
2.193%,而上涨大于0.05的可能性是1.574%,下跌的可能性大于上涨的可能性。这说明近年来我国上证A股市场不景气,我们认为可能是受到金融危机的影响。 (五)结论
非参数回归函数估计方法是近20年来现代统计学发展的一个重要方向,它改变了传统统计学的格局,对未知分布的数据模型的处理及不完全数据的处理提供了一种新的统计方法。在非参数估计时,不固定函数的形式,也不设置参数,函数在每一点的值都由数据决定,因而有较大适应性。同时,在抽取样本对总体进行估计时,不必依赖于样本所从属的总体的分布样式,可以广泛地运用于不同类型的总体。所以,非参数估计方法在广泛的基础上,得出更加带有普遍性的结论。
本案例利用非参数核密度估计法对上证A股指数的收益率分布形式进行了实证研究。研究发现,非参数核密度估计方法能够较好地描述股票收益率分布尖峰厚尾的特征,对收益率分布给出一个比较准确的拟合效果。在此基础上,本案例通过计算还得到了在非参数估计下的收益率的期望和方差,以及收益率落在各个区间的概率值。通过比较分析各个区间的概率值,揭示了近年来上证A股市场的特征。
参考文献:
[1]李子奈,叶阿忠.高等计量经济学[M].北京:清华大学出版社,2000. [2]叶阿忠.非参数计量经济学[M].天津:南开大学出版社,1995.
[3]罗素戴.维森,詹姆斯.G.麦金农.计量经济理论和方法[M].上海财经大学出版社,2006. [4]张世趟,程小军,苏明.基于非参数方法的A股指数估计[J].南方金融,2009, (1):25-27. [5]薛毅,陈立萍.R软件建模与R软件[M].清华大学出版社,2007. [6]吴喜之.非参数统计[M].中国统计出版社,2006.
[7]陶亚明,蔡明超,杨朝军.上海股票市场收益率分布特征的研究[J].预测,1999,(2):57-58. [8]区诗得,刑国东.股票收益率密度的非参数估计及投资策略[J].理论新探,2006, (3). [9]陈启欢.中国股票市场收益率分布曲线的实证[J].数理统计与管理,2002, (5):9-11.
附录
程序命令:
(1)在EXCEL中计算收益率;
(2)把EXCEL格式的数据另存为文本数据,并命名为shuju.txt,存入C盘; (3)在R软件中调入foreign程序包; (4)用R软件读入数据,命令为
sj
x
结果为: Shapiro-Wilk normality test data: x
W = 0.8, p-value
(6)在R软件中进行五数总括(为下面画正态分布和计算窗宽做准备),命令为 fivenum(x)
结果: -0.221935690 -0.008411541 0.002237005 0.012307580 0.342559766 最小值 下四分位数 中位数 上四分位数 最大值
(7)调入核函数软件包kernsmooth
(8)选择核函数形式,三种核函数与正态函数做比较,命令为 plot(bkde(x,kernel="normal"),type="l",col="blue") #画高斯核函数 lines(density(x,kernel=c("epanechnikov")),type="l",col="red") # Epanechnikov核
lines(density(x,kernel=c("triangular")),type="l",col="green") #四次方核
w
lines(w,dnorm(w,mean(x),sd(x)),col="purple") #画正态分布 (9)窗宽选择
H1= 0.006377008 H2= 0.003953104
plot(bkde(x,bandwidth=0.006377008),type="l",col="blue") #在H1窗宽下的高斯核函数图
lines(density(x,bw=0.003953104),type="l",col="red") #在H2窗宽下的高斯核函数图 lines(w,dnorm(w,mean(x),sd(x)),col="purple") #画正态分布图 (10)计算核估计的均值和方差,结果见EXCEL表格 (11)上证A股指数收益率的区间概率值 按照论文中公式计算结果见Excel表格
(撰写人:黄雯 张焕明 石绍炳)