统计预测与决策论文
《预测与决策》期末论文
组合预测模型在全国能源消耗总量中的应用
班级:统计1111 学号:[1**********] 姓名:郝海芳
成 绩
摘要:组合预测理论及建模技术对于信息不完备的复杂经济系统具有一定的实用性,鉴于能源消费系统的复杂性及非线性的特征,本文以我国1978-2008年的全国能源消耗总量数据为基础,建立了ARIMA预测模型、灰色预测模型、三次多项式预测模型和基于这三种模型的组合模型,并进行了精度比较,建立了我国未来能源消费量的组合预测模型能源影响着我国社会经济的稳定持续发展,对未来能源消耗的准确预测具有重要的意义。最后选择最优的组合预测模型对2009-2011年的全国能源消耗总量进行预测。结果表明,该模型可以作为我国未来能源消费量预测的有效工具。
关键词:ARIMA模型;灰色预测模型;三次多项式;组合模型;能源消耗
一、引言
能源是国民经济发展和人民生活水平提高的重要物质基础,能源短缺曾经长期制约我国经济的发展。近几年由于能源工业的发展,短缺局面虽然得到了缓解,但从长远来看能源供需形势仍然非常严峻,因此做好未来能源消费预测分析,为能源规划及政策的制定提供科学的依据,对于保持我国社会经济健康、持续、稳定发展具有重要的理论与现实意义。
本文利用《中国统计年鉴》得到31期全国能源消耗总量y的时间序列如下表一所示:
二、预测方法介绍
(一) ARIMA模型的基本原理
ARIMA模型是Box和Jenkins1970年提出的以随机理论为基础的时间序列分析方法,又称为“Box-Jenkins模型”,这以模型在经济领域的预测分析中得到了广泛的应用。时间序列是依赖时间t的一组随机变量,构成该时序的单个序列值虽然具有不确定性,但对整个时间序列来说,它的变化却有一定的规律性,可以用相应的数学模型来近似描述。ARIMA模型有三种基本类型:自回归模型、移动平均模型、单整自回归移动平均模型。
单整是指将一个时间序列有非平稳性变为平稳性所要经过的差分的次数,这是对非平稳时间序列进行时间序列分析的必经步骤。假设一个随机过程含有d个单位根,其经过d次差分之后可以变换为一个平稳的自回归移动平均过程。则该随机过程称为单整自回归移动平均模型。模型中AR称为自回归分量,P为自回归分量的阶数;MA为移动平均分量,q为移动平均分量的阶数;I为差分,d
为使时间序列具有平稳性所需要的差分次数。
p阶自回归过程AR(p)的一般表达式为:
Xt1Xt12Xt2pXtpt 其中t白噪声过程。
q阶的移动平均过程MA(q)可以表示为:
Xtt1t12t2Xt01Xt12Xt2
(二)灰色预测法
qtq,t为白噪声过程。 pXtpt1t12t2
qtq
ARIMA( p,d, q)模型一般表达式为:
灰色预测法是一种对含有不确定因素的系统进行预测的方法。一般是利用时间序列数据,通过建立GM(1,1)模型进行预测。灰色预测模型的预测步骤如下:
1.首先对原始时间序列数据x(0),做一次累加生成,得到新的序列x(1)
dx(1)
ax(1),得到参数a和 2.利用一次累加生成序列拟合微分方程:dt'(1)
3.解微分方程得到预测模型函数:X(k1)[X(0)(1)]eak
aa'(1)'(0)
4.将得到的X序列进行一次累减得到预测序列X
5.利用历史数据对数据模型进行精度检验,若通不过检验,则利用残差对原模型进行修正。
6.通过预测方程进行预测。
(三)组合预测模型
不同的预测方法根据相同的信息,往往会提供不同的结果,如果简单的将误差较大的一些方法舍弃掉,将会丢弃一些有用的信息,使得模型的精度不高。组合预测法是指通过建立一个组合预测模型,把多种预测方法所得到的预测结果进行综合。由于组合模型能够较大限度地利用各种预测样本信息,所以它比单项预测模型考虑问题更系统、更全面,因而能够有效地减少单个预测模型受随机因素的影响,可以提高预测的精度和稳定性。
三、全国能源消耗总量的实证分析
(一)建立ARIMA模型
1.平稳化处理
用ARIMA模型拟合的时间序列必须是平稳的,如果序列不平稳,则要通过差分或序列变换等先将序列平稳化。绘制原始序列的时序图得到图形如图一所示:
图一:y时序图
由图可从直观上看出原始序列存在明显的长期递增趋势,原始序列不平稳。利用软件EViews6.0,运用单位根检验方法对序列进行平稳性检验发现原始序列确定不平稳,因此本文先对该序列取对数,令yllog(y),然后对yl进行差分,差分两次之后得到平稳的序列ylii。单位根检验结果如下表二所示:
由表可知,取对数后再做两次一步差分之后的序列yliiADF检验的p值为0.0007,小于0.05,因此拒绝序列非平稳的原假设,可以接受序列为平稳的备择假设。在此可知ARIMA模型定阶为d=2。也可由图标直观说明序列的平稳性,作出ylii的时序图如图一所示:
图二:ylii时序图
时序图也显示ylii序列平稳,结果与单位根检验相符。 2.模型定阶
模型定阶的方法有多中,本文选择基于自相关函数和偏自相关函数的定阶方法确定模型的阶数。首先,考察平稳序列ylii的自相关图和偏自相关的性质,为拟合模型定阶,自相关函数(ACF)和偏自相关函数(PACF)图形如图三所示;
图三:
由图形可知,对处理后的序列ylii可以选择建立ARIMA(1,2,1)、
ARIMA(1,2,2)、ARMA(2,2,1)、ARIMA(2,2,2)4种模型。分别拟合这四种模型得到结果如表三所示:
R2是四个模型中最大的,虽然它的AIC,SC的绝对值不是最小的,ARIMA(1,2,1)
模型的AIC最小,ARIMA(2,2,1)的SC最小,但它们的系数都没有通过显著性检验,而且调整R2也较小,所以本文选择ARIMA(2,2,2)模型,模型表达式为:
(1-1.24653B-0.92659B2)et
ylii'=(1-B)(1-B)log(y)=
1+0.76684B+0.59005B2
3.模型检验
用ARIMA(2,2,2)模型做拟合得到残差序列et,对残差序列进行自相关和偏自相关分析,得到结果如图三所示:
图三
由图可知。残差序列P值几乎都是大于0.05的,说明残差序列近于白噪声,基本没有可提取的信息了,模型已经提取了有规律的信息,说明模型拟合效果较好。
4.模型预测
利用1978-2008年的时间序列建立的ARMA(2,2,2)模型:
ylii'(1B
)B(1
(11.2B4653
y)l10.76B684
B20.)t92659来预测2004-2010年的能2
B0.59005
源消耗总量,结果如表四所示:
(二)灰色模型预测
根据历史数据序列x(0),做一次累加得到生成序列x(1),对于微分方程
dx(1)
ax(1),构造数据矩阵B和数据向量Y,解该微分方程,得到YBA其dt
中:
X(1)(1)X(1)(2)•••1•
2X(0)(2)
(0)X(1)(2)X(1)(3)
X(3)•••1• Aa BY2(0)X(1)(30)X(1)(31)X(31)
•12
进行矩阵运算得到发展灰数a=-0.055673,内生控制灰数=45508.908,得到预测模型为:X(1)'(k1)874576.3e0.055673k817432.3。
1.残差检验
将得到的序列X(1)'进行一次累减生成预测序列X(0)',将预测值与真实值比
较得到绝对误差序列et为:(0)={0、8516.84、7337.171、3478.379、2894.069、3479.306、4761.587、6752.808、6917.228、8466.436、10356.31、9561.971、6328.756、6120.155、5915.771、6827.269、7321.323、9152.556、9938.481、1402.44、11990.47、18629.48、22636.52、27218.27、28376.96、15499.22、1831.269、11756.32、21153.92、27578.59、33369.39}
计算相对误差后发现其中有些较大,甚至大于10%,最后五项的平均相对误差为7.36319507%。残差检验没有通过,下面进行关联度检验。当=0.5时,关联度大于0.6时就可以通过关联度检验了。由残差的绝对序列可知min((0))=0,
max((0))=33369.39
)
i(i0n{i(
im)ia
。然
(
}
({(
后根据公式
i(k
m
ix
m0a)x{}计算每个序列值的关联系数,1,2,,0)}
0.
再求平均得到关联度r=0.650237。本文取取=0.5,r>0.6,因此模型通过了关联度检验。虽然模型通过了关联度检验,但模型没有通过残差检验,精度不够理想,所以本文对该模型进行残差修正。
2.模型修正
根据模型得到的残差序列et,去掉第一项得到新的序列e(0),然后进行累加得到序列e(
e(1(k)'1)e
1
,在此基础上建立相应的GM(1,1)模型:
ae)aekae
[(0e1)],模型两边求导得到残差修正项为:
ueue
aeaek
]e。原预测模型加上此修正项得到修正后的预测ue
[e(1)'(k1)]'(ae)[e(0)(1)
a
模型为:X'(1)(k1)[X(0)(1)]eak(k1)(ae)[e(0)(1)e]eae(k1),其中
aaue
(k1)
1,k2
为修正系数。最后进行累减得到原始序列预测模型:
0,k2
X'(0)(k1)X'(1)(k1)X'(1)(k)。根据所得数据,利用Excel软件,得到
ae=-0.06924,ue=2893.212。根据修正项的计算公式,可得[e(1)'(k1)]'3482.92e0.06924k,这样经过残差修正后的模型为:
1)
X'((k1)
k.05
874e5706.3
5673
8k17432.3e(k
其1)(中3482.92)
(k1)
1,k2
。在此序列的基础上进行累减得到2004-2011年的全国能源
0,k2
消耗总量的预测值如下表五所示:
当预测对象依时间变化呈现某种上升或下降的趋势,并且无明显的季节波动,又能找到一条合适的函数曲线反应这种变化趋势时,就可用时间t为自变量,时序数值y为因变量,建立趋势模型:yf(t)。 三次多项式预测模型是趋势外推预测模型中的一种比较常用的模型。为了探究时序数据变化的趋势,作出全国能源消费总量y的散点图如图四所示:
图四:散点图
由图可知全国能源消耗总量没有明显的季节波动,而且大致呈抛物线或指数的趋势上升,但经过精度比较之后,三次多项式的拟合的最好,所以本文采用三次多项式模型进行拟合。利用软件Eviews 进行回归得到结果如下表六所示:
假设,即模型是显著的。而且各系数的显著性检验的P值都小于0.05,通过了显著性检验。模型的调整的R2为0.971825,接近于1,说明模型拟合效果好。因此,建立三次多项式模型:y18.583x3646.494x210136.88x34209.53
用该模型对2004-2011年全国能源消费总量进行预测得到结果如表七所示:
以上三种方法有些精度较高,有些精度较低,但由于各自理论的缺陷,会使预测产生系统偏差。为了更充分的提取样本信息,提高预测精度,本文将以上三种预测模型进行组合得到一个组合的预测模型。组合模型的权重有多种,可以等概率取权重,可以采用最小二乘估计法取权重,也可以使权重wii1mmii.
i
i11,其中i为残差标准差,m为单一模型的个数,或者使权重m1
wiDi1
D
i1m1,其中Di1为第i个单一模型误差平方和,m为单一模型个数。本文i
采用第三种取取权重的方法,即wii1mmii.
i
i11。利用Excel软件求得权重m1
分别为:w1=0.466858,w2=0.171932824,w3=0.361209557根据预测模型:
ytw1yt1w2yt2w3yt3对2004-2011年的全国能源消耗总量进行预测结果如下
表八所示:
对预测全国能源消耗总量的各个模型进行评价的指标体系采用平均绝对相对误差百分比,其计算公式为:
1nYiYi'平均绝对相对误差百分比(MAPE)=100% ni1Yi
各种方法预测结果的精度见表九。
误差最低为2.12%,预测精度最高。组合预测模型结合了单一预测模型的优势,其精度大大提高,平均绝对相对误差百分比为1.73%,是四种预测模型中最低的。因此本文采用组合预测模型往后作三期预测,得到2009-2010年全国能源消耗总量的预测值如表十所示:
五、结论通过对全国能源消耗总量的实例分析,发现基于ARIMA预测模型、灰色模型和三次多项式的预测模型的组合模型的精度最高,组合模型较大限度地利用各种预测样本信息,考虑问题更系统、更全面。因此,利用组合模型对全国能源消耗总量进行预测,为能源规划及政策的制定提供科学的依据。
参考文献
[1] 中国国家统计局 中国统计年鉴2009
[2] 徐国祥编著.统计预测与决策.上海财经大学出版社,2009
[3] 刘勇,汪旭辉.ARIMA模型在我国能源消费预测中的应用.经济经纬.2007,
(5)
[4] 潘志刚,韩颖.组合预测法在我国汽车市场需求预测中的应用.商业研究.2006,(20)