年销售额的回归模型预测
武汉理工大学 数学建模与仿真
课程设计
设计题目 专业班级 姓 名 指导老师
2011年 1 月 16 日
附件2:
课程设计任务书
学生姓名: 专业班级: 指导教师: 工作单位: 题 目: 初始条件:
要求完成的主要任务: (包括课程设计工作量及其技术要求,以及说明书撰写等具体
要求)
时间安排:
指导教师签名: 年 月 日
系主任(或责任教师)签名: 年 月 日
年销售额的回归模型预测
【摘要】
本文首先利用题目所给数据做出散点图,分析自变量与因变量之间的线性关系,建立基本的线性回归模型y t =β0+β1x t +εt [1],对所建立的模型直接用MATLAB 统计工具箱
[2]
求解,得到的回归系数估计值及其置信区间(置信水平α=0. 05)、检验统计量
∧
R 2, F , P [3],将参数估计值代入初始模型得到y t =-1. 4548+0. 17628x t 。
但是这个模型没有考虑到题目所给的数据是一个时间序列。实际上,在对时间序列数据作回归分析时,模型的随机误差项εt 有可能存在相关性。违背模型关于εt (对t )相互独立的基本假设。所以对原模型进行自相关检验,发现其随机误差存在正自相关,故对原模型作变量变换:y t ' =y t -ρy t -1 ,x t ' =x t -ρx t -1得到新的模型:y t ' =β0' +β1' x t ' +u t ,其中,β0' =β0(1-ρ),β1' =β1。
对新的模型利用MATLAB 统计工具箱求解,并对新的模型也作一次自相关检验,即诊断随机误差u t 是否还存在自相关,经检验认为新的模型中随机误差不存在自相关。因此经变换所得到的回归模型y t ' =β0' +β1' x t ' +u t 是适用的。
最后,将模型y t ' =β0' +β1' x t ' +u t 中的y t ' 和x t ' 还原为原始变量y t 和x t ,得到结果为:
y t =-0. 3916+0. 6326y t -1+0. 1737x t -0. 1099x t -1
∧
关键词:时间序列 回归模型 统计检验 D —W 检验
一、问题重述与分析
1.1、问题提出
某公司(记为A )想用全行业的销售额作为自变量来预测公司的销售额, 表1给出了2006年~2010年公司销售额和行业销售额的分季度数据(单位:百万元) 。
1.2、问题分析
表1的数据是以时间序列为序的,称为时间序列。由于公司销售额和行业销售额等经变量均有一定的滞后性,因此,在这样的时间序列数据中,同一变量的顺序观测值之间出现相关现象(称自相关)是很自然的。然而,一旦数据中存在这种自相关序列,如果仍采用普通的回归模型直接处理,将会出现不良后果,其观测也会失去意义,为此,我们必须先来诊断数据是否存在自相关,如果存在,就要考虑自相关关系,建立新的模型。
二、模型假设
根据题目所给出的数据信息,做出以下简化假设:
1、假设只考虑题目所给的信息,不考虑其他因素对公司销售额的直接影响; 2、假设其他各种随机因素对公司销售额的影响都归为随机误差;
三.模型的符号说明
y t :表示公司销售额。 x t :表示行业销售额。
βi :表示线性回归模型的回归系数。
εt :表示各种随机因素对y t 的影响总和,称为随机误差。
y t :表示公司销售额的估计值。
∧
四、模型的建立与求解
4.1、基本回归模型的建立
由于题目中所给数据较少,故将每年每季度的销售额数据作为一个单独研究的对象,将所有数据按年份和季度编号。
记该公司的行业销售额为x t , 公司销售额为y t , t =1, 2, n (=20)。利用MATLAB 作出因变量y t 与自变量x t 的散点图,如图1。
图1 公司销售额y t 与行业销售额x t 的散点图
从图1可以看出,随着行业销售额的增加,公司销售额也增大,而且两者有很强的线性关系,因此可以建立线性回归模型
y t =β0+β1x t +εt (1)
上述线性回归模型中除了行业销售额外,影响的其他因素的作用包含在随机误差εt
内,这里假设εt (对t )相互独立,且服从均值为零的正态分布,t =1, 2, n . 对于初步估计的回归模型能否客观揭示所研究的经济现象中诸因素之间的关系,是否符合变量之间的客观规律性,引入所影响因素是否有效,变量之间是否存在线性相关关系,模型能否付诸应用,应通过模型检验决定。
4.2、统计检验
(一) 拟合优度检验(R 2检验)
拟合优度检验是检验回归方程对样本观测值的拟合程度,即检验所有解释变量与被解释变量之间的相关程度。检验的方法是构造一个可以表征拟合程度的指标,这个指标是通过对总变差(总离差) 的分解而得到。
S 总=∑
2
(
∧
⎛⎫⎛∧⎫
y i -y =∑ y i -y i ⎪+∑ y i -y ⎪
⎝⎭⎝⎭
2
2
)
22
∧
⎛⎫⎛∧⎫
其中 S 残=∑ y i -y i ⎪,S 回=∑ y i -y ⎪
⎝⎭⎝⎭
总变差平方和S 总是各个观察值与样本均值之差的平方和,反映了全部数据之间的差异;残差平方和S 残是总变差平方和中未被回归方程解释的部分,由解释变量
x 1, x 2, x k 中未包含的一切因素对被解释变量y 的影响而造成的;回归平方和S 回是总变差平方和中由回归方程解释的部分。
一个拟合得好的回归模型,体现在总体平方和与回归平方和的接近程度,即S 总中
S 残越小越好。于是采用:
⎛∧⎫
y i -y ⎪∑S ⎭=1-S 残
R 2=回=⎝
S 总∑y i -y 2S 总
2
(0≤R
2
≤1
)
对回归方程的拟合优度进行检验。如果所有样本观测值都位于回归方程上,即:
⎛⎫
S 残=∑ y i -y i ⎪=0
⎝⎭
此时回归方程完全拟合了样本观测值,R 2等于1。如果R 2越接近1,则说明回归方程的拟合优度越高。
R 2说明了在被解释变量y 的总变差中,由一组解释变量 x 1, x 2, x k 的变动所引起的
∧
2
百分比。
由于R 2是一个随解释变量个数的增加而递增的增函数,所以为使拟合优度检验指标不仅能反映已被解释的变差与总变差的关系,而且能反映回归模型中所包含的解释变量个数的影响,需要调整R 2,记为R 。
2
R =1-
2
S 残(n -k -1)
S 总n -1式中n -k -1为残差平方和S 残的自由度,n -1为总变差平方和S 总的自由度。故可得:
R =1-1-R 2
2
(
n -1)n -
k -1
由于拟合优度并不是检验回归模型的唯一标准,在实际应用中,为了使模型有较合理的经济解释,可以在某种程度上牺牲拟合优度。即模型合理的经济解释是第一位的。
(二) 方程显著性检验(F 检验)
方程显著性检验就是对模型中解释变量与被解释变量之间的线性关系在总体上是否显著成立作出推断。即检验被解释变量y 与所有解释变量x 1, x 2, x k 之间的线性关系是否显著,方程显著性检验所应用的方法是数理统计学中假设检验。
检验的原假设H 0与对立假设H 1分别为:
H 0:β0=β1= =βk =0 H 1:至少有一个βj 不为零
应用数理统计理论可以证明:S 回与S 残相互独立,且当H 0:β0=β1= =βk =0为真时,S 回与S 残分别服从自由度为k 、n -k -1的χ2分布,故有:
F =
S 回/k
~F (k , n -k -1)
S 残/n -k -1即F 统计量服从以(k , n -k -1)为自由度的F 分布。
首先根据样本观测值及回归值计算出统计量F ,于是在给定的显著性水平α下,若
F >F α(k , n -k -1),则拒绝H 0,判定被解释变量y 与所有解释变量 x 1, x 2, x k 之间的回归效果显著,即确实存在线性关系;反之,则不显著。
(三) 变量显著性检验(t 检验)
R 2检验和F 检验都是将所有的解释变量作为一个整体来检验它们与被解释变量y
的相关程度以及回归效果,但对于多元回归模型,方程的总体显著性并不意味每个解释变量对被解释变量y 的影响都是显著的。如果某个解释变量并不显著,则应该从方程中把它剔除,重新建立更为简单的方程。所以必须对每个解释变量进行显著性检验。等价于对每个解释变量检验假设
H 0:βj =0 H 1:βj ≠0 其中j =0, 1, 2, k 。
应用数理统计理论可以证明:当H 0:βj =0为真时,统计量t j 服从自由度为(n -k -1)的t 分布,即:
t j =
βj
S ∧
βj
∧
~t (n -k -1)
j =0, 1, 2, k
在给定的显著性水平α下,若t j >t α/2(n -k -1),则拒绝H 0,说明解释变量x j 对被解释变量y 有显著影响,即x j 是影响y 的主要因素;反之,接受H 0,说明解释变量x j 对被解释变量y 无显著影响,则应删除该因素。
当影响y 的主要因素只有一个变量x 时,问题变成了一元回归分析,此时t 检验和F 检验的作用是一样的,因此可以不用再做F 检验了。
4.3、模型的求解
根据表1的数据,对模型(1)直接用MATLAB 统计工具箱求解,得到的回归系数估
2
计值及其置信区间(置信水平α=0. 05)、检验统计量R , F , P 的结果见表2。
∧
y t =-1. 4548+0. 17628x t (2
)
结果分析:表2显示,R 2=1指因变量y t 几乎100%可由模型确定,F 值远远超过F 检验的临界值,P 远小于,可以计算剩余标准差仅为0.081。因而模型(2)从整体上看是可用的。
利用MATLAB 中rstool 命令也可得到相应的结果,在rstool 交互式画面中点击左下方的Export ,可输出模型的统计结果,得剩余标准差s=0.081。产生的交互式画面见图2。
图2 回归分析中的rstool 交互式画面
4.4、自相关性诊断与处理方法
从表面上看得到的基本模型(2)的拟合度非常之高(R 2=1),应该很满意了。但是这个模型没有考虑到我们的数据是一个时间序列。实际上,在对时间序列数据作回归分析时,模型的随机误差项εt 有可能存在相关性。违背模型关于εt (对t )相互独立的基本假设。为了对εt 的自相关性作定量诊断,并在确诊后得到新的结果,我们考虑如下模型:
y t =β0+β1x t +εt
εt =ρεt -1+u t
(3)
其中ρ是自相关系数,ρ≤1, u t 相互独立且服从均值为零的正态分布。模型(3)
中若ρ=0,则退化为普通的回归模型;若ρ>0,则随机误差εt 存在正的自相关;若
ρ
D —W 检验是一种常用的诊断自相关现象的统计方法。首先根据模型(2)得到的残差计算DW 统计量如下:
DW =
∑(e -e )
t
t -1
t =2
n
2
∑e
t =1
n
(4)
2t
其中n 是观察值个数, 残差e t =y t -y t 为随机误差εt 的估计值。当n 较大时,
n
⎡⎤
e e ⎢∑t t -1⎥
⎥ (5) DW ≈2⎢1-t =2n
⎢e t 2⎥∑⎢⎥t =1⎣⎦
∧
而(5)式右端∑e t e t -1
t =2
n
∑e
t =1
n
2
t
正是自相关系数ρ的估计值ρ,于是
∧
⎛∧⎫
DW ≈2 1-ρ⎪ (6)
⎝⎭
由于-1≤ρ≤1,所以0≤DW ≤4,并且,若ρ在0附近,则DW 在2附近,εt 的自相关性很弱;若ρ在±1附近,则DW 接近0或4,εt 的自相关性很强。
要根据DW 的具体数值确定εt 是否存在自相关,应该在给定的检验水平下,依照样本容量和回归变量数目,查D —W 分布表,得到检验的临界d L 和d U ,然后由表3中DW 所在的区间来决定。
∧
∧∧
从表3中可知,DW 检验存在无结论区域,当计算的DW 统计量落到无结论区域时,决策者就不能作出回归模型是否存在自相关现象的结论。
在实际应用中,当DW 统计量的值在2左右时,则无须查表检验即可判定回归模型不存在自相关,此时回归模型有效。
4.5、加入自相关后的模型
根据(4)式可计算出DW =0. 7347,对于显著性水平α=0. 01,n =20,q =1,查D —W 分布表,得到检验的临界值d L =0.95和d U =1.15,现在DW
作变量变换:
y t ' =y t -ρy t -1
' (7)
x t =x t -ρx t -1
则模型(3)化为:
y t ' =β0' +β1' x t ' +u t (8)
其中,β0' =β0(1-ρ),β1' =β1
以ρ的估计值代入(7)式作变换,利用变换后的数据y t ' ,x t ' 估计模型(8)的参数,得到的结果见表4,可以得到其剩余标准差为0.067.
对模型(8)也作一次自相关检验,即诊断随机误差u t 是否还存在自相关,从模型
(8)的残差可计算出DW =1. 6519,对于显著性水平α=0. 01、q =1以及n =19时,检验的临界值为d L =0. 93,d U =1. 13,故d U
最后,将模型(8)中的y t ' 和x t ' 还原为原始变量y t 和x t ,得到结果为:
y t =-0. 3916+0. 6326y t -1+0. 1737x t -0. 1099x t -1 (9)
∧
4.6、结果分析及预测
从机理上看,对于带滞后性的经济规律作用下的时间序列数据,加入自相关的模型(9)更为合理,而且在本例中,衡量与实际数据拟合程序的指标——剩余标准差从模型(2)的0.081减少到0.0671。当用模型(9)对公司的销售额y t 作预测时,先估计未来的全行业销售额x t ,比如,设t =21时,x t =174. 1, 容易由模型(9)得到y t =29. 1860。
∧
五、模型的意义和推广
企业预测是企业编制计划、做出正确决策的重要前提。预测的目的是为企业经营规划和决策提供信息。企业为了规划经营活动,必须对各项重要的经济指标如销售、利润、成本、资金等进行科学的预测,以便对未来的经营发展趋势做出正确的分析与判断。
回归分析预测法是通过预测对象和影响因素的统计整理和分析,找出他们之间的变化规律,将变化规律用数学模型表达出来,并利用数学模型进行预测的分析方法。
线性回归模型较其他预测方法更具优越性:实用性强,该方法广泛适用于各种经济预测,如产量与成本、利润与销售量等;预测结果精确,实践证明,该方法比移动平均法、季节指数法等更为准确;使用方法简便,只需将调查数据代入模型,即可得出结果。
本文运用MATLAB 软件中的一些时间序列建模方法及回归分析方法对某商品的季度销售作了预测分析,得到了较高的预测精度,在实际应用中预测值的准确性对于指导商家的战略决策起着重要作用。
六、参考文献
[1]姜启源谢金星叶俊:数学模型(第三版)[M].北京:高等教育出版社,2003:316—322
[2]王向东戎海武文翰:数学实验[M].北京:高等教育出版社,2004:252—259 [3]徐国样:统计预测和决策(第二版)[M].上海:上海财经大学出版社,2005:61—169
附件6:
本科生课程设计成绩评定表
(60分—69分)、60分以下为不及格。
指导教师签字:
年 月 日