国民生产总值及物价指数与投资额的回归分析
成 绩 评 定 表
课程设计(论文)任务书
数理统计是具有广泛应用的数学分支,而区间估计和假设检验问题在其中占有很重要的地位。对于正态总体期望和方差的区间估计和假设检验问题已有完备的结论;对于非正态总体期望和方差的区间估计和假设检验问题,在大样本的情况下,可利用中心极限定理转化为正态总体来解决。但实际问题中常常碰到非正态总体,而且是小样本的情况,因此对它的区间估计和假设检验是一个值得研究的问题
本文利用概率纶与数理统计中的所学的回归分析知识,对某地区实际投资额与国民生产总值(GNP)及物价指数的关系建立数学模型,并利用这些数据做出国民生产总值x1t及物价指数x2t与yt的多元回归方程,并MATLAB 与EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题 ,得出了国民生产总值x1t及物价指数x2t与yt的线性关系显著,提出了小样本常用分布参数的置信区间与假设检验的解决方法。
关键词:统计量法;置信区间;假设检验;线性关系;回归分析
1 2 3
设计目的················································································································· 5 设计问题················································································································· 5 设计原理················································································································· 6 3.1 多元线性回归方程的求法 .......................................................................... 6 3.2 多元线性相关的显著性检验 ...................................................................... 8 方法实现················································································································· 9 4.1 设计步骤 ...................................................................................................... 9 4.2 设计结果 .................................................................................................... 12 5 设计总结··············································································································· 14 参考文献······················································································································ 15 致 谢···························································································································· 15
4
1 设计目的
了解一元回归方程,回归系数的检验方法及应用一元回归方程进行预测的方法;学会应用MATLAB软件进行一元回归实验的分析方法。同时更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合Excel对数据的处理解决实际问题。本设计是利用一元线性回归理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel分析工具库中的回归分析软件进行解算。
2 设计问题
收集该地区连续20年的统计数据,目的是由这些数据建立一个投资额的模型,并根据对未来国民生产总值及物价指数的估计,预测未来的实际投资额。数据如下:
利用这些数据做出国民生产总值x1t及物价指数x2t与yt的线性回归方程。
3 设计原理
3.1 多元线性回归方程的求法
记住该地区第t年的投资额为yt,国民生产总值为x1t,物价指数为x2t(以第10年的物价指数为基准,基准值为1),t=1,2,......n,n=20.因变量yt与自变量x1t和
x2t的散点图如下所示:
yt对x1t的散点图
yt对x2t的散点图
由图可以看出,随着国民生产总值的增加,投资额也增大,而且两者有很强的线性关系,物价指数与投资额的关系也类似,因此可以建立多元线性方程
yt=0+1x1t+2x2t+t
方程中除了国民生产总值和物价指数外,影响yt的其它因素的作用都包含在随机
误差t内,这里假设t(对t)相互独立,且服从均值为0的正态分布,t=1,2,.....,n。与一元线性回归类似,我们利用最小二乘法求未知参数0,1,2的估计值。为了使偏差平方和
S(yk01x12x2...mxm)取得最小值,分别求偏导数
k1n
2
S/0,S/1,...,S/m,并让他们等于零,整理得到方程组
n0(x1k)1...(xmk)myk
k1
k1
k1
nnn
(x1k)0(x)1...(x1kxmk)mx1kyk
2
1k
k1
k1
k1
k1
nnnn
......................................................................................(xmk)0(xmkx1k)1...(x)mxmkyk
2mk
k1
k1
k1
k1
n
n
n
n
1n
设 xixik, 其中i1,2,...,m
nk1
1n
yyk;
nk1
_
lijljixikxjknxixj
k1
n__
其中i1,2,...,m j1,2,...,m;特别的当ij时有
lii(n1)si2
其中si2表示Xi的观测值的样本方差;
liyxikyknxy
k1n
__
其中i1,2,...,m,利用消元发不难将方程组化为如下形式
0xii=y
i1
m__
l
i1
m
1i
il1y
… … … …
l
i1
m
mi
mlmy
^
于是我们解得bi其中i1,2,...,m,再代入第一个方程即得:
0yixi
i1
_m
_
最后得到多元回归方程
y01x12x2...mxm
^
3.2 多元线性相关的显著性检验
我们可以利用多元线性回归的方差分析,检验原假设
H0:12...m0
是否成立。
考察样本y1,y2,...,ym的偏差平方和
ST(yky)=(yky)(ykyk)2SRSe
2
2
k1
k1
k1
n
_
n
^
_
n
^
上式中SR(yky)2
k1
n
^_
称为回归平方和,它反映了由于Y与X1,X2,Xm之间存在线性相关关系而引起的回归值y1,y2,...ym的分散程度;
Se(ykyk)2
k1n
^
^^^
称为剩余平方和,它就是偏差平方和的最小值,它反映了由于随机误差引起的观测值yk与相应的回归值yk(k1,2,..,n)的偏离程度 可以证明,当原假设正确的时候,则
^
ST
2
SR
~2(n1),~2(m),~2(nm1),
2
Se
2
并且SR与Se是相互独立的,于是
F
SR/m
~F(m,nm1).
Se/(nm1)
计算ST,SR,Se时可以利用如下公式;
2
STlyy(n1)sy
SRiliy;
i1
m
SeSTSRlyyiliy
i1
m
^
最后写出多元线性回归的方差分析表如下:
4 方法实现
4.1 设计步骤
① 在【工具】菜单中选中【数据分析】,则会弹出【数据分析】对话框,然后在“分析工具”中选择“回归”选项,如图二所示。单击【确定】后,则弹出【回归】对话框,如图二所示。
② 填写【回归】对话框。如图三所示,该对话框的内容较多,可以根据需要,
选择相关项目。
在“Y值输入区域”内输入队因变量数据区域的引用,该区域必须有单列数据组成,如本题中三种成分的含量;在“X只输入区域”输入对自变量数据区域的引用,如本题中温度T。该区域必须是连续的,Excel将对此区域中的自变量从左到右按升序排列,自变量的个数最多是25个。
“标志” :如果输入区域的第一行中包含标志项,则选中此复选框,本题中的输入区域包含标志项;如果在输入区域中没有标志项,则应清楚此复选框,Excel将在输出表中生成合适的数据标志。
“置信度” :如果需要在汇总输出表中包含附件的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。Excel默认的 置信度为95%,相当于显著性水平a=0.05。
“常数为零” :如果要强制回归线通过原点,则选中此复选框。
“输出选项” :选择“输出区域”,在此输出对输出表左上角单元格的引用。 “残差” :如果需要以残差输出表形式查看残差,则选中此复选框。 “正态概率图” :如果需要绘制正态概率图,则选中此复选框。 得到下面的图形:
得到了回归系数估计值及置信区间(置信水平α=0.05)、检验统计量R2,F,p
将参数估计量带入方程得到
yt322.7250.618x1t859.479x2t
对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。 由
二. 填好【回归】对话框后,点击“确定” ,即可得到回归分析的结果 三.在图四的第三个表中,除了列出了回归系数,还有标准误差等项目。其中“标准误差”表示的事对应回归系数的标准误差,其中偏回归系数的标准误差。“t Stat”就是t检验时的统计量t;如果多元线性回归,则可直接根据“t Stat”的大小,判断因素的主次顺序。“P-value”表示t检验偏回归系数不显著的概率,如果P-value
根据上面的图形判断X1与Y的相关性显著,不剔除.再把X2,和Y的多元回归方程再求出来。即再在Excel中输入数据 得到新的图形如下
4.2 设计结果
试验结果F=919.8529有显著性表明至少有一个自变量与应变量之间存在线性回归关系。 由图:
知道x1和x2都与y有线性关系,不需要剔除,得到x1及x2与y之间的多元线性方程yt322.7250.618x1t859.479x2t也可以根据上图的置信区间x1t:[0.4773 0.7596],x2t:[ -1121.4757 -597.4823]各自的残差图如下:
根据x1和x2的变化得到y的预测值汇成图标:
拟合曲线:
根据拟合曲线预测Y的值和相应的残差,标准残差表:
根据以上分析我们得到了投资额与国民生产总值及物价指数之间的多元回归方程yt322.7250.618x1t859.479x2t
得出的结论是投资额和国民生产总值及物价指数的关系显著。
5 设计总结
通过对概率论与数理统计的这道实际问题的解决,不仅使我更加深刻的理解了概率论与数理统计的基础知识,而且使我对这些知识在实际中的应用产生了浓
厚的兴趣,同时对我学习好概率论与数理统计这门课有很大帮助。在实现这道题的过程中我应用了Excel软件,学会了该软件的一些新的应用,更加熟练的操作该软件进行一些数据上的处理。
参考文献
[1]沈恒范.概率论与数理统计教程[M].第四版.北京:高等教育出版社,2003.4:140-196 [2]谭千蓉、林宗兵.数学实验与数学模型第一版.西南交通大学出版社,2009.11.
致 谢
本论文是张玉春老师指导下完成的。她严肃的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我。在此,我向张老师致以诚挚的谢意和崇高的敬意。
同时我还要感谢我的同学们,在论文设计中,他们给了我很多的建议和帮助。我还要感谢我的论文中被我引用或参考的文献的作者。