数理统计大作业(北航)2014版
应用数理统计
大作业一
学 院: 学 号: 姓 名: 指导老师:
2014年12月21
日
XXXXXXX XXXXXXX XXX XXX
国民生产总值增量的多元线性回归模型
摘要:国民生产总值一直是衡量国家综合经济水平的重要指标,本文要讨论研
究的是国民生产总值的增量趋势与各产业增值趋势间的多元线性关系[1]。本论文搜集了我国从1998至2012年15年的国民生产与各产业增量指标,拟定数个自变量,代入统计软件SPSS 19.0[2]对各影响因素进行了统计分析,综合分析结果模拟多元线性回归函数。模型建立之后,又将2013年数据作为测试集测试模型的拟合精确度,得到的结果达到预期值,得出模型建立较为成功。
关键词:逐步回归法,国民生产总值增量,线性拟合
一 引言
国民生产总值(Gross Domestic Product )是在一定时期中,一个国家地区经济生产出的全部最终产品和劳务的价值,被公认为衡量国家经济状况的较佳指标。它不仅仅反映了一定的经济表现,还可以反映国家的综合国力与经济发展前景,作为经济政策的制定依据,研究我国的国民生产总值的制约因素成为了学者们的热点问题。下文就以1998年至2012年的统计数据为标准,利用SPSS 软件作出了多元线性回归分析。
二 统计分析 2.1变量说明
因变量 Y —— 国民生产总值增值(亿元); 自变量 x1 —— 第一产业增加值(亿元) 自变量 x2 —— 第二产业增加值(亿元) 自变量 x3 —— 第三产业增加值(亿元) 自变量 x4 —— 工业增加值(亿元) 自变量 x5 —— 建筑业增加值(亿元)
2.2统计数据
国民生产总
训练组
值增值(亿元) 加值(亿元)
2012年 2011年 2010年 2009年 2008年 2007年 2006年 2005年 2004年
46366.05 71591.25 60609.99 26857.38 48235.12 49495.88 31377.06 25059.03 24055.58
52373.63 47486.21 40533.6 35226 33702 28627 24040 22420 21412.73
加值(亿元) 235161.99 220412.81 187383.21 157638.78 149003.44 125831.36 103719.54 87598.09 73904.31
加值(亿元) 231934.48 205205.02 173595.98 148038.04 131339.99 111351.95 88554.88 74919.28 64561.29
(亿元) 199670.66 188470.15 160722.23 135239.95 130260.24 110534.88 91310.94 77230.78 65210.03
值(亿元) 35491.34 31942.66 26660.98 22398.83 18743.2 15296.48 12408.61 10367.31 8694.28
第一产业增
第二产业增
第三产业增
工业增加值
建筑业增加
2003年 2002年 2001年 2000年 1999年 1998年
15490.07 10677.52 10440.62 9537.5 5274.77 5429.25
17381.72 16537.02 15781.27 14944.72 14770.03 14817.63
62436.31 53896.77 49512.29 45555.88 41033.58 39004.19
56004.73 49898.9 44361.61 38713.95 33873.44 30580.47
54945.53 47431.31 43580.62 40033.59 35861.48 34018.43
7490.78 6465.46 5931.67 5522.29 5172.1 4985.76
表格2-1 1998~2012年训练集数据
国民生产总
测试组
值增值(亿元) 加值(亿元)
2013年
49375.11
56957
加值(亿元) 249684.4
加值(亿元) 262203.8
(亿元) 210689.4
值(亿元) 38995
第一产业增
第二产业增
第三产业增
工业增加值
建筑业增加
表格2-2 2013年测试集数据
[3]中收录的近15年全国国民生产总值以上数据来自《中国统计年鉴2013》
增值数据,考察与各产业间增量趋势变化中关系密切并且直观上有线性关系的因素,因此选取了第一产业增值、第二产业增值、第三产业增值、工业总产值增值、建筑业增值五大因素为自变量。
2.3模型建立
建立多元线性模型:
Y =α1x1+α2x2+α3x3+α4x4+α5x5
将以上数据数据录入SPSS 。
2.3.1 自变量与因变量关系
利用SPSS 统计分析得到各自变量与国民生产总值增值的散点图:
图2-1国民生产总值增值与第一产业增加值的散点图
图2-2国民生产总值增值与第二产业增加值的散点图
图2-3国民生产总值增值与第三产业增加值的散点图
图2-4国民生产总值增值与工业增加值的散点图
图2-5国民生产总值增值与建筑业增加值的散点图
由以上数据我们可以看出各产业的增量与国民生产总值增量的散点图都比较相似,因此无法直观地排除无关变量。
下一步,我们用SPSS 自带的逐步回归分析法作进一步研究:
输入/移去的变量
a
模型 1
输入的变量 工业增加值(亿元)
移去的变量
方法 F-to-enter 的概率
率 >= .100)。
2
第三产业增加值(亿元)
. 步进(准则: F-to-enter 的概率
率 >= .100)。
a. 因变量: 国内生产总值增值(亿元)
. 步进(准则:
图2-6 变量排除结果
在模型建立中,SPSS 将第一产业与第二产业以及建筑业产业增值都剔除了,
而保留了工业和第三产业的产业增值,由此可见,在五个自变量因素中,工业与第三产业的增量与国民生产总值增量的关联度较高,为目标函数提供的贡献度较大。因此,在以下的模型建立中,我们保留了这两个因素作为拟合自变量。
2.3.2 模型方案的建立
由以上结果我们可以看出,系统提供给我们两个最终拟合方案。 方案一:以工业增加值为自变量得到拟合函数
Y =0.339x4−2593.808
方案二:以工业增加值和第三产业增加值为自变量得到拟合函数:
Y =−1.303x3+1.835x4−14838.847
除了模型具体参数值,以下系统还给出了两模型方案的回归、残差分析表格,得出了其残差平方和与均方平方和数值:
从结果可以得到,两个回归模型的F 值分别为59.268与74.499,根据F 分布表格,易查得,方案二的回归显著性更高。
因此我们选用模型二的拟合函数作为最终输出结果。
下面是回归标准化残差图:
图2-9 回归残差结果
我们利用2013年数据进行拟合测试:
方案一:
1=0.339∗210689.4−2593.808=68829.986 Y
方案二:
Y 2=−1.303∗262203.8+1.835∗210689.4−14838.847=30124.652 实际输出为:
Y =49375.11
可以看出,两个模型与实际结果的误差仍然较大,相比之下模型二更接近实际输出,但是仍不满足我们预期的结果,超出误差范围很大。因此此模型建立得不够完善,或者说,模型中自变量与因变量的线性关系仍不明显。
三 结果分析
由于软件所建立模型在测试过程中仍然误差较大,所以可以得出这样的结论: 本模型中自变量第一产业增加值、第二产业增加值、第三产业增加值、
工业增加
值、建筑业增加值与因变量国民生产总值增值之间的线性关系不明显。 但综合来看,模型二较为可靠:
Y =−1.303x3+1.835x4−14838.847
参考文献
[1] 孙海燕, 周梦, 李卫国, 冯伟. 应用数理统计[M]. 北京:北京航空航天大学数学系, 2014.
[2] 张建同, 孙昌言. 以Excel 和SPSS 为工具的管理统计[M]. 北京:清华大学出版社,2002.
[3] 国家统计局.2010年中国统计年鉴[M]. 中国统计出版社,2013.