论文:基于数据挖掘技术的市财政收入分析预测模型
竞赛作品资料包括以下两部分,请分别压缩后在“会员中心”统一提交:
1、论文正文要求用word2003格式整理,压缩成“论文正文.zip”
2、源数据(组委会提供的源数据外)、过程数据、程序及模型文件,压缩成“附件
资料.zip”
所选题目:
评委评语:
评委签名:
基于数据挖掘技术的市财政收入分析预测模型 综合评定成绩:
基于数据挖掘技术的广州市财政收入分析
摘 要:
地方财政收入的稳定增长对于地区经济的发展具有重要作用。而财政收入
是衡量一国政府财力的重要指标,近几年来,政府公共财政在经济和社会发展
中扮演的角色越来越重要。如何调整和优化现有的财政支出和规模结构,服务
于地方经济建设的发展,一个重要的表现就是地方财政收入的不断增加。地方
财政收入的稳定增加,客观上也会不断推动地方经济的进一步发展。
财政支出作为作为一种重要的经济调控手段,其规模大小和使用方向的不
同会造成不同的经济效益,而财政支出对于经济的影响近年来一直是当前数据
挖掘的热点,因为政府财政支出的热点不仅反映了财政政策的重点,还能够有
效引导私人需求,对经济增长和结构升级又都重要意义。随着我国的经济不断
发展,我国的财政支出也在不断的扩张,而广州市作为改革开放的前沿城市,
具有较强的经济实力,对国家的经济增长提供了极大的贡献,因此,对广州市
这样一个模板城市的财政收入和支出分析对于一个城市的发展具有重要的意
义,然而不同时期的财政支出对不同时期的经济发展需求不一样,因此,本文
根据广州市进年年来的财政数据做了系统的统计与分析,并对其未来所有支出
部门做了预测,有助于我国的财政支出更有效的服务于经济发展
关键词:数据挖掘 财政支出 促进经济
The thesis title
Abstract: A brief description of the abstractThe
stability of the local fiscal revenue growth plays an important role in the
development of regional economy. Fiscal revenue is an important index to measure
a country's government financial resources, in recent years, the government
public finance in the economic and social development is playing an increasingly
important role. How to adjust and optimize the structure of fiscal expenditure
and scale of the existing, services in the development of local economic
construction, is an important part of the performance of local fiscal revenue
increased. The stability of the local fiscal revenue increase, objectively also
will continue to promote the further development of local economy.Fiscal
spending as a kind of important economic control measures, the size and direction
of use of different can lead to different economic benefits, and the effect of
fiscal expenditure to economic has always been the hot spot of the current data
mining in recent years, because the government fiscal spending hotspot not only
reflects the focus of fiscal policy, also can effectively guide the private
demand for economic growth and structure upgrade and are of great
significanceexpenditure of our country are also constantly, and guangzhou as
the forefront of reform and opening up city, with strong economic strength and
growth provides a tremendous contribution to the economy of the country,
therefore, for the guangzhou city as a template for fiscal revenue and
expenditure analysis is of important significance for the development of a city,
but in different periods of fiscal expenditure is not the same as the demand
for different periods of economic development, therefore, this paper, based on
the financialdata of guangzhou into a year to do the statistics and analysis
of the system, and the department has made the forecast and the future of all
spending, help to China's fiscal spending is more effective in the service of
economic development
Key words: Data mining Public finance expenditure
目 录
1.
2. 研究目标 ............................................................................................... 5 分析方法与过程.................................................................................... 5
2.1. 总体流程 ..................................................................................................................... 5
2.2. 具体步骤 ..................................................................................................................... 6
2.3. 结果分析 ................................................................................... 错误!未定义书签。
3.
4. 结论 ..................................................................................................... 30 参考文献 .............................................................................................. 30
1. 挖掘目标
本次建模目标是利用广州市统计局积累下来的海量真实数据,采用数据挖掘技术,
分析各类支出数据的相互关系、发现事件之间的内部关联,构建反映支出与收入之间的
模型,挖掘出当前对支出的影响的当前热点,需要实现以下的具体目标
(一)对数据选取、收集
数据选取的目的是确定目标数据,从广州市统计局获取最近的财政支出和收入的数
据。
(二)数据整理
数据整理是对选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与
数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失
的数据。数据整理包括以下内容:
1.数据选择。搜索所有与财政支出对象有关的内部和外部数据信息,根据财政支出的目
的从中选择出适用于数据挖掘的数据。
2.在原数据的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,
从而在尽可能保持数据原貌的前提下最大限度地精简数据量。
3.数据转换。选取合适的知识发现算法,合适的模型和参数,建立分析模型,并将数据
转换成为该分析模型。
(三)数据挖掘并得出预测结论
根据一系列的数据挖掘算法即数学模型,得出客观的科学依据,为财政局的规划提
供重要参考材料。
2. 分析方法与过程
2.1. 总体流程
本题分析主要步骤如下
一,对数据进行选取,搜集。本题分析主要步骤
二,对选出和搜集的数据进行抽取,根据项目需求对数据进行清洗,消除与项目无
关的冗余数据。
三,数据分析,对经过整理的数据建立数学模型, 采用相应的数据挖掘方法进行
关键数据的抽取,并得到正确的结论。
2.2. 具体分析过程及操作步骤
问题一:
通过工具Rstudio导入选取出的数据,并对其进行操作,从大量的,不完全的,有噪
声的,模糊的,实际应用数据中,通过回归分析方法,寻找变量之间的关系,运用这种
关系对数据进行控制,提取出隐藏在其中的有效数据的,利用这些数据做回归模型的显
著性检验,回归系数的显著性检验等,根据对数据进行多元线性回归,逐步回归,正态
检测等可分析、识别出影响财政收入的关键影响因素,具体操作步骤如下所示:
1.导入数据
> fujian=read.csv("C:/Users/RWY/Desktop/数据挖掘赛题/地方财政收入汇
总.csv")
> fujian
年份 地方财政收入合计 公共财政收入 增值税 营业税 企业所得税 个人所得税
城市维护建设税
1 1999 1881388 1761499 288972 433360 277375 133621 116973
2 2000 2199077 2005460 350495 479698 309764 185625 129075
3 2001 2719058 2461941 443213 540075 483421 254892 152739
4 2002 2690984 2458737 526377 613161 236416 159684 164892
5 2003 3005475 2747707 581898 650119 268360 153080 173452
6 2004 3384477 3028692 528365 793520 326556 167379 199990
7 2005 4088545 3712633 816119 892678 373397 198017 228419
8 2006 4767231 4270831 967265 1027971 455820 231794 268420
9 2007 8389925 5237862 1115007 1235374 596693 295316 325208
10 2009 11076649 7026527 1375085 1516049 732282 389824 361118
11 2010 13991612 8726470 1594182 1777343 935248 472154 426622
12 2011 15351387 9794768 1573830 1625593 1061594 462098 853882
13 2012 15796804 11023961 1758311 1747616 1075045 439592 924150
14 2013 20881374 11418044 2216017 1623520 1155923 489777 1013703
房产税 印花税 契税 行政事业性收费收入
1 77562 21159 145254 30072
2 90776 28124 99776 38865
3 109140 30106 97903 85762
4 134061 35561 114520 135919
5 146223 42490 171699 171397
6 168904 67625 204895 193743
7 200221 64862 221754 201997
8 239285 80913 251382 234949
9 262053 110676 306940 253000
10 349616 154364 464568 271293
11 416964 194584 610978 651651
12 512657 211024 575560 685840
13 612254 219623 581872 722190
14 648012 260946 798657 806981
> attach(fujian)
2.线性关系图
> par(mfrow=c(3,3))
> plot(地方财政收入合计~公共财政收入);abline(lm(地方财政收入合计~公共财政
收入))
> plot(地方财政收入合计~增值税);abline(lm(地方财政收入合计~增值税))
> plot(地方财政收入合计~营业税);abline(lm(地方财政收入合计~营业税))
> plot(地方财政收入合计~企业所得税);abline(lm(地方财政收入合计~企业所得
税))
> plot(地方财政收入合计~个人所得税);abline(lm(地方财政收入合计~个人所得
税))
> plot(地方财政收入合计~城市维护建设税);abline(lm(地方财政收入合计~城市维
护建设税))
> plot(地方财政收入合计~房产税);abline(lm(地方财政收入合计~房产税))
> plot(地方财政收入合计~印花税);abline(lm(地方财政收入合计~印花税))
> plot(地方财政收入合计~契税);abline(lm(地方财政收入合计~契税))
> plot(地方财政收入合计~行政事业性收费收入);abline(lm(地方财政收入合计~行
政事业性收费收入))
2.多元线性回归的汇总输出
> lm.test_new=lm(地方财政收入合计~公共财政收入+增值税+营业税+企业所得税+个
人所得税+城市维护建设税+房产税+印花税+契税+行政事业性收费收入)
> summary(lm.test_new)#查看回归系数和模型的检验结果
Call:
lm(formula = 地方财政收入合计 ~ 公共财政收入 + 增值税 + 营业税 +
企业所得税 + 个人所得税 + 城市维护建设税 + 房产税 + 印花税 +
契税 + 行政事业性收费收入)
Residuals:
1 2 3 4 5 6 7 8 9 10 11
130734 -331440 100282 287608 -73537 28738 -153519 -77698 64031
42644 -10229
12 13 14
-24768 4711 12443
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.713e+06 1.486e+06 2.498 0.0879 .
公共财政收入 4.454e+00 1.129e+00 3.946 0.0290 *
增值税 7.929e+00 1.717e+00 4.618 0.0191 *
营业税 -1.152e+01 2.724e+00 -4.229 0.0242 *
企业所得税 3.482e+00 4.042e+00 0.861 0.4523
个人所得税 -2.204e+01 1.148e+01 -1.919 0.1508
城市维护建设税 -5.495e+00 4.516e+00 -1.217 0.3107
房产税 -6.289e+01 1.524e+01 -4.126 0.0258 *
印花税 1.341e+02 3.303e+01 4.059 0.0270 *
契税 -1.650e+01 7.616e+00 -2.166 0.1189
行政事业性收费收入 -1.589e+00 1.480e+00 -1.073 0.3618
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 295700 on 3 degrees of freedom
Multiple R-squared: 0.9995, Adjusted R-squared: 0.9978
F-statistic: 600.2 on 10 and 3 DF, p-value: 0.0001006
3.绘制四个相关系数图
> plot(lm.test_new,1)#残差,普通残差与拟合值的残差图
> plot(lm.test_new,2)#QQ图,若残差是来自正态总体分布的样本,则QQ图中的点
应该在一条直线上
> plot(lm.test_new,3)#标准化残差开方与拟合值的残差图(对于近似服从正态分布
的标准化残差,应该有95%的样本点落在[-2,2]的区间内。这也是判断异常点的直观方
法)
> plot(lm.test_new,4)#(cook统计量值越大的点越可能是异常值,但具体阀值是多
少较难判别)
4.逐步回归
> step(lm.test_new)#用step实现变量选择
Start: AIC=353.16
地方财政收入合计 ~ 公共财政收入 + 增值税 + 营业税 + 企业所得税 +
个人所得税 + 城市维护建设税 + 房产税 + 印花税 + 契税 + 行政事业性收费
收入
Df Sum of Sq RSS AIC
2.6237e+11 353.16
- 企业所得税 1 6.4900e+10 3.2727e+11 354.25
- 行政事业性收费收入 1 1.0075e+11 3.6312e+11 355.71
- 城市维护建设税 1 1.2950e+11 3.9187e+11 356.77
- 个人所得税 1 3.2207e+11 5.8444e+11 362.37
- 契税 1 4.1034e+11 6.7271e+11 364.34
- 公共财政收入 1 1.3621e+12 1.6245e+12 376.68
- 印花税 1 1.4406e+12 1.7030e+12 377.34
- 房产税 1 1.4891e+12 1.7515e+12 377.73
- 营业税 1 1.5640e+12 1.8264e+12 378.32
- 增值税 1 1.8649e+12 2.1272e+12 380.46
Call:
lm(formula = 地方财政收入合计 ~ 公共财政收入 + 增值税 + 营业税 +
企业所得税 + 个人所得税 + 城市维护建设税 + 房产税 + 印花税 +
契税 + 行政事业性收费收入)
Coefficients:
(Intercept) 公共财政收入 增值税 营业税
3.713e+06 4.454e+00 7.929e+00 -1.152e+01
企业所得税 个人所得税 城市维护建设税 房产税
3.482e+00 -2.204e+01 -5.495e+00 -6.289e+01
印花税 契税 行政事业性收费收入
1.341e+02 -1.650e+01 -1.589e+00
该程序步骤的相关建模图如下所示:
因此,根据以上对数据的处理结果以及建模图可分析、识别得出结论:
主要影响地方财政收入的因素有:公共财政收入,增值税,营业税,企业所得税,房产税,印花税。
问题二:利用时间序列及指数平滑预测对影响地方财政收入的数据进行分析处理,可以对广州市2015年的财政总收入及各个类别收入进行预测,具体步骤如下所示:
1.导入数据
> fujian=read.csv("C:/Users/RWY/Desktop/数据挖掘赛题/影响财政收入的主要因素.csv")
> fujian
年份 地方财政收入合计 增值税 营业税 企业所得税 房产税 印花税 公共财政收入
1 1999 1881388 288972 433360 277375 77562 21159 1761499
2 2000 2199077 350495 479698 309764 90776 28124 2005460
3 2001 2719058 443213 540075 483421 109140 30106 2461941
4 2002 2690984 526377 613161 236416 134061 35561 2458737
5 2003 3005475 581898 650119 268360 146223 42490 2747707
6 2004 3384477 528365 793520 326556 168904 67625 3028692
7 2005 4088545 816119 892678 373397 200221 64862 3712633
8 2006 4767231 967265 1027971 455820 239285 80913 4270831
9 2007 8389925 1115007 1235374 596693 262053 110676 5237862
10 2008 8431400 1287226 1279793 756412 305843 132520 6132194
11 2009 11076649 1375085 1516049 732282 349616 154364 7026527
12 2010 13991612 1594182 1777343 935248 416964 194584 8726470
13 2011 15351387 1573830 1625593 1061594 512657 211024 9794768
14 2012 15796804 1758311 1747616 1075045 612254 219623 11023961
15 2013 20881374 2216017 1623520 1155923 648012 260946 11418044
> attach(fujian)
The following objects are masked from fujian (pos = 3):
地方财政收入合计, 房产税, 年份, 企业所得税, 印花税, 营业税, 增值税
The following objects are masked from fujian (pos = 7):
地方财政收入合计, 房产税, 年份, 企业所得税, 印花税, 营业税, 增值税
The following objects are masked from fujian (pos = 8):
地方财政收入合计, 房产税, 公共财政收入, 年份, 企业所得税, 印花税, 营业税, 增值税
2.绘制时间序列图
> fujian=ts(fujian,start=1999) > par(mfcol=c(1,2),cex=0.5)
> plot(fujian[,2],xlab="时间",ylab="地方财政收入合计",type="n") > grid(col="lightblue")
> points(fujian[,2],type="o",xlab="时间",ylab="地方财政收入合计") > plot(fujian[,3],xlab="时间",ylab="增值税",type="n") > grid(col="lightblue")
> points(fujian[,3],type="o",xlab="时间",ylab="增值税") > plot(fujian[,4],xlab="时间",ylab="营业税",type="n") > grid(col="lightblue")
> points(fujian[,4],type="o",xlab="时间",ylab="营业税") > plot(fujian[,5],xlab="时间",ylab="企业所得税",type="n") > grid(col="lightblue")
> points(fujian[,5],type="o",xlab="时间",ylab="企业所得税") > plot(fujian[,6],xlab="时间",ylab="房产税",type="n") > grid(col="lightblue")
> points(fujian[,6],type="o",xlab="时间",ylab="房产税") > plot(fujian[,7],xlab="时间",ylab="印花税",type="n") > grid(col="lightblue")
> points(fujian[,7],type="o",xlab="时间",ylab="印花税") > plot(fujian[,8],xlab="时间",ylab="公共财政收入",type="n") > grid(col="lightblue")
> points(fujian[,8],type="o",xlab="时间",ylab="公共财政收入") 3.指数平滑预测
> fujian=ts(fujian,start=1999)
> dfczzchjforecast=HoltWinters(fujian[,2],beta=FALSE,gamma=FALSE) > dfczsrhjforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 2], beta = FALSE, gamma = FALSE)
Smoothing parameters: alpha: 0.9999202 beta : FALSE gamma: FALSE
Coefficients: [,1] a 20880968
> zzsforecast=HoltWinters(fujian[,3],beta=FALSE,gamma=FALSE) > zzsforecast
Holt-Winters exponential smoothing without trend and without seasonal
component.
Call:
HoltWinters(x = fujian[, 3], beta = FALSE, gamma = FALSE)
Smoothing parameters: alpha: 0.9999587 beta : FALSE gamma: FALSE
Coefficients: [,1] a 2215998
> yysforecast=HoltWinters(fujian[,4],beta=FALSE,gamma=FALSE) > yysforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 4], beta = FALSE, gamma = FALSE)
Smoothing parameters: alpha: 0.999953 beta : FALSE gamma: FALSE
Coefficients: [,1] a 1623526
> qysdsforecast=HoltWinters(fujian[,4],beta=FALSE,gamma=FALSE) > qysdsforecast=HoltWinters(fujian[,5],beta=FALSE,gamma=FALSE) > qysdsforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 5], beta = FALSE, gamma = FALSE)
Smoothing parameters: alpha: 0.9999538 beta : FALSE gamma: FALSE
Coefficients:
[,1] a 1155919
> fcsforecast=HoltWinters(fujian[,4],beta=FALSE,gamma=FALSE) > fcsforecast=HoltWinters(fujian[,6],beta=FALSE,gamma=FALSE) > fcsforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 6], beta = FALSE, gamma = FALSE)
Smoothing parameters: alpha: 0.9999328 beta : FALSE gamma: FALSE
Coefficients: [,1] a 648009.6
> yhsforecast=HoltWinters(fujian[,7],beta=FALSE,gamma=FALSE) > yhsforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 7], beta = FALSE, gamma = FALSE)
Smoothing parameters: alpha: 0.9999202 beta : FALSE gamma: FALSE
Coefficients: [,1] a 260942.7
> ggczsrforecast=HoltWinters(fujian[,8],beta=FALSE,gamma=FALSE) > ggczsrforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 8], beta = FALSE, gamma = FALSE)
Smoothing parameters:
alpha: 0.9999257 beta : FALSE gamma: FALSE
Coefficients: [,1] a 11418015
4.历史数据的拟合值
> dfczsrhjforecast$fitted Time Series: Start = 2000 End = 2013 Frequency = 1
xhat level 2000 1881388 1881388 2001 2199052 2199052 2002 2719016 2719016 2003 2690986 2690986 2004 3005450 3005450 2005 3384447 3384447 2006 4088489 4088489 2007 4767177 4767177 2008 8389636 8389636 2009 8431397 8431397 2010 11076438 11076438 2011 13991379 13991379 2012 15351278 15351278 2013 15796768 15796768 > zzsforecast$fitted Time Series: Start = 2000 End = 2013 Frequency = 1
xhat level 2000 288972.0 288972.0 2001 350492.5 350492.5 2002 443209.2 443209.2 2003 526373.6 526373.6 2004 581895.7 581895.7 2005 528367.2 528367.2 2006 816107.1 816107.1 2007 967258.8 967258.8 2008 1115000.9 1115000.9 2009 1287218.9 1287218.9
2010 1375081.4 1375081.4 2011 1594172.9 1594172.9 2012 1573830.8 1573830.8 2013 1758303.4 1758303.4 > yysforecast$fitted Time Series: Start = 2000 End = 2013 Frequency = 1
xhat level 2000 433360.0 433360.0 2001 479695.8 479695.8 2002 540072.2 540072.2 2003 613157.6 613157.6 2004 650117.3 650117.3 2005 793513.3 793513.3 2006 892673.3 892673.3 2007 1027964.6 1027964.6 2008 1235364.2 1235364.2 2009 1279790.9 1279790.9 2010 1516037.9 1516037.9 2011 1777330.7 1777330.7 2012 1625600.1 1625600.1 2013 1747610.3 1747610.3 > qysdsforecast$fitted Time Series: Start = 2000 End = 2013 Frequency = 1
xhat level 2000 277375.0 277375.0 2001 309762.5 309762.5 2002 483413.0 483413.0 2003 236427.4 236427.4 2004 268358.5 268358.5 2005 326553.3 326553.3 2006 373394.8 373394.8 2007 455816.2 455816.2 2008 596686.5 596686.5 2009 756404.6 756404.6 2010 732283.1 732283.1 2011 935238.6 935238.6 2012 1061588.2 1061588.2 2013 1075044.4 1075044.4
> fcsforecast$fitted Time Series: Start = 2000 End = 2013 Frequency = 1
xhat level 2000 77562.00 77562.00 2001 90775.11 90775.11 2002 109138.77 109138.77 2003 134059.32 134059.32 2004 146222.18 146222.18 2005 168902.47 168902.47 2006 200218.89 200218.89 2007 239282.37 239282.37 2008 262051.47 262051.47 2009 305840.06 305840.06 2010 349613.06 349613.06 2011 416959.47 416959.47 2012 512650.57 512650.57 2013 612247.30 612247.30 > yhsforecast$fitted Time Series: Start = 2000 End = 2013 Frequency = 1
xhat level 2000 21159.00 21159.00 2001 28123.44 28123.44 2002 30105.84 30105.84 2003 35560.56 35560.56 2004 42489.45 42489.45 2005 67622.99 67622.99 2006 64862.22 64862.22 2007 80911.72 80911.72 2008 110673.63 110673.63 2009 132518.26 132518.26 2010 154362.26 154362.26 2011 194580.79 194580.79 2012 211022.69 211022.69 2013 219622.31 219622.31 > ggczsrforecast$fitted Time Series: Start = 2000 End = 2013
Frequency = 1
xhat level 2000 1761499 1761499 2001 2005442 2005442 2002 2461907 2461907 2003 2458737 2458737 2004 2747686 2747686 2005 3028671 3028671 2006 3712582 3712582 2007 4270790 4270790 2008 5237790 5237790 2009 6132128 6132128 2010 7026461 7026461 2011 8726344 8726344 2012 9794689 9794689 2013 11023870 11023870 5.观测值和拟合值图 > par(cex=0.7)
> plot(fujian[,2],type="o",xlab="时间",ylab="地方财政收入合计") >
lines(fujian[,1][-1],dfczsrhjforecast$fitted[,1],type="o",lty=2,col="blue")
> legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) > plot(fujian[,3],type="o",xlab="时间",ylab="增值税") > lines(fujian[,1][-1],zzsforecast$fitted[,1],type="o",lty=2,col="blue") > legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) > plot(fujian[,4],type="o",xlab="时间",ylab="营业税") > lines(fujian[,1][-1],yysforecast$fitted[,1],type="o",lty=2,col="blue") > legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) > plot(fujian[,5],type="o",xlab="时间",ylab="企业所得税") >
lines(fujian[,1][-1],qysdsforecast$fitted[,1],type="o",lty=2,col="blue")
> legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) > plot(fujian[,6],type="o",xlab="时间",ylab="房产税") > lines(fujian[,1][-1],fcsforecast$fitted[,1],type="o",lty=2,col="blue") > legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) > plot(fujian[,7],type="o",xlab="时间",ylab="印花税") > lines(fujian[,1][-1],yhsforecast$fitted[,1],type="o",lty=2,col="blue") > legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) > plot(fujian[,8],type="o",xlab="时间",ylab="公共财政收入") >
lines(fujian[,1][-1],ggczsrforecast$fitted[,1],type="o",lty=2,col="blue")
> legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8) 6.获得2014年和2015年的的各预测值 > library(forecast)
> dfczsrhjforecast1=forecast.HoltWinters(dfczsrhjforecast,h=2) > dfczsrhjforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 20880968 18860732 22901204 17791284 23970652 2015 20880968 18024037 23737899 16511669 25250267 > zzsforecast1=forecast.HoltWinters(zzsforecast,h=2) > zzsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 2215998 2050501 2381495 1962893 2469104 2015 2215998 1981955 2450041 1858060 2573936 > yysforecast1=forecast.HoltWinters(yysforecast,h=2) > yysforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 1623526 1471717 1775335 1391354 1855698 2015 1623526 1408840 1838212 1295192 1951859
> qysdsforecast1=forecast.HoltWinters(qysdsforecast,h=2) > qysdsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 1155919 1013613 1298226 938280.1 1373558 2015 1155919 954672 1357167 848138.1 1463700 > fcsforecast1=forecast.HoltWinters(fcsforecast,h=2) > fcsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 648009.6 611932.4 684086.8 592834.3 703184.9 2015 648009.6 596990.5 699028.7 569982.6 726036.6 > yhsforecast1=forecast.HoltWinters(yhsforecast,h=2) > yhsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 260942.7 243421.6 278463.8 234146.5 287738.9 2015 260942.7 236165.1 285720.3 223048.7 298836.7 > ggczsrforecast1=forecast.HoltWinters(ggczsrforecast,h=2) > ggczsrforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95 2014 11418015 10825228 12010802 10511425 12324604 2015 11418015 10579718 12256311 10135951 12700079 > par(cex=0.7) > plot(dfczsrhjforecast1,type="o",lty=2,xlab="时间",ylab="地方财政收入合计",main="")
> plot(zzsforecast1,type="o",lty=2,xlab="时间",ylab="增值税",main="") > plot(yysforecast1,type="o",lty=2,xlab="时间",ylab="营业税",main="") > plot(qysdsforecast1,type="o",lty=2,xlab="时间",ylab="企业所得税",main="")
> plot(fcsforecast1,type="o",lty=2,xlab="时间",ylab="房产税",main="") > plot(yhsforecast1,type="o",lty=2,xlab="时间",ylab="印花税",main="")
> plot(ggczsrforecast1,type="o",lty=2,xlab="时间",ylab="公共财政收入",main="")
该程序步骤的相关建模图如下所示:
泰迪杯大学生数据挖掘竞赛论文报告
因此,根据以上对数据的处理结果以及建模图可分析、识别得出结论为:
“6.获得2014年和2015年的的各预测值”的预测值的80%h和95%置信区间或上图的指数平滑预测图所示。故有:
> dfczsrhjforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 20880968 18860732 22901204 17791284 23970652
2015 20880968 18024037 23737899 16511669 25250267
> zzsforecast1=forecast.HoltWinters(zzsforecast,h=2)
> zzsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 2215998 2050501 2381495 1962893 2469104
2015 2215998 1981955 2450041 1858060 2573936
> yysforecast1=forecast.HoltWinters(yysforecast,h=2)
> yysforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 1623526 1471717 1775335 1391354 1855698
2015 1623526 1408840 1838212 1295192 1951859
> qysdsforecast1=forecast.HoltWinters(qysdsforecast,h=2)
> qysdsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 1155919 1013613 1298226 938280.1 1373558
2015 1155919 954672 1357167 848138.1 1463700
> fcsforecast1=forecast.HoltWinters(fcsforecast,h=2)
> fcsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 648009.6 611932.4 684086.8 592834.3 703184.9
2015 648009.6 596990.5 699028.7 569982.6 726036.6
> yhsforecast1=forecast.HoltWinters(yhsforecast,h=2)
> yhsforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 260942.7 243421.6 278463.8 234146.5 287738.9
2015 260942.7 236165.1 285720.3 223048.7 298836.7
> ggczsrforecast1=forecast.HoltWinters(ggczsrforecast,h=2)
> ggczsrforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 11418015 10825228 12010802 10511425 12324604
2015 11418015 10579718 12256311 10135951 12700079
即对广州市2015年的财政总收入及各个类别收入的预测分别为:
地方财政收入合计:80%的置信区间[8024037,23737899] 95%的置信区间
[16511669,25250267]
增值税:80%的置信区间[981955,2450041] 95%的置信区间[1858060,2573936]
营业税:80%的置信区间[1408840,1838212] 95%的置信区间[1295192 195185]
企业所得税:80%的置信区间[954672,1357167] 95%的置信区间[848138.1,1463700] 房产税:80%的置信区间[596990.5,699028.7] 95%的置信区间[569982.6,726036.6] 印花税:80%的置信区间[236165.1,285720.3] 95%的置信区间[223048.7,298836.7] 公共财政收入:80%的置信区间[10579718,12256311] 95%的置信区间
[10135951,12700079]
注:以上单位均为:万元
问题三:利用时间序列及指数平滑预测对影响地方财政收入的数据进行分析处理,可以对广州市2015年的财政总支出进行预测,具体步骤如下所示:
1.导入数据
> fujian=read.csv("C:/Users/RWY/Desktop/数据挖掘赛题/地方财政支出合计.csv") > par(mfcol=c(1,2),cex=0.5)
> fujian
年份 地方财政支出合计
1 1999 2310900
2 2000 2585965
3 2001 3149752
4 2002 3501930
5 2003 3955165
6 2004 4470625
7 2005 4762754
8 2006 5594208
9 2007 8500119
10 2008 9979352
11 2009 10594961
12 2010 14871597
13 2011 17933480
14 2012 17969129
15 2013 22835069
> attach(fujian)
2.绘制时间序列图
> fujian=ts(fujian,start=1999)
> par(mfcol=c(1,2),cex=0.5)
> plot(fujian[,2],xlab="时间",ylab="地方财政支出合计",type="n")
> grid(col="lightblue")
> points(fujian[,2],type="o",xlab="时间",ylab="地方财政支出合计")
3.指数平滑预测
> fujian=ts(fujian,start=1999)
> dfczzchjforecast=HoltWinters(fujian[,2],beta=FALSE,gamma=FALSE)
> dfczzchjforecast
Holt-Winters exponential smoothing without trend and without seasonal component.
Call:
HoltWinters(x = fujian[, 2], beta = FALSE, gamma = FALSE)
Smoothing parameters:
alpha: 0.9999239
beta : FALSE
gamma: FALSE
Coefficients:
[,1]
a 22834699
4.历史数据的拟合值图
> dfczzchjforecast$fitted
Time Series:
Start = 2000
End = 2013
Frequency = 1
xhat level
2000 2310900 2310900
2001 2585944 2585944
2002 3149709 3149709
2003 3501903 3501903
2004 3955130 3955130
2005 4470586 4470586
2006 4762732 4762732
2007 5594145 5594145
2008 8499898 8499898
2009 9979239 9979239
2010 10594914 10594914
2011 14871271 14871271
2012 17933247 17933247
2013 17969126 17969126
5.观测值和拟合值
> par(cex=0.7)
> plot(fujian[,2],type="o",xlab="时间",ylab="地方财政支出合计")
>lines(fujian[,1][-1],dfczzchjforecast$fitted[,1],type="o",lty=2,col="blue")
> legend(x="topleft",legend=c("观测值","拟合值"),lty=1:3,cex=0.8)
6.获得2014年和2015年的地方财政支出预测值
> library(forecast)
> dfczzchjforecast1=forecast.HoltWinters(dfczzchjforecast,h=2)
> dfczzchjforecast1
Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
2014 22834699 20761187 24908210 19663537 26005860
2015 22834699 19902422 25766975 18350169 27319228
> par(cex=0.7)
> plot(dfczzchjforecast1,type="o",lty=2,xlab="时间",ylab="地方财政支出合计",main="")
7.导入最近几年影响财政支出的主要影响因素
> fujian=read.csv("C:/Users/RWY/Desktop/数据挖掘赛题/财政支出汇总.csv") > fujian
年份 地方财政支出合计 一般预算支出 一般公共服务 国防 公共安全 教育 科学技术 文化体育与传媒
1 2007 8500119 6236917 832122 6932 728236 807715 211587 136110
2 2008 9979352 7133508 1049968 12367 811365 959475 262213 183922
3 2009 10594961 7899155 1134713 13591 918799 1103199 323623 313712
4 2010 14871597 9773199 1222997 17142 1114366 1126343 319379 524684
5 2011 17933480 11812454 1371273 15753 1031585 1753319 426914 563680
6 2012 17969129 13436451 1396058 19823 1055448 2234976 521165 274347
泰迪杯大学生数据挖掘竞赛论文报告
7 2013 22835069 13861349 1518341 14170 1159792 2539473 541912 225107
社会保障和就业 医疗卫生 城乡社区事务 农林水事务 交通运输
1 721587 327795 734027 172272 113680
2 882718 406167 832210 195146 264364
3 1020727 480158 630786 210721 465099
4 1141224 513908 924110 389238 406399
5 1324756 676704 538433 582644 510137
6 1264558 748842 2214490 635455 602983
7 1453256 868958 2146340 736943 669594
该程序步骤的相关建模图如下所示:
因此,根据以上对数据的处理结果以及建模图可分析、识别得出结论为:
对广州市2015年的财政总收入及财政总支出的预测分别为:
地方财政收入合计:80%的置信区间[8024037,23737899] 95%的置信区间
[16511669,25250267]
地方财政支出合计:80%的置信区间[19902422,25766975] 95%的置信区间
泰迪杯大学生数据挖掘竞赛论文报告
[18350169,27319228]
经过分析可得2015年的地方财政收入预测小于地方财政支出预测,故预测2015年财政状态为赤字。建议:需要削减一部分大额开支,可以适当削减地方财政支出,如一般预算支出、一般公共服务等或是适当增加各种税收等,以保持收支平衡。
注:以上单位为:万元
3. 结论
本文采用了1999年到20013年广州市财政局公布的数据,对广州市财政收入中增值税,营业税企业所得税,个人所得税,城市维护建设税,房产税,印花税,契税,行政事业性收费收入,研究公共财政支出的规模、结构和效率的变化趋势,有助于了解广州市公共财政支出能否与经济发展相和谐,实施预算管理体制改革后的公共财政支出是否积极有效地发挥了作用。 本文通过对广州市公共财政支出的发展历程、结构演变以及由其带来的经济和社会效应进行实证分析,并使用聚类方法对广州市财政局未来财政支出的预测,证实了广州市的公共财政支出与经济增长具有较高相关性,使财政支出结构效率明显提高,政府的“公共性”更加突出,体现在公共财政支出上是“公共化程度”的不断提高。
4. 参考文献
统计学—基于R 贾俊平编著 中国人民大学出版社
数理统计学 茆诗松、吕晓玲编著 中国人民大学出版社
抽样调查理论与方法 冯士雍、倪加勋、邹国华编著 中国人民统计出版社