新浪博客

预测税收收入

2014-09-04 08:38阅读:
我国税收收入预测及方法选择
----基于多模型动态分析法
注:本文数据均由公开渠道收集整理。 未经作者允许,禁止转载和引用
摘要:本文结合我国税收收入历年数据和重点税源企业历史入库数据,利用随机森林方法选择变量,建立人工神经网络、支持向量机、多元自适应回归样条三种预测模型,通过对模型进行评估,选择最优模型对税收收入进行预测,最后提出了存在的问题和进一步改进的思路。
一、引言
2014年,因为经济运行受全球影响,存在下行的压力,税收减收因素较多,税收收入形势比较严峻,所以必须加强对税收收入信息的分析监控,增强应对税收风险的能力。同时,税收收入预测是税务各级部门制定相关征管、稽查策略的重要参考,以适应纳税人规模的不断扩大和专业化管理的逐步深入的需要。因此,迫切需要建立一套税收收入预测模型。
目前现行的税收预测模型包括回归、时间序列、人工神经网络等。这些模型的建立或是关注税收收入与相关经济要素,或是发掘税收收入自身的规律特点,有各自的适用范围和优势。但随着数据挖掘和机器学习的理论的进一步发展,各种税收预测模型有较大需要细化提高的空间,同时也存在若干难点,总结为如下两方面:
首先,预测模型需要创新研究。现行的税收预测往往基于指数平滑法、时间序列法等较为传统的预测模型,虽然时间序列法以税种自身的发展变化为重点,在这方面有着天然的优势。但是随着大数据的出现、数据挖掘的发展和机器学习的深入,涌现出支持向量机、组合建模等先进的建模的理论,需要我们引入到税收收入预测中来。
其次,模型参数需要自适应调节。比如人工神经网络具有较好的容错和容差能力,但在神经网络结构上有很多人为因素,且模型的复杂性使
其不能精确预测每一个系统参数,从而导致模型的泛化能力较差。税收收入每月或每季与上一月度或季节有较强的关联性。针对上一月度或季节的数据,自适应调节模型参数,达到动态优化参数的目的,得到更好的拟合效果。
本文的研究工作是针对上述问题展开的,主要研究过程是:
□通过多模型预测税收收入。包括人工神经网络模型、支持向量机模型、ARMA模型,并通过三者的组合模型取得最优的预测效果。
□建立自适应参数调节过程。利用包含上年最新历史数据及变换来确定模型参数,预测下一年度税收收入。
二、预测模型简介
(一)神经网络模型
基于神经网络的税收收入预测问题可转化为如下的数学模型。税收收入样本序列( 预测税收收入 , 预测税收收入 ,…, 预测税收收入 )反应了税收收入一定滞后期的相对变化率, 预测税收收入 为描述影响税收收入的某一指标, 预测税收收入 表示当期的税收收入较前期的变化率,利用人工神经网络从历史数据中,通过训练建立一定滞后期的相对变化率与较前期的变化率的神经元映射关系,从而预期税收收入。
(二)支持向量机模型
支持向量机模型SVM基于核的回归函数形式为:
预测税收收入
其中, 预测税收收入 为拉格朗日乘子, 预测税收收入 只有一小部分不为0,它们对应的样本就是支持向量; 预测税收收入 为支持向量的个数; 预测税收收入 为核函数。
(三)ARIMA模型
ARIMA模型应用于预测非平稳时间序列。其一般形式为:
预测税收收入
式中: 预测税收收入 为关于t的任意一组时间序列; 预测税收收入 为假定的白噪声序列。BB 预测税收收入 = 预测税收收入 的延迟算子;在为差分阶数。
(四)组合模型
组合模型ANN+SVM+ARIMA就是利用ANNSVMARMA三个模型预测结果,通过线性回归得出组合模型。
三 自适应参数调节
模型参数是模型拟合的关键因素,传统的做法一是凭经验固定建模参数,对样本数据进行预测,二是验证有限个数的参数后确定。本文采用动态最优法确定建模参数(见图1),令M年度税收收入 预测税收收入 为响应变量, 预测税收收入 预测税收收入 影响 预测税收收入 的自变量,预测M+1年度税收收入 预测税收收入 时,针对 预测税收收入 预测税收收入 自变量矩阵,给定模型参数的取值范围和判断标准,由程序自动选择最优参数。当预测M+2年度时,针对 预测税收收入 预测税收收入 自变量矩阵,给定模型参数的取值范围和判断标准,由程序再次自动选择最优参数。这样,通过自变量矩阵的向前跟进,动态调节模型参数,符合税收收入时间序列的特征,能进一步提高数据的预测性能。
预测税收收入
1:自适应参数调示意图
四 我国税收收入的实证分析
本文数据采集自中国国家统计局网站。运用R软件对19502013年我国税收收入建立自适应参数调节的ANN模型、SVM模型、ARIMA模型。
利用样本数据自身变化规律进行ANNSVM模型拟合,我们需要对年度税收收入进行转换,令Xi为税收收入序列(1950<=i<=2013)Xij为第i-1年度相对于上(i-1-j个年度的税收收入变化率,即:Xij= lag(ROC(Xi-1 , n=j), 1)Xi作自变量,Xij做为响应变量。
由于我国税收收入呈明显的增长趋势,在ARIMA组合模型中,税收收入为非平稳时间序列,先对税收收入序列取对数后再一阶差分平稳化。令Xi为税收收入序列对数后一阶差分,即:Xi=diff(log(税收收入))
现用20052013年实际数据进行分别进行自适应参数调节的ANNSVMARIMA模型预测,再利用ANNSVMARIMA三个模型预测结果,通过线性回归得出组合模型
COMB=5126.1905+3.3945×SVM-2.7479×ANN+0.2750×ARIMA
表一是各模型对20092013年税收收入的预测结果、误差及误差率。
表一:模型预测结果表
年份
2009
2010
2011
2012
2013
原始值(亿元)
59521.59
73210.79
89738.39
100614.28
110497.00
SVM模型
预测值
63643.21
69861.45
86487.36
105923.27
116537.21
残差
-4121.623
3349.342
3251.031
-5308.993
-6040.209
误差率
0.06924586
0.04574930
0.03622787
0.05276580
0.05466401
ANN模型
预测值
63758.68
69664.63
86018.84
105486.71
117995.62
残差
-4237.090
3546.162
3719.548
-4872.428
-7498.624
误差率
0.07118577
0.04843770
0.04144879
0.04842680
0.06786270
ARIMA模型
预测值
62890.24
67833.45
90414.15
106375.69
119367.82
残差
-3368.6478
5377.3416
-675.7648
-5761.4108
-8870.8167
误差率
0.056595394
0.073450123
0.007530387
0.057262356
0.080281063
组合模型
预测值
63257.27
69495.68
87202.75
104072.21
109301.10
残差
-3735.68
3715.11
2535.64
-3457.93
1195.90
误差率
-0.062761748
0.050745387
0.028255857
-0.034368217
0.010822936
表二是利用ANNSVMARIMA模型以及组合模型对税收收入20052013年数据进行预测的预测精度度量数据。通过比较分析可知,无论从预测误差的均方根和还是平均绝对预测误差来比较,组合模型的预测精度明显比其它三个单一模型的精度更高。
表二 模型预测精度

ANN
SVM
ARIMA
ANN+SVM+ARIMA
平均绝对误差
3592.659
3413.387
4219.291
2179.295
均方根误差
4153.768
3842.402
4857.239
2500.119
我们利用ANNSVMARIMA三个模型分别预测2014年的税收收入为129224.73134371.77130334.79亿元,利用组合模型预测的税收收入为141996.6亿元,比2013110497亿元增加31499.6亿,增长28.51%。在0.95的置信度下,2014年税收收入的预计范围为[109544.8, 174456.3],预计增长范围为[-0.86%,58.88%]

五、结论

注:本文数据均由公开渠道收集整理。 未经作者允许,禁止转载和引用

我的更多文章

下载客户端阅读体验更佳

APP专享