公开/公告号CN112257842A
专利类型发明专利
公开/公告日2021-01-22
原文格式PDF
申请/专利权人 河北航天信息技术有限公司;
申请/专利号CN202011008803.3
申请日2020-09-23
分类号G06N3/04(20060101);G06N3/08(20060101);G06Q40/00(20120101);
代理机构12229 天津合正知识产权代理有限公司;
代理人李成运;石熠
地址 050000 河北省石家庄市高新区新石中路377号
入库时间 2023-06-19 09:36:59
技术领域
本发明属于税务管理领域,特别是涉及到一种基于LSTM的智能导税模型构建方法及装置。
背景技术
对于纳税人来说,办理税务方面的事务是既非常重要又非常繁琐的工作,虽然现在税务大厅采取了各种简化流程的方法,但都没有带来根本性的改变。
目前推行的“互联网+政务服务”,探索智能化、多元化新机制,对于税务工作也是一个新的发展方向,如果能够在自助办税方向在纳税人到达税务大厅后智能预测其可能办理的涉税业务,减少纳税人等待、查询、询问时间,则可极大的提高纳税人涉税事项办理效率,有效的提升纳税人满意度。为了实现智能预测功能,则必须构建针对纳税人的智能导税模型。
发明内容
本发明提出一种基于LSTM的智能导税模型构建方法及装置,根据涉税行为构建预测模型,达到对办税人员进行智能预测的目的。
为了实现上述目的,本发明的技术方案是这样实现的:
一种基于LSTM的智能导税模型构建方法,包括:
S1、读取办税人员历史办税业务数据;主要包括从登记业务、社保业务、申报缴税等方向提取纳税人的历史业务数据;
S2、特征处理,按时间先后整理涉税行为,对特征进行补零化;
S3、将处理完的纳税人行为特征数据分为训练集与测试集;
S4、将训练集作为LSTM模型的输入,使用LSTM模型进行训练,输入数据通过输入门、遗忘门和输出门,得到模型训练后的结果;
S5、将训练好的LSTM模型应用到划分的测试集上,进行预测。
进一步的,步骤S2中所述特征处理的具体方法为:
S201、将历史办税业务数据作为训练数据,生成历史办税行为记录序列,以时间发生前后为排列规则;
S202、每个纳税人从注册开始办税行为整理为一条时间序列数据;
S203、所述时间序列数据设有最长序列限制,长度不满足最长序列限制的序列数据,进行前补零处理。
进一步的,步骤S3中,特征数据划分训练集与测试集的比例为7:3。
进一步的,步骤S4中,将当下时刻的税务行为作为现阶段输入X
本发明另一方面还提出了一种基于LSTM的智能导税模型构建装置,包括:
读取模块,用于读取办税人员历史办税业务数据;主要包括从登记业务、社保业务、申报缴税等方向提取纳税人的历史业务数据;
特征处理模块,用于办税业务数据的特征处理,按时间先后整理涉税行为,对特征进行补零化;
划分模块,用于将处理完的纳税人行为特征数据分为训练集与测试集;
训练模块,用于将训练集作为LSTM模型的输入,使用LSTM模型进行训练,输入数据通过输入门、遗忘门和输出门,得到模型训练后的结果;
预测模块,用于将训练好的LSTM模型应用到划分的测试集上,进行预测。
进一步的,所述特征处理模块包括:
序列生成单元,用于将历史办税业务数据作为训练数据,生成历史办税行为记录序列,以时间发生前后为排列规则;
纳税人整理单元,用于将每个纳税人从注册开始办税行为整理为一条时间序列数据;
补零化单元,所述时间序列数据设有最长序列限制,长度不满足最长序列限制的序列数据,进行前补零处理。
进一步的,所述划分模块将特征数据划分训练集与测试集的比例为7:3。
进一步的,所述训练模块中,将当下时刻的税务行为作为现阶段输入X
与现有技术相比,本发明具有如下的有益效果:
(1)本发明使用长短记忆的循环神经网络算法LSTM对具有时间信息的涉税业务数据进行处理,有效实现了涉税业务的智能化;
(2)本发明利用纳税人历史涉税行为进行智能分析,梳理纳税人涉税行为规律,根据涉税行为构建预测模型,达到对办税人员进行智能预测,并推荐税务业务办理。提高涉税事项办理效率。
附图说明
图1是本发明实施例的整体模型框架图;
图2是本发明实施例的实施流程图;
图3是本发明实施例的LSTM单元内部示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
下面将参考附图并结合实施例来详细说明本发明。
随着计算机科学技术的发展,神经网络逐渐成为人工智能领域中的研究热点。循环神经网络(RNN)不同于全连接神经网络,循环神经网络由于其具有记忆特性,可以处理前后输入有关系的序列数据,从而在自然语言处理领域中有着广泛的应用。
RNN将时序的概念引入到网络结构设计中,使其在时序数据分析中表现出更强的适应性。RNN的应用场景为输入数据具有依赖性且是序列模式,即前一个输入和后一个输入是有关系的,所以可以利用循环神经网络来训练预测模型,但由于传统的循环神经网络在较长的序列中不能很好地传递信息,因此选择了改进后的循环神经网络——长短期记忆网络算法(LSTM,Long Short-Term Memory),简称LSTM。LSTM算法弥补了RNN的梯度消失和梯度爆炸、长期记忆能力不足等问题,使得循环神经网络能够真正有效地利用长距离的时序信息。
本发明所针对的涉税业务也是具有时间信息的数据,因此本发明利用长短期记忆的循环神经网络算法对涉税业务数据进行处理。
本发明的整体模型框架如图1所示,实施流程如图2所示,具体包括:
一、读取办税人员历史办税信息,主要包括从登记业务、社保业务、申报缴税等方向提取纳税人的历史业务数据,作为原始纳税人办税行为特征数据;本实施例中以河北省X市为数据源,收集整理X市纳税人在2018年1月1日至今所有业务数据,税务机关精确到区县局。
二、特征处理,按时间先后整理涉税行为,对特征进行补零化。
将获取的业务数据,作为训练数据,生成历史办税行为记录序列,如以{y
因不同的企业办税业务多少不一,长度不一致,LSTM要求输入的训练样本长度一致,因此,本实施例中对训练样本序列最长序列限制为60,对于不满足60的序列数据,选择需对其进行前补零处理,以满足模型输入的样本的一致性。
三、将处理完的纳税人行为特征数据分为训练集与测试集,比例为7:3,训练集为7份,测试集为3份,作为特征数据预处理。
四、将上述训练集作为LSTM模型的输入,其中LSTM采用基于Keras的LSTM神经网络模型,模型由3层LSTM,每层由49个输出维度构成,本专利属于多分类预测模型,因此本专利的LSTM模型目标函数选取categorical_crossentropy,亦称作多类的对数损失,使用该目标函数时,需要将标签转化为形如(nb_samples,nb_classes)的二值序列。
LSTM是由多个同构单元格(cell)组成,内部示意图如图3所示,每个单元主要包括以下部分:输入门(Input Gate“I”),遗忘门(Forget Gate“F”),输出门(Output Gate“O”),存储状态(Memory State“C”),隐藏状态(Hidden State“H”)。σ表示sigmoid函数,tanh表示激活函数tanh()。
LSTM用两个门来控制单元状态c的内容,一个是遗忘门,它决定了上一时刻的单元状态有多少保留到当前时刻;另一个是输入门,它决定了当前时刻网络的输入有多少保存到单元状态。LSTM用输出门来控制单元状态有多少输出到LSTM的当前输出值。采用LSTM进行训练时主要流程如下:
1.如LSTM单元结构图所示,其中,Xt表示第t次输入,Ht表示第t次输出,Ct表示当前细胞状态;
2.遗忘门,决定从单元中舍哪些信息。利用公式(1)计算遗忘门
f
其中,h
3.输入门,利用公式(2)确定需要在细胞状态保存哪些信息。
其中,W
4.利用公式(3)计算细胞状态Ct,更新细胞状态。
C
(3)
5.输出门,利用公式(4)确定输出值.
h
6.LSTM利用反向传播和梯度下降算法优化LSTM模型的目标函数,将整个训练数据集通过多次迭代计算本专利模型的参数,最后得到基于LSTM的预测模型。
五、根据LSTM训练流程公式,将当下时刻的税务行为作为现阶段输入X
六、将训练好的LSTM模型应用到划分的测试集上,进行预测。
本实施例中整理特征数据集20万,其中,训练集数据为14万,测试集数据为6万。经过反复调试试验,利用14万训练样本的到基于LSTM的智能导税模型,利用训练好的预测6万测试样本,得到的准确率为87.3%,达到实际使用标准,成功的利用人工智能方法对涉税行为进行了预测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 基于LSTM模型的信用风险预测方法及装置
机译: 基于LSTM模型的信用风险预测方法及装置
机译: 基于HLSTM模型的声学建模方法和装置以及存储介质