首页> 中国专利> 一种自动识别财税文件中征税对象的抽取方法

一种自动识别财税文件中征税对象的抽取方法

摘要

本发明公开了一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:S1、构建征税对象抽取模型;S2、将涉税语料数据文本序列输入征税对象抽取模型中,结合语义信息特征概率分布和句法特征概率分布,得到预测的征税对象;本发明解决了现有技术在税法领域对征税对象识别准确率低的问题。

著录项

  • 公开/公告号CN112733526A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 成都不问科技有限公司;

    申请/专利号CN202110121720.3

  • 申请日2021-01-28

  • 分类号G06F40/211(20200101);G06F40/30(20200101);G06Q40/00(20120101);

  • 代理机构51229 成都正华专利代理事务所(普通合伙);

  • 代理人李蕊

  • 地址 610041 四川省成都市中国(四川)自由贸易试验区成都高新区天府大道中段1388号11栋8层3号

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本发明涉及文本处理技术领域,具体涉及一种自动识别财税文件中征税对象的抽取方法。

背景技术

实体在文本中的引用有三种形式:命名性指称,名词性指称和代词性指称。一般的是抽取时间、机构名、人名、地名等,不同领域内可以定义领域内的实体类型。税法中的征税对象其实就一种领域内的实体。在涉税文件中征税对象可以是一个词,但更多的情形是一个连续词组。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。实体关系是指两个实体之间的关系。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。

中文Bert模型就是一种基于深度学习方法的语言模型。Bert全称是Bidirectional Encoder Representation from Transformers。对大规模文本中的字按照一定比例随机被标记符号[MASK]替换后,另一方面训练的输入是句子A和B,经过对文本数据顺序处理后,B有一半的几率是A的下一句。通过这些数据让Bert训练并预测[MASK]位置的真实字和判断B是否是原始文本中A的下一句。通过这个方法,可以训练到一个字向量。这些字向量是从大规模文本中学到的,因此包含了从大规模文件中学习到的语义信息,通过这样一种无监督的学习方法就可以字,词,句的语言信息表达为向量。在自然语言处理任务中,应用bert编码每个字或句子的向量特征作为下游任务的输入取得了一系列惊艳的结果。

征税对象抽取和命名实体任务相同都属于序列标注任务,在常见的命名实体任务中常用的方案是bilstm-crf,输入序列经过bilstm(双向长短时记忆网络)编码后,将编码信息输入到crf层(条件随机场)做序列标注;另一种方案是文本序列经过bert编码输出每个位置上字的向量表达特征,将向量作为bilstm-crf网络的输入,最后得到预测结果。虽然这两种方法在通用领域的命名实体任务取得不错的效果,但是在税法领域内,存在一些问题:不同于常见的命名实体,征税对象实体不是一个词,更多是由几个词,甚至几个词组构成的,因此在较长的征税对象任务中出现序列标注错误的现象。要提高模型识别准确率,必须要将其他维度的信息考虑进模型中。

发明内容

针对现有技术中的上述不足,本发明提供的一种自动识别财税文件中征税对象的抽取方法解决了现有技术在税法领域对征税对象识别准确率低的问题。

为了达到上述发明目的,本发明采用的技术方案为:一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:

S1、构建征税对象抽取模型;

S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。

进一步地:步骤S2中征税对象抽取模型包括:12层的bert模型、bilstm模型、全连接层和新型CRF模型。

进一步地:步骤S2包括以下分步骤:

S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;

S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布

S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;

S24、将语义信息特征概率分布

进一步地:步骤S23包括以下分步骤:

S231、将句法信息特征沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵N

S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵N

S233、对每个线性变换量数据矩阵N

S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;

S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵;

S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;

S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。

上述进一步方案的有益效果为:文本中词与词之间依存关系信息,句子结构信息是由一些一系列连续词组构成的,词组长度可能超过分割的范围,通过对相邻的两个句法信息特征向量进行mean-pool处理,可以将一个减小因分割错误导致的误差。

进一步地:步骤S22中语义信息特征概率分布

其中,Z

上述进一步方案的有益效果为:根据语义信息特征概率分布

进一步地:步骤S237中句法特征概率分布P(Z|X)的计算公式为:

其中,F=(f

进一步地:步骤S24中新型CRF模型的目标优化函数为:

其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Z

综上,本发明的有益效果为:

1、考虑到税法相关法律法规文件,行文风格统一,因此将句法结构特征和文本语义信息结合在一起进行抽取征税对象。

2、不同于以前的模型知识利用bert顶层表征特点,本方法利用了中间层的信息,抽取文本序列和句法特征信息。

3、不同于以前的CRF方法,改进的CRF可以融合句法特征信息。

附图说明

图1为一种自动识别财税文件中征税对象的抽取方法的流程图。

具体实施方式

下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

征税对象又叫课税对象、征税客体,是指税法规定的对什么征税,是征纳税双方权利义务共同指向的客体或标的物,是区别一种税与另一种税的重要标志。在税法场景中,用户根据自己经济活动来确定征税方案,计算机需要将用户输入的经济活动将税法文件中的某个定义征税对象联系起来,这样才能给出准确的信息。随着财税系统越来越智能化,利用计算机技术提取税收法规政策中的征税对象可以辅助财税相关从业者,政府工作人员等做税收法规政策解读。

如图1所示,一种自动识别财税文件中征税对象的抽取方法,包括以下步骤:

S1、构建征税对象抽取模型;

S2、将涉税语料数据文本序列输入征税对象抽取模型中,得到预测的征税对象。

步骤S2包括以下分步骤:

S21、将涉税语料数据文本序列输入12层的bert模型进行处理,得到bert模型的第11层输出的语义信息特征和第6层输出的句法信息特征;

S22、将语义信息特征输入bilstm模型,得到语义信息特征概率分布

步骤S22中语义信息特征概率分布

其中,Z

S23、根据句法信息特征,计算句法特征概率分布P(Z|X),其中,Z为句法信息特征;

步骤S23包括以下分步骤:

S231、将句法信息特征(句法信息特征本身即是矩阵)沿着句法信息特征矩阵行的方向切分成2S个(n/2S)*d的小矩阵N

S232、采用d*p的参数矩阵W对每个小矩阵进行线性变换,得到线性变换量数据矩阵N

S233、对每个线性变换量数据矩阵N

全局mean-pool过程为:每列求和N

S234、将2S个句法信息特征向量构建为一个2S*p的第一句法信息特征向量矩阵;

S235、沿着第一句法信息特征向量矩阵的行方向对第一句法信息特征向量矩阵的相邻的两个句法信息特征向量进行mean-pool处理,得到S*P的第二句法信息特征向量矩阵;

在步骤S235中mean-pool的窗口参数为(2,p),步长为1。

S236、将第二句法信息特征向量矩阵输入全连接层中,得到全连接层输出向量F;

F=relu(WA+b)

其中,relu(·)为激活函数,W权重矩阵,A为第二句法信息特征向量矩阵,b为偏置。

S237、计算全连接层输出向量F的句法特征概率分布P(Z|X)。

步骤S237中句法特征概率分布P(Z|X)的计算公式为:

其中,F=(f

S24、将语义信息特征概率分布

步骤S24中新型CRF模型的目标优化函数为:

其中,γ为目标优化函数,Y为征税对象文本序列,K为句法特征类型个数,P(Z

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号