首页> 中国专利> 一种基于纳税人年报的纳税人税务交易行为识别方法

一种基于纳税人年报的纳税人税务交易行为识别方法

摘要

一种基于纳税人年报的纳税人税务交易行为识别方法,利用领域知识构建纳税人税务交易行为核心触发词库,对税务数据进行逐句分析,并根据核心触发词库对税务数据进行过滤,对待处理的句子进行分词、词性标注、句法分析等操作构建特征向量。最后,采用多元分类和条件随机场等方法抽取出与税务相关的收购、重组、变更、经营四种典型交易行为。本发明的贡献在于为税务数据构建触发词库并提供触发词的自动识别功能,利用机器学习的方法从税务数据中抽取纳税人的交易行为,为纳税人的缴税内容提供参考。

著录项

  • 公开/公告号CN104156351A

    专利类型发明专利

  • 公开/公告日2014-11-19

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN201410389579.5

  • 申请日2014-08-08

  • 分类号G06F17/27;G06F17/30;G06Q40/00;

  • 代理机构西安通大专利代理有限责任公司;

  • 代理人陆万寿

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-12-17 03:09:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-26

    授权

    授权

  • 2014-12-17

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20140808

    实质审查的生效

  • 2014-11-19

    公开

    公开

说明书

技术领域

本发明属于计算机应用领域,具体涉及一种基于纳税人年报的纳税人税务 交易行为识别方法。

背景技术

在现实经济生活中,存在部分企业利用税目、税收优惠、少报收入偷税等 手段进行偷税,如对企业下属分支机构以及参加展销会、交易会的经营收入不 报税、设立假合资企业、隐瞒或者少记销售收入、隐瞒投资收入等。缺乏这些 企业经营和交易信息的支持,国家税务系统难以识别大量偷税骗税行为,导致 税收流失率和流失税金居高不下。通过从国家电子税务收集的纳税人年度报表 中自动抽取与税务相关的纳税人交易行为,核对纳税人申报的纳税内容,对发 现和识别偷税漏税行为十分必要。在税务分析系统中,对透漏税的行为预防、 检测和分析已有不少的研究成果和专利。

专利《一种企业税务档案管理平台CN103116860A》提供了一种企业税务 档案管理平台,获取企业涉税信息并建立档案,构建税务事项跟踪管理模块和 查询模块,使企业的税务人员能及时发现并管控企业涉税方面的潜在风险,亦可 以查询企业与税局之间的交流所产生的所有资料或档案,该专利从企业角度收 集并建立纳税人税务信息,但是还不能自动识别纳税人信息。

发明内容

本发明的目的在于提出一种基于纳税人年报的纳税人税务交易行为识别 方法,该方法能够自动识别纳税人信息。

为了达到上述目的,本发明采用的技术方案包括以下步骤:

1)税务领域触发词表的构建:

1.1)抽取纳税人年报训练文档的数据中所有句子作为触发词构建的输入数 据;

1.2)利用谓语‐论元模型解析输入数据中所有句子以抽取所有句子中的主谓 关系二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj),当主谓关系二元组 SBV(Vsbv,sub)中的动词Vsbv和动宾关系二元组VOB(Vvob,obj)中的动词Vvob相同时,抽 取主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv作为候选触发词并生成候选触发词 集合;其中,sub为主语,obj为宾语;

1.3)使用最大熵模型ME将候选触发词集合中的选触发词的词性分为8类, 分别是系动词VX、助动词VZ、形式动词VF、趋向动词VQ、补动动词VB、一 般动词VG、名动词VN以及副动词VD,然后滤除系动词VX、助动词VZ、形式 动词VF、趋向动词VQ、补动动词VB以及副动词VD,形成由一般动词VG和 名动词VN作为候选触发词的过滤后候选触发词集合;

1.4)根据过滤后候选触发词集合中候选触发词在税务领域术语库和纳税人 年报训练文档中的分布情况计算过滤后候选触发词集合中所有的候选触发词 与税务领域的相关度,其计算公式为:

rel(v)=Freqs(v)/Freqa(v)

其中,rel(v)是候选触发词v与税务领域相关度值,Freqs(v)是候选触发词v 出现在税务领域术语库中的频率,Freqa(v)是候选触发词v出现在纳税人年报 训练文档中的频率;

1.5)根据rel(v)的大小对过滤后候选触发词集合中所有候选触发词进行排 序,选取前100个rel(v)所对应的候选触发词以形成税务领域触发词表;

2)触发词检测:

2.1)对纳税人年报训练文档中触发词所在的句子进行人工标注,以标注 出所在句子中的触发词以及出现的位置;然后对触发词所在的句子进行分词以 及词性标注,判断分词结果与人工标注的触发词的词性是否一致,将不一致的 触发词的词性人工标注情况进行记录以生成分词勘误表;

2.2)对待检测的纳税人年报中所有交易行为描述句进行分词;将所有交 易行为描述句的分词结果与税务领域触发词表中的候选触发词进行匹配;匹配 成功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到 其对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选 触发词不做任何处理;

2.3)对待检测的纳税人年报中所有交易行为描述句的分词结果使用分词 勘误表进行更新,并使用税务领域触发词表中的候选触发词与更新后的每个交 易行为描述句的分词结果分别进行匹配,匹配成功时,抽取税务领域触发词表 中的候选触发词作为已知触发词,并同时得到其对应的候选交易行为描述句; 匹配不成功时,对税务领域触发词表中的候选触发词不做任何处理;

2.4)计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2 的相似度trSim(v1,v2),相似度计算公式为:

trSim(v1,v2)=constructSim(v1,v2)×wordSim(v1,v2)

其中,constructSim(v1,v2)表示未知触发词与已知触发词的构词结构相似度, wordSim(v1,v2)表示未知触发词与已知触发词基于《知网》的语义相似度;

当时,抽取税务领域触发词表中未被抽取的候选 触发词v1作为未知触发词,并同时得到其对应的候选交易行为描述句,其中, triggerTable为税务领域触发词表,triggerTable.size为税务领域触发词表的大 小,α为调节因子;

2.5)依据向量空间模型VSM,使用词法特征和上下文特征,将已知触发词 和未知触发词对应的候选交易行为描述句转换为对应的候选交易行为向量;将 该候选交易行为向量映射到特征空间并使用svm开源工具liblinear识别交易行 为的触发词trigger以及对应的交易行为描述句;

3)交易行为句信息识别:

3.1)根据向量空间模型VSM,使用词法特征和上下文特征,将候选交易行 为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征 空间并使用svm开源工具liblinear识别交易行为的类别type;

3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系,使 用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化为 多行的特征字符串,使用条件随机场CRF++标注候选交易行为描述句的各字 标签,从而完成交易行为描述句的交易行为元素{subject,object,time,place}的识 别;

4)将识别的交易行为的触发词trigger、交易行为的类别type以及交易行为 元素{subject,object,time,place}作为纳税人收购、重组、交易、经营四种典型交 易行为的结构化六元组信息用以判断纳税人税务交易行为。

所述的步骤1.2)解析输入数据中所有句子以抽取所有句子中的主谓关系 二元组SBV(Vsbv,sub)和动宾关系二元组VOB(Vvob,obj)和步骤3)分析交易行为描述 句的依存关系均是采用Stanford Paser实现的。

所述的步骤1.3)在使用最大熵模型ME将候选触发词的词性分为8类的 过程中定义第一类信息函数Pos(index)考核词性,定义第二类信息函数 Word(index)考核词形,定义第三类信息函数Tag(index)考核标记,且index为考 核的词组相对于当前词的位置。

所述的步骤2.1)和步骤2.2)的分词是采用ICTCLAS分词工具实现的。

所述的步骤3)中交易行为描述句的依存关系是通过依存句法工具Stanford  Parser分析得到的。

与现有技术相比,本发明的有益效果在于:

本发明通过构建税务领域触发词表,然后从税务领域触发词表中分别抽取 已知触发词和未知触发词对应的交易行为描述句,接着利用交易行为描述句以 及向量空间模型VSM和svm开源工具liblinear识别的交易行为的触发词trigger、 以及交易行为的类别type,最后使用条件随机场CRF++标注候选交易行为描述 句的各字标签从而完成交易行为描述句的交易行为元素 {subject,object,time,place}的识别;将上述识别出的交易行为的触发词trigger、 交易行为的类别type以及交易行为元素{subject,object,time,place}作为纳税人 收购、重组、交易、经营四种典型交易行为的结构化六元组信息用以判断纳税 人税务交易行为,这样就能自动识别触发词纳税人信息。而且,本发明利用机 器学习的方法从税务数据中抽取纳税人的交易行为,为纳税人的缴税内容提供 参考。

具体实施方式

下面对本发明做进一步详细说明。

本发明基于纳税人年报的纳税人税务交易行为识别方法是面向国家电子 税务纳税人年度报表的纳税人收购、重组、变更、经营四类交易行为的自动抽 取方法,为国家电子税务工作人员核实纳税人缴税内容提供参考。该方法定义 结构化的六元组抽取目标{trigger,type,subject,object,time,place};其中,trigger 表示交易行为触发词,type表示交易行为类型,subject表示交易行为的主 体,object表示交易行为的客体,time表示交易行为发生的时间,place表示交 易行为发生的地点,这6项中trigger与type是必须抽取的项目,其他四项为 可选,存在时尽可能抽取。

本发明方法分为三个部分:税务领域触发词表构建、交易行为描述句的识 别以及交易行为句信息的识别,具体如下所述:

1、税务领域触发词表构建

1)行为触发词直接引发行为的发生,是决定行为类型的重要特征。多数 情况下行为触发词是动词,因此对纳税人年报库中的触发词进行抽取并构建税 务领域触发词表十分必要;本发明抽取纳税人年报训练文档的数据中所有句子 作为触发词构建的输入数据;

1.2)借鉴谓语‐论元模型来抽取触发词,句子中的核心成分是动词,其他 成分都依赖于这一成分,因此利用谓语‐论元模型使用Stanford Paser解析输入 数据中所有句子以抽取所有句子中的主谓关系二元组SBV(Vsbv,sub)和动宾关系 二元组VOB(Vvob,obj),当主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv和动宾关系二 元组VOB(Vvob,obj)中的动词Vvob相同时,抽取主谓关系二元组SBV(Vsbv,sub)中的动 词Vsbv作为候选触发词并生成候选触发词集合;其中,sub为主语,obj为宾语;

1.3)抽取主谓关系二元组SBV(Vsbv,sub)中的动词Vsbv作为候选触发词并生成 候选触发词集合这一过程可以得到许多候选触发词,但同时也引入了很多噪声 数据,很多候选触发词没有意义或者与税务交易行为无关,本发明通过细化候 选触发词词性并计算候选触发词与税务领域的相关度来过滤噪音候选触发词。 而中文的动词缺乏词性变化,无论动词被用作名词还是副词,无论动词的时态 是过去时态还是将来时态,它都只有一种词性,因此,在细化候选触发词词性 时定义第一类信息函数Pos(index)考核词性,定义第二类信息函数Word(index) 考核词形,定义第三类信息函数Tag(index)考核标记,且index为函数参数, 且表示考核的词组相对于当前词的位置,以数字表示,0表示当前词,然后开 始细化候选触发词,细化方法为:使用最大熵模型ME将候选触发词的词性分 为8类,分别是系动词VX(如“他是对的”中的“是”)、助动词VZ(如“他应 该努力工作”中的“应该”)、形式动词VF(如“他要求予以澄清”的“予以”)、 趋向动词VQ(如“他认识到困难”的“到”)、补动动词VB(如“他看完了 电影”中的“完”)、一般动词VG(如“他喜欢踢球”中的“踢”)、名动词VN (如“他参加我们的讨论”中的“讨论”)以及副动词VD(如“产量持续增长” 的“持续”)。

另外,对已有纳税人年报文档集中的所有触发词词性进行统计,发现超过 95%的触发词是一般动词VG或者名动词VN,因此滤除系动词VX、助动词VZ、 形式动词VF、趋向动词VQ、补动动词VB以及副动词VD,形成由一般动词VG 和名动词VN作为候选触发词的过滤后候选触发词集合;

1.4)触发词会触发特定类型的行为,本发明关注税务领域的纳税人典型交 易行为,因此,只关注与税务领域相关的触发词。根据过滤后候选触发词集合 中候选触发词在税务领域术语库和纳税人年报中的分布情况计算过滤后候选 触发词集合中所有候选触发词与税务领域的相关程度,计算公式为:

rel(v)=Freqs(v)/Freqa(v)

其中,rel(v)是候选触发词v与税务领域相关度值,Freqs(v)是候选触发词 v出现在税务领域术语库中的频率,Freqa(v)是候选触发词v出现在纳税人年报 训练文档中的频率;

1.5)根据rel(v)的大小对过滤后候选触发词集合中所有候选触发词进行排 序,选取前100个rel(v)所对应的候选触发词以形成税务领域触发词表;

2、触发词检测:

触发词是行为发生的重要特征,触发词检测的结果直接影响了后续交易行 为识别可以处理的数据。对触发词出现次数与触发交易行为次数进行统计,发 现超过64%的触发词出现不代表交易行为的发生,包含了触发词的句子并不一定 是交易行为句,因此触发词检测分为触发词抽取和触发词分类两个步骤,触发 词抽取从句子中抽取出触发词字符,触发词分类判断该触发词字符是否真正代 表了行为的发生。在触发词抽取过程中,考虑两种情形:已知触发词抽取和未 知触发词抽取。

2.1)触发词抽取过程中一个必不可少的步骤是对句子进行分词,对分词 后的句子中的词语判断其是否是触发词字符串。由于目前分词工具无法保证所 有触发词被正确分词从而导致触发词字符匹配过程中触发词漏检情况,因此在 已知触发词抽取过程中需要对句子分词结果进行更新。本发明采用分词勘误表 对分词结果进行更新;该分词勘误表的生成方式如下:对纳税人年报训练文档 中触发词所在的句子进行人工标注,以标注出所在句子中的触发词以及出现的 位置;然后对触发词所在的句子进行分词以及词性标注,判断分词结果与人工 标注的触发词的词性是否一致,将不一致的触发词(分词错误的触发词)的词 性人工标注情况进行记录以生成分词勘误表;

2.2)已知触发词抽取:对待检测的纳税人年报中所有交易行为描述句进 行分词;将所有交易行为描述句的分词结果与税务领域触发词表中的候选触发 词进行匹配;匹配成功时,抽取税务领域触发词表中的候选触发词作为已知触 发词,并同时得到其对应的候选交易行为描述句;匹配不成功时,对税务领域 触发词表中的候选触发词不做任何处理;对待检测的纳税人年报中所有交易行 为描述句的分词结果使用分词勘误表进行更新,并使用税务领域触发词表中的 候选触发词与更新后的每个交易行为描述句的分词结果分别进行匹配,匹配成 功时,抽取税务领域触发词表中的候选触发词作为已知触发词,并同时得到其 对应的候选交易行为描述句;匹配不成功时,对税务领域触发词表中的候选触 发词不做任何处理;

2.3)在抽取未知触发词时,考虑一系列具有相同含义和用法的触发词体现 了同一类的行为,采用基于组合语义的未知触发词抽取算法,算法涉及构词分 析模块、词素分词模块、语义分析块。利用构词分析模块对构成触发词的字间 关系进行统计,将触发词分为5种结构并构建触发词结构的推导规则,具体如表 1。

表1  构词结构的推导规则

由表1可以看出,从词性角度针对不同的结构定义了不同的推导规则。表 中的word.length表示词包含的字数,word.pos表示组成该词的字的词性组合。 词素分词模块考虑几乎所有的动词触发词都有一个字来控制其语义,将这个字 称为核心词素。由于触发词的语义可以由其核心词素决定,因此可以通过未知 触发词的核心词素来推导未知触发词的语义。对于触发词trigger定义 LM(trigger)和RM(trigger),LM(trigger)表示触发词trigger中左侧字是核心词素, RM(trigger)表示触发词trigger中右侧字是核心词素。具体的抽取规则如表2所 示。

表2  核心词素的抽取规则

语义相似度模块采用基于《知网》的语义相似度公式其中,Dis(w1,w2)表示w1和w2的语义距离,α是一个调节因子,其含义可以表述 为当相似度为0.5时的词语距离值。

计算税务领域触发词表中未被抽取的候选触发词v1与已知触发词v2的相 似度trSim(v1,v2),相似度计算公式为:

trSim(v1,v2)=constructSim(v1,v2)×wordSim(v1,v2)

其中,constructSim(v1,v2)表示未知触发词与已知触发词的构词结构相似度, wordSim(v1,v2)表示未知触发词与已知触发词基于《知网》的语义相似度; wordSim(v1,v2)表示两个动词基于《知网》的语义相似度。当 时,抽取税务领域触发词表中未被抽取的候选触发词 v1作为未知触发词,并抽取未知触发词所在的句子,其中,triggerTable为税 务领域触发词表,triggerTable.size为税务领域触发词表的大小,α为调节因子, 即当相似度为0.5时的词语距离值。

2.5)触发词分类过程判断这些句子中的触发词是否真正代表了行为的发 生。将上述已知触发词和未知触发词对应的候选交易行为描述句组成候选交易 行为句集合Sents={S1,S2,...,Sn},n是交易行为句集合中候选交易行为描述句的总 数,Si表示交易行为句子实例。依据向量空间模型VSM,使用词法特征和上下 文特征,将候选交易行为描述句转换为对应的候选交易行为向量;其具体做法 是:对候选交易行为描述句对应的候选的触发词集合的每一个词语wi分配一个 布尔值T,如果T=1,表示词语wi是触发词,如果T=0,表示词语wi不是触发 词。通过触发词分类得到事件实例集合SE={Se1,Se2,...,Sei}和非事件实例集合 SNE={Sne1,Sne2,...,Snej},ei表示事件集合中句子的个数,nej表示非事件集合中句 子的个数,且ei+nej=n。

3)交易行为句信息识别:

交易行为句信息识别包括交易行为类型识别和交易行为元素识别。交易行 为类别抽取出type,交易行为元素识别抽取{subject,object,time,place},至此完成 六元组{trigger,type,subject,object,time,place}的抽取。

3.1)根据向量空间模型VSM,使用词法特征和上下文特征,将候选交易行 为描述句转换为对应的候选交易行为向量;将该候选交易行为向量映射到特征 空间并使用svm开源工具liblinear识别交易行为的类别type;具体方法为:

交易行为类别识别可以描述为:为每一个候选的事件描述句和事件类别对 <sj,ci>∈S×C分配一个布尔值T,其中C={c1,...,cm}表示关注的交易行为类别集合, S={s1,...,sn}表示要分类的候选句子集合,如果T=1,表示句子sj表述的行为类 别是ci。交易行为类别过程使用触发词词法特征和上下文特征来表示交易行为 句,并将其映射在特征空间中,使用svm开源工具liblinear对这些特征向量的 类别进行预测。

3.2)根据交易行为的触发词trigger对应的交易行为描述句的依存关系, 使用句子的词性、依存树标签、依存树中主谓特征将候选交易行为描述句转化 为多行的特征字符串,使用条件随机场CRF++标注候选交易行为描述句的各 字标签,从而完成交易行为描述句的交易行为元素{subject,object,time,place}的 识别;具体方法为:

将事件集合SE中的句子Sei表示为Sei={c1,c2,...,cp},p表示组成句子Sei的字符 序列总长度,通过交易行为元素识别提取Sei中字符片段所属的角色 Ri∈Roles={subject,object,time,place},这是一个序列标注问题,可以使用依存句法 分析和条件随机场CRF来实现。依存句法描述了句子成分间的依赖关系, subject、object、time、place均依赖于句子的核心动词trigger,因此可以通过 对句子进行句法分析获得其各成分的依赖关系,目前常用的依存句法分析工具 是Stanford Parser。给定一个输入序列O={o1,o2,...,ot},CRF模型定义其对应的状 态序列S={s1,s2,...,st}的条件概率为p(S|O)=1Zoexp(Σt=1TΣk=1λkfk(st-1,st,o,t)),其中, fk(st,o,t)是特征函数,λk是特征函数的权重,Zo是规一化因子。使用CRF需要 定义与状态序列对应的标签和特征集合。考虑到待标注的标签为 {subject,object,time,place},以-B、-I、-O的形式定义每个字的标签,标签集合 为{sub,sub-B,sub-I,obj,obj-B,obj-I,time-B,time-I,place-B,place-I},sub表示只有 一个字构成sub,sub-B表示该字是sub的首字,sub-I表示该字是sub的后续 字,其他标签的含义与此类似。由于time和place不可能只有一个字,因此未 使用time和place标签。使用CRF的特征集合为 {char,isAnchor,pos,nodetag,subject,object},其中char表示字本身,isAnchor表 示该字是否构成触发词,pos表示该字所在词的词性,nodetag表示每个字所在 依存语法树中的标签,以-B、-I标记,subject表示依存语法树中与触发词有主 谓关系的字,object表示依存语法树中与触发词有谓宾关系的字。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号