首页> 中国专利> 一种虚开发票行为检测方法、装置、电子设备及存储介质

一种虚开发票行为检测方法、装置、电子设备及存储介质

摘要

本申请实施例提供一种虚开发票行为检测方法、装置、电子设备及存储介质,方法包括:确定目标纳税实体的涉税数据,涉税数据包含开票数据,从涉税数据中提取目标纳税实体的虚开发票行为特征向量,将虚开发票行为特征向量输入预先训练好的随机森林模型,以使随机森林模型输出目标纳税实体的虚开发票数据,若虚开发票数据满足预设条件,则确定目标纳税实体是虚开发票纳税实体。本方案充分考虑了涉税数据中蕴含的纳税实体的虚开发票行为特征,更加精细的刻画纳税实体的特点,采用预先训练好的随机森林模型,基于纳税实体的虚开发票行为特征对纳税实体进行虚开发票检测,避免了以往基于指标评价体系的方案中指标阈值难以科学合理确定的局限和不足。

著录项

说明书

技术领域

本申请涉及纳税实体监测领域,尤其涉及一种虚开发票行为检测方法、 装置、电子设备及存储介质。

背景技术

虚开发票行为检测用于检测纳税实体是否涉嫌发票(例如增值税专用 发票、普通发票等)虚开行为,根据检测结果可以实现对涉税违法纳税实 体的税法遵从风险预警,有效提高税收征管和稽查的效率。鉴于对纳税实 体进行虚开发票行为的检测对于税务稽查和征管等业务的开展具有举足轻 重的意义,因此该问题吸引了大量的学者以及税务从业者的注意力,并产 出了一系列工作成果。

目前关于虚开发票行为检测问题的主要解决方案是基于专家评价指标 体系的检测方案。但是该方案存在着一些局限和不足,首先,基于评价指 标体系的检测方案的检测性能取决于评价指标的选取和指标权重的设定, 但是评价指标的选取和指标权重的设定非常依赖专家的领域经验。因此, 基于评价指标体系的检测方案存在泛化性能较差以及检测方案的可扩展性 较差等局限。其次,基于专家评价指标体系的发票虚开纳税实体检测方案 中的指标阈值的确定是基于专家经验的,是一个固定数值。上述阈值设定 策略难以适应作案手法的变化更新,导致检测方案对于新型作案手法的适 应性较差。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提 供了一种虚开发票行为检测方法、装置、电子设备及存储介质。

第一方面,本申请提供了一种虚开发票行为检测方法,包括:

确定目标纳税实体的涉税数据,所述涉税数据至少包括开票信息;

从所述涉税数据中提取所述目标纳税实体的虚开发票行为特征向量;

将所述虚开发票行为特征向量输入预先训练好的随机森林模型,以使 所述随机森林模型输出所述目标纳税实体对应的虚开发票数据;

若所述虚开发票数据符合预设条件,则确定所述目标纳税实体存在虚 开发票行为。

在一种可能的实现方式中,所述随机森林模型通过以下方式训练:

确定预设时间段内的多个虚开发票纳税实体和多个非虚开发票纳税实 体作为样本纳税实体;

获取所述样本纳税实体在所述预设时间段内的涉税数据作为样本数 据;

从所述样本数据中提取各样本纳税实体的虚开发票行为特征向量;

将所述各样本纳税实体的虚开发票行为特征向量作为训练数据;

利用所述训练数据进行随机森林模型训练;

当训练次数达到预设的次数阈值时,停止训练;

将训练后的随机森林模型作为训练好的随机森林模型。

在一种可能的实现方式中,从所述涉税数据中提取所述目标纳税实体 的虚开发票行为特征向量,包括:

从所述涉税数据中提取所述目标纳税实体的虚开发票行为特征;

根据所述虚开发票行为特征生成所述目标纳税实体的虚开发票行为特 征向量;

其中,所述虚开发票行为特征包括下述特征中的一种或几种:进销项 数量之比、进销项金额之比、开票离散程度、顶额开票特征、开票金额变 化幅度、是否进行纳税申报和是否进行工商信息变更。

在一种可能的实现方式中,所述确定目标纳税实体的涉税数据,包括:

从预设位置中获取目标时间段内所述目标纳税实体的开票数据,所述 开票数据包括进项发票数据和销项发票数据;

从所述开票数据中获取所述目标纳税实体的开票信息;

将所述开票信息作为所述目标纳税实体的涉税数据;

其中,所述开票信息包括下述信息中的一种或几种:进项发票开票时 间、销项发票开票时间、进项发票金额、销项发票金额、进项发票货物数 量、销项发票货物数量、进项发票货物种类、销项发票货物种类。

在一种可能的实现方式中,所述确定目标纳税实体的涉税数据,还包 括:

从预设位置中获取目标时间段内所述目标纳税实体的纳税申报数据和 工商信息变更数据;

将所述开票信息、纳税申报数据和工商信息变更数据作为所述目标纳 税实体的涉税数据。

在一种可能的实现方式中,所述虚开发票数据包括纳税实体为虚开发 票纳税实体的概率;

所述预设条件包括纳税实体为虚开发票纳税实体的概率大于预设概率 阈值。

在一种可能的实现方式中,所述虚开发票数据包括虚开纳税实体标签, 所述虚开纳税实体标签为标识纳税实体是虚开发票纳税实体的标签或标识 纳税实体不是虚开发票纳税实体的标签;

所述预设条件包括虚开纳税实体标签是标识纳税实体是虚开发票纳税 实体的标签。

第二方面,本申请实施例还提供了一种虚开发票行为检测装置,包括:

数据确定模块,用于确定目标纳税实体的涉税数据,所述涉税数据至 少包括开票信息;

特征提取模块,用于从所述涉税数据中提取所述目标纳税实体的虚开 发票行为特征向量;

模型预测模块,用于将所述虚开发票行为特征向量输入预先训练好的 随机森林模型,以使所述随机森林模型输出所述目标纳税实体对应的虚开 发票数据;

结果确定模块,用于若所述虚开发票数据符合预设条件,则确定所述 目标纳税实体存在虚开发票行为。

第三方面,本申请实施例还提供了一种电子设备,包括:处理器和存 储器,所述处理器用于执行所述存储器中存储的数据处理程序,以实现第 一方面所述的虚开发票行为检测方法。

第四方面,本申请实施例还提供了一种存储介质,所述存储介质存储 有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执 行,以实现第一方面所述的虚开发票行为检测方法。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点:

本申请实施例提供的一种虚开发票行为检测方法,确定目标纳税实体 的涉税数据,涉税数据中包含开票数据,从涉税数据中提取目标纳税实体 的虚开发票行为特征向量,将虚开发票行为特征向量输入预先训练好的随 机森林模型,以使随机森林模型输出目标纳税实体的虚开发票数据,若虚 开发票数据满足预设条件,则确定目标纳税实体是虚开发票纳税实体。本 方案充分考虑了涉税数据中蕴含的纳税实体的虚开发票行为特征,更加精 细的刻画纳税实体的特点,采用预先训练好的随机森林模型,基于纳税实 体的虚开发票行为特征对纳税实体进行虚开发票检测,避免了以往基于指 标评价体系的方案中指标阈值难以科学合理确定的局限和不足,其中随机 森林模型是基于bagging策略的集成算法构建的模型,具有更加强悍的拟合 能力,可以有效提高检测结果的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本 发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以 根据这些附图获得其他的附图。

图1为本申请实施例提供的一种虚开发票行为检测方法的流程图;

图2为本申请实施例提供的一种随机森林模型训练的流程图;

图3为本申请实施例提供的一种纳税数据预处理的示意图;

图4为本申请实施例提供的一种虚开发票行为检测方法的实现流程图;

图5为本申请实施例提供的一种虚开发票行为检测装置的框图;

图6为本申请实施例提供的一种电子设备的示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施 例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动 的前提下所获得的所有其他实施例,都属于本申请保护的范围。

图1为本申请实施例提供的一种虚开发票行为检测方法的流程图,本 实施例提供的虚开发票行为检测方法用于检测纳税实体是否存在虚开发票 行为,纳税实体可以是企业、个人等,如图1所示,该方法可以包括如下 步骤:

S11.确定目标纳税实体的涉税数据,所述涉税数据至少包括开票信息。

在本实施例中,获取涉税数据的目的是根据涉税数据确定目标纳税实 体开具发票时的一些行为特征(下称虚开发票行为特征),而最能体现虚开 发票行为特征的则是开票信息,其中开票信息指的是与目标纳税实体相关 的开票数据中包含的信息,其中开票数据通常包含进项发票数据和销项发 票数据,其中进项发票可以包括增值税进项发票和/或普通进项发票,销项 发票可以包括增值税销项发票和/或普通销项发票。

S12.从所述涉税数据中提取所述目标纳税实体的虚开发票行为特征向 量。

在一实施例中,从所述涉税数据中提取所述目标纳税实体的虚开发票 行为特征向量可以包括:

从涉税数据中提取目标纳税实体的虚开发票行为特征,根据虚开发票 行为特征生成目标纳税实体的虚开发票行为特征向量,虚开发票行为特征 向量的维度与开发票行为特征的个数对应。

在一实施例中,所述虚开发票行为特征包括下述特征中的一种或几种:

S13.将所述虚开发票行为特征向量输入预先训练好的随机森林模型,以 使所述随机森林模型输出所述目标纳税实体对应的虚开发票数据。

随机森林模型是基于bagging集成策略整合多个决策树模型的分类器, 随机森林模型集成全部决策树的分类投票结果,将投票次数最多的类别标 签指定为最终的类别标签输出。其输出的类别标签是由个别树输出的类别 标签的众数而确定,在拥有较高分类准确率的同时保证了分类过程的鲁棒 性。本实施例采用随机森林模型对纳税实体的开票行为进行检测可以显著 提高对虚开发票的纳税实体的检测精确率以及召回率。

S14.若所述虚开发票数据符合预设条件,则确定所述目标纳税实体为虚 开发票纳税实体。

在本实施例一可选的实现方式中,所述虚开发票数据包括纳税实体为 虚开发票纳税实体的概率,对应的预设条件包括纳税实体为虚开发票纳税 实体的概率大于预设概率阈值,则S13中得到的与目标纳税实体对应的虚 开发票数据为目标纳税实体为虚开发票纳税实体的概率,将目标纳税实体 为虚开发票纳税实体的概率与预设概率阈值进行比较,若目标纳税实体为 虚开发票纳税实体的概率大于预设概率阈值,则确定目标纳税实体存在虚 开发票行为,确定目标纳税实体为虚开发票纳税实体,若目标纳税实体为 虚开发票纳税实体的概率不大于预设概率阈值,则确定目标纳税实体不存 在虚开发票行为,确定目标纳税实体不是虚开发票纳税实体,其中概率阈 值为根据需求设定的值,例如为0.96等。

在本实施例另一可选的实现方式中,所述虚开发票数据包括虚开纳税 实体标签,所述虚开纳税实体标签为标识纳税实体是虚开发票纳税实体的 标签或标识纳税实体不是虚开发票纳税实体的标签,对应的预设条件包括 虚开纳税实体标签是标识纳税实体是虚开发票纳税实体的标签。例如,虚 开纳税实体标签可以为0/1标签,1表示目标纳税实体为虚开发票纳税实 体,0表示目标纳税实体为非虚开发票纳税实体,判断S13中得到的与目标纳税实体对应的虚开发票数据是1还是0,若是1则确定目标纳税实体存 在虚开发票行为,确定目标纳税实体为虚开发票纳税实体,若是0,则确定 目标纳税实体不存在虚开发票行为,确定目标纳税实体不是虚开发票纳税 实体。

本申请实施例提供的一种虚开发票纳税实体检测方法,确定目标纳税 实体的涉税数据,涉税数据中包含开票数据,从涉税数据中提取目标纳税 实体的虚开发票行为特征向量,将虚开发票行为特征向量输入预先训练好 的随机森林模型,以使随机森林模型输出目标纳税实体的虚开发票数据, 若虚开发票数据满足预设条件,则确定目标纳税实体是虚开发票纳税实体。 本方案充分考虑了涉税数据中蕴含的纳税实体的虚开发票行为特征,更加 精细的刻画纳税实体的特点,采用预先训练好的随机森林模型,基于纳税 实体的虚开发票行为特征对纳税实体进行虚开发票检测,避免了以往基于 指标评价体系的方案中指标阈值难以科学合理确定的局限和不足,其中随 机森林模型是基于bagging策略的集成算法构建的模型,具有更加强悍的拟 合能力,可以有效提高检测结果的准确性。

在上述任一实施例的基础上,所述虚开发票行为检测方法还可以包括:

在执行S12之前,对S11中获取涉税数据进行预处理,得到符合预设 要求的数据,其中预设要求,根据需求设定,例如没有缺失值,没有异常 值、数据格式统一和/或没有噪声等等,然后再对符合预设要求的数据执行 S12以进行特征向量提取。

在一实施例中,可以根据预设要求采取下述处理方式中的一种或多种 对涉税数据进行处理:缺失值处理、异常值处理、量纲处理、去重处理、 噪声处理等,其中缺失值处理可以为删除存在缺失值的数据或对缺失值进 行插补,异常值处理则为将全为0或全为空的数据删除,量纲处理则为对 数据格式进行归一化处理,统一为预设格式,去重处理则为删除重复的数 据,例如输出重复的开票数据,噪声处理则为取出数据中的无效数据,例 如取出作废发票对应的开票数据。

如图3所示,从税务数据库中获取涉税数据后,对涉税数据进行缺失 值处理、异常值处理、量纲处理、去重处理和噪声处理,得到清洁数据, 也就是符合要求的数据。

同理,在进行随机森林模型训练时,在提取样本纳税实体的虚开发票 行为特征向量之前,也对样本纳税实体的涉税数据进行预处理。

在本实施例中,在提取虚开发票行为特征向量之前对涉税数据进行预 处理,保证了提取的特征向量的准确性,降低数据因素对随机森林模型推 理性能的影响,进一步提高了最终检测结果的准确性。

在上述任一实施例的基础上,所述虚开发票纳税实体检测方法还可以 包括:

若目标纳税实体存在虚开发票行为,则将目标纳税实体的标识(例如 名称、统一信用代码等)存储至用于存储涉嫌需开发票的纳税实体的数据 库中,便于查询。

本申请提供的虚开发票行为检测方法综合考虑了纳税实体的发票开具 行为特征、纳税申报行为特征、工商信息变更行为特征等维度,更加精细 的刻画具有虚开发票行为的纳税实体的特点。

采用随机森林算法对存在虚开发票行为的纳税实体进行检测的问题进 行建模,通过历史稽查数据进行模型参数估计,避免了以往基于指标评价 体系的方案中指标阈值难以科学合理确定的局限和不足,其中随机森林算 法是基于bagging策略的集成算法,具有更加强悍的拟合能力,可以有效提 高模型推理的准确性。

本申请首次提出了基于信息熵的纳税实体虚开发票行为特征度量方 式,可以准确捕捉纳税实体在增值税发票专用发票等发票开具过程中的集 中程度,同时清晰地区分了正常纳税实体和存在虚开发票行为嫌疑的纳税 实体。

本申请首先提出了基于加权的顶额开票度量指标,克服了以往指标难 以正确区分恶意顶额开票与正常顶额开票的问题,提高了对虚开发票的纳 税实体检测的精确性。

综合以上,本申请可以用于对虚开增值税发票的行为进行检测,也可 以用于对虚开普通发票的行为进行检测,相比于传统的基于专家评价指标 体系的虚开企业检测方案,能够准确的提高虚开企业检测系统的准确性和 鲁棒性。

下面以图4为例对本申请实施例提供的虚开发票行为检测方法进行描 述:

如图4所示,对目标纳税实体进行虚开发票行为检测包括:

S41.获取目标纳税实体的涉税数据。

在本实施例中,获取涉税数据的目的是根据涉税数据确定目标纳税实 体开具发票时的一些行为特征(下称虚开发票行为特征),而最能体现虚开 发票行为特征的则是开票信息,其中开票信息指的是与目标纳税实体相关 的开票数据中包含的信息,其中开票数据通常包含进项发票数据和销项发 票数据,其中进项发票可以包括增值税进项发票和/或普通进项发票,销项 发票可以包括增值税销项发票和/或普通销项发票

进一步的,纳税实体的纳税申报数据是判断纳税实体是否对应纳税额 进行了申报,是判定纳税实体是否偷逃税的重要指标,而虚开发票通常也 是为了偷逃税,所以存在偷逃税行为的纳税实体其虚开发票的可能性很大, 所以纳税申报数据在一定程度上也可以体现纳税实体的一些虚开发票行为 特征,因此涉税数据中还可以包括纳税申报数据。

进一步的,企业有时会进行工商信息变更(例如法人变更、企业名称 变更等),工商信息变更数据可以确定纳税实体是否发生过工商信息变更, 对于纳税实体的鉴定具有重要的作用,为了保证获取的开票数据的准确性 和完整性,获取的涉税数据中还可以包括工商信息变更数据。

当然除了开票数据、纳税申报数据和工商信息变更数据之外,涉税数 据中还可以包含其他能够体现纳税实体的虚开发票行为特征的数据,此处 不再一一列举。

具体的,可以通过下述方式确定目标纳税实体的涉税数据:

从预设位置中获取目标时间段内所述目标纳税实体的开票数据、纳税 申报数据和/或工商信息变更数据,从所述开票数据中获取所述目标纳税实 体的开票信息,将所述开票信息、纳税申报数据和工商信息变更数据作为 所述目标纳税实体的涉税数据。

其中开票信息即为发票中包含的信息,所述开票信息包括下述信息中 的一种或几种:进项发票开票时间、销项发票开票时间、进项发票金额、 销项发票金额、进项发票货物数量、销项发票货物数量、进项发票货物种 类、销项发票货物种类等。

其中预设位置为预先存储有目标纳税实体的开票数据、纳税申报数据 和工商信息变更数据等数据的位置,例如可以为税务系统数据库等。

其中目标时间段为根据需求设定的时间段,例如近3个月等。

进一步的,可以根据纳税实体的名称从预设位置中获取与该名称对应 的开票数据、纳税申报数据和工商信息变更数据作为涉税数据。

S42.对涉税数据进行预处理。其中预处理包括缺失值处理、异常值处理、 量纲处理、去重处理和噪声处理,通过预处理得到符合深度学习要求的数 据。

S43.对预处理后的涉税数据进行虚开发票行为特征提取。

其中,提取的特征包括进销项数量之比、进销项金额之比、开票离散 程度、顶额开票特征、开票金额变化幅度、是否进行纳税申报和是否进行 工商信息变更等。

具体的,进销项数量之比用于反映纳税实体的进销项货物数量差异, 是纳税实体虚开发票的特征之一,若进销项货物数量差异越大,纳税实体 虚开发票的概率越大。

进销项数量之比Vec

其中,S

具体的,进销项金额之比,从另外一个维度反映了纳税实体的进销状 况,是发票虚开的主要特征之一,进销项金额之比Vec

其中,n

具体的,开票离散程度用于表示纳税实体开票时间的分散程度,离散 程度越小,说明纳税实体在短时间内开具的发票数据越多,开票越集中, 纳税实体虚开发票的可能性就越大,开票离散程度Vec

其中,Ent

其中,

具体的,顶额开票特征是检测虚开发票行为的重要特征,其表示纳税 实体的开票金额是否是顶额开具的,顶额开票特征Vec

其中N

具体的,开票金额变化幅度表示纳税实体开票金额的变化程度,而开 票金额变化幅度小是虚开发票的纳税实体在发票开具行为中比较明显的特 点,开票金额变化幅度Vec

其中mt

具体的,是否申报是判断纳税实体是否对应纳税额进行了申报,是判 定纳税实体是否偷逃税的重要指标,可以根据目标纳税实体的纳税申报数 据来获得。

具体的,是否变更是指在指定时间间隔内纳税实体是否发生过法人变 更等工商信息变更行为,对于虚开发票的企业的鉴定具有重要的作用,可 以根据目标纳税实体的工商信息变更数据来获取。

S44.将提取的虚开发票行为特征输入预先训练好的随机森林模型,得到 随机森林模型输出的目标纳税实体为虚开发票纳税实体的概率。

具体的,如图2所示,可以采用下述方式训练所述随机森林模型:

S21.确定预设时间段内的多个虚开发票纳税实体和多个非虚开发票纳 税实体作为样本纳税实体。

其中预设时间段为根据需求选取的时间段,例如前6个月到前12个月 之间的6个月。

在一实施例中,可以根据历史稽查数据确定样本纳税实体,即从稽查 系统的数据库中确定预设时间段内稽查到的虚开发票纳税实体,虚开发票 纳税实体即为存在虚开发票行为纳税实体,确定预设时间段内没有被稽查 到存在虚开发票行为的纳税实体为非虚开发票纳税实体,确定的样本纳税 实体的数量根据需求设定,即多个的具体取值根据需求设定。

S22.获取所述样本纳税实体在所述预设时间段内的涉税数据作为样本 数据。

在一实施例中,从税务系统数据库中获取样本纳税实体在预设时间段 内的涉税数据,此处的涉税数据中包含的数据类型与S11中的涉税数据的 数据类型一致。

S23.从所述样本数据中提取各样本纳税实体的虚开发票行为特征向量。

此处提取各样本纳税实体的虚开发票行为特征向量的方式与上述S12 中提取虚开发票行为特征向量的方式一致,此处不再赘述。

S24.将所述各样本纳税实体的虚开发票行为特征向量作为训练数据。

S25.利用所述训练数据进行随机森林模型训练。

在一实施例中,利用所述训练数据进行随机森林模型训练可以包括: 预设的比例将训练数据按照划分为训练数据集、测试数据集和验证数据集, 基于训练数据集和验证数据集采用交叉验证方式进行随机森林模型训练和 参数调整。其中预设的比例为根据需求设定的比值,例如训练数据集、测 试数据集和验证数据集的比例为7:2:1,其中训练数据集用于对随机森林模 型进行训练,测试数据集用于客观的评价随机森林模型的性能,验证数据 集用于验证随机森林模型的性能,其中调整的参数可以包括随机森林模型 的决策树个数、各决策树的叶子节点中样本的最小数据和决策树的深度等。

S26.当训练次数达到预设的次数阈值时,停止训练。

在一实施例中,检测训练次数是否达到预设的次数阈值,若训练次数 达到预设的次数阈值,则确定模型收敛并停止训练,若训练次数没有达到 预设的训练阈值则继续利用训练数据进行训练,其中次数阈值为根据需求 设定的值,例如为2000。

S27.将训练后的随机森林模型作为训练好的随机森林模型。

将训练好的随机森林模型进行本地化,便于随时使用。

训练好的随机森林模型可以根据纳税实体的虚开发票行为特征向量, 输出纳税实体的虚开发票数据,所述虚开发票数据可以包括纳税实体为虚 开发票纳税实体的概率和/或虚开纳税实体标签,所述虚开纳税实体标签为 标识纳税实体是虚开发票纳税实体的标签或标识纳税实体不是虚开发票纳 税实体的标签。

S45.判断所述概率是否大于预设概率阈值。

其中预设概率阈值为根据实际需求设定的值,例如可以为0.9,具体取 值不做具体限定。

S46.若概率大于预设概率阈值,则确定目标纳税实体存在虚开发票行 为,将目标纳税实体的标识存储至用于存储涉嫌需开发票的纳税实体的数 据库。

S47.若概率不大于预设概率阈值,则确定目标纳税实体不存在虚开发票 行为,检测结束。

本申请实施例还提供了一种虚开发票行为检测装置,如图5所示,该 装置可以包括:

数据确定模块501,用于确定目标纳税实体的涉税数据,所述涉税数据 至少包括开票信息;

特征提取模块502,用于从所述涉税数据中提取所述目标纳税实体的虚 开发票行为特征向量;

模型预测模块503,用于将所述虚开发票行为特征向量输入预先训练好 的随机森林模型,以使所述随机森林模型输出所述目标纳税实体对应的虚 开发票数据;

结果确定模块504,用于若所述虚开发票数据符合预设条件,则确定所 述目标纳税实体存在虚开发票行为。

在一实施例中,所述随机森林模型通过以下方式训练:

确定预设时间段内的多个虚开发票纳税实体和多个非虚开发票纳税实 体作为样本纳税实体;

获取所述样本纳税实体在所述预设时间段内的涉税数据作为样本数 据;

从所述样本数据中提取各样本纳税实体的虚开发票行为特征向量;

将所述各样本纳税实体的虚开发票行为特征向量作为训练数据;

利用所述训练数据进行随机森林模型训练;

当训练次数达到预设的次数阈值时,停止训练;

将训练后的随机森林模型作为训练好的随机森林模型。

在一实施例中,从所述涉税数据中提取所述目标纳税实体的虚开发票 行为特征向量,包括:;

其中,所述虚开发票行为特征包括下述特征中的一种或几种:进销项 数量之比、进销项金额之比、开票离散程度、顶额开票特征、开票金额变 化幅度、是否进行纳税申报和是否进行工商信息变更。

在一实施例中,所述数据确定模块501具体用于:

从预设位置中获取目标时间段内所述目标纳税实体的开票数据,所述 开票数据包括进项发票数据和销项发票数据;

从所述开票数据中获取所述目标纳税实体的开票信息,所述开票信息 包括下述信息中的一种或几种:进项发票开票时间、销项发票开票时间、 进项发票金额、销项发票金额、进项发票货物数量、销项发票货物数量、 进项发票货物种类、销项发票货物种类。

将所述开票信息作为所述目标纳税实体的涉税数据。

在一实施例中,所述数据确定模块501还用于:

从预设位置中获取目标时间段内所述目标纳税实体的纳税申报数据和 工商信息变更数据;

将所述开票信息、纳税申报数据和工商信息变更数据作为所述目标纳 税实体的涉税数据。

在一实施例中,所述虚开发票数据包括纳税实体为虚开发票纳税实体 的概率;

所述预设条件包括纳税实体为虚开发票纳税实体的概率大于预设概率 阈值。

在一实施例中,所述虚开发票数据包括虚开纳税实体标签,所述虚开 纳税实体标签为标识纳税实体是虚开发票纳税实体的标签或标识纳税实体 不是虚开发票纳税实体的标签;

所述预设条件包括虚开纳税实体标签是标识纳税实体是虚开发票纳税 实体的标签。

在本申请另一实施例中,还提供了一种电子设备,如图6所示,包括 处理器601、通信接口602、存储器603和通信总线604,其中,处理器601, 通信接口602,存储器603通过通信总线604完成相互间的通信;

存储器603,用于存放计算机程序;

处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:

确定目标纳税实体的涉税数据,所述涉税数据至少包括开票信息;

从所述涉税数据中提取所述目标纳税实体的虚开发票行为特征向量;

将所述虚开发票行为特征向量输入预先训练好的随机森林模型,以使 所述随机森林模型输出所述目标纳税实体对应的虚开发票数据;

若所述虚开发票数据符合预设条件,则确定所述目标纳税实体存在虚 开发票行为。

上述电子设备提到的通信总线604可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线604可以分 为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线 表示,但并不表示仅有一根总线或一种类型的总线。

通信接口602用于上述电子设备与其他设备之间的通信。

存储器603可以包括随机存取存储器(Random Access Memory,简称 RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁 盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储 装置。

上述的处理器601可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等; 还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集 成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵 列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、 分立门或者晶体管逻辑器件、分立硬件组件。

在本申请另一实施例中,还提供了一种可读存储介质,所述可读存储 介质上存储有虚开发票行为检测方法程序,所述虚开发票行为检测方法程 序被处理器执行时实现上述任一所述的虚开发票行为检测方法的步骤。

本发明实施例在具体实现时,可以参阅上述各个实施例,具有相应的 技术效果。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅 用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或 者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得 包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还 包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……” 限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还 存在另外的相同要素。

以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或 实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而 易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情 况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这 些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范 围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号