首页> 中国专利> 报销单异常检测方法、使用方法、装置、设备及存储介质

报销单异常检测方法、使用方法、装置、设备及存储介质

摘要

本申请涉及人工智能技术领域,公开了一种报销单异常检测方法、装置、设备及存储介质,其中,方法包括:获取待处理的报销单信息集,其中,报销单信息集的每个报销单信息包括定性特征、定量特征以及备注信息特征;对每个报销单信息的备注信息特征进行关键词提取并进行重处理,得到关键词词集;计算关键词词集中各个对应关键词对应的权重值;根据关键词词集及各个关键词的权重值,匹配对应报销单信息的备注信息特征的权重变量特征;对报销单信息的定性特征以及权重变量特征进行综合特征提取,得到报销单信息集中每个报销单信息的综合变量特征;根据综合变量特征以及定量特征,通过异常检测模型识别报销单信息集中的异常报销单信息。

著录项

  • 公开/公告号CN113850331A

    专利类型发明专利

  • 公开/公告日2021-12-28

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202111137345.8

  • 发明设计人 李同;巴堃;庄伯金;

    申请日2021-09-27

  • 分类号G06K9/62(20060101);G06F40/216(20200101);G06F40/289(20200101);

  • 代理机构44507 深圳市力道知识产权代理事务所(普通合伙);

  • 代理人张传义

  • 地址 518057 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 13:26:15

说明书

技术领域

本申请涉及人工智能的技术领域,尤其涉及一种报销单异常检测方法、使用方法、装置、设备及存储介质。

背景技术

在会计财务管理中,差旅费报销一直是管理上的难点和痛点。由于报销单数据中存在各种类型的数据,如出发地及目的地等用于表征类别的定性变量,报销金额等用于表征数值的定量数据,及备注、说明等文本类非结构化数据,造成难以识别报销单是否异常。

发明内容

本申请的主要目的在于提供一种报销单异常检测方法、使用方法、装置、设备及存储介质,旨在实现报销单异常的精准识别。

第一方面,本申请提供一种报销单异常检测方法,包括:

获取待处理的报销单信息集,其中,所述报销单信息集包括多个报销单信息,每个所述报销单信息包括定性特征、定量特征以及备注信息特征;

对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集;

计算所述关键词词集中各个对应关键词在各个所述报销单信息对应的备注信息特征出现的关键词频率,并根据所述关键词频率计算各个所述关键词对应的权重值;

根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征;

对所述报销单信息的所述定性特征以及所述权重变量特征进行综合特征提取,得到所述报销单信息集中每个所述报销单信息的综合变量特征;

根据所述综合变量特征以及所述定量特征,通过预设的异常检测模型识别所述报销单信息集中的异常报销单信息。

第二方面,本申请还提供一种报销单异常检测装置,所述报销单异常检测装置包括:

报销单信息获取模块,用于获取待处理的报销单信息集,其中,所述报销单信息集包括多个报销单信息,每个所述报销单信息包括定性特征、定量特征以及备注信息特征;

关键词提取模块,用于对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集;

关键词权重匹配模块,用于计算所述关键词词集中各个对应关键词在各个所述报销单信息对应的备注信息特征出现的关键词频率,并根据所述关键词频率计算各个所述关键词对应的权重值;

权重变量匹配模块,用于根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征;

综合特征提取模块,用于对所述报销单信息的所述定性特征以及所述权重变量特征进行综合特征提取,得到所述报销单信息集中每个所述报销单信息的综合变量特征;

异常检测模块,用于根据所述综合变量特征以及所述定量特征,通过预设的异常检测模型识别所述报销单信息集中的异常报销单信息。

第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上所述的报销单异常检测方法的步骤。

第四方面,本申请还提供一种存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上所述的报销单异常检测方法的步骤。

本申请中,对报销单信息中的备注信息特征进行关键词提取,并计算关键词的权重值。根据关键词及其对应的权重值,将报销单信息中的备注信息特征转换成对应的权重变量特征。对报销单信息对应的定性特征以及权重变量特征进行综合变量特征提取,得到报销单信息对应的综合变量特征。使用异常检测模型对报销单信息的定性特征以及权重变量特征进行检测,识别报销单信息中的异常报销单信息。通过本申请方法,可以解决报销单信息数据类型复杂,难以用于模型数据分析,难以识别异常报销单的问题。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种报销单异常检测方法的步骤流程示意图;

图2是图1中步骤S11的一种具体实施方式对应的步骤流程图;

图3是图1中步骤S13的一种具体实施方式对应的步骤流程图;

图4为本申请实施例提供的一种报销单异常检测装置的示意性框图;

图5为本申请实施例提供的一种计算机设备的结构示意性框图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。

本申请实施例提供一种报销单异常检测方法、使用方法、装置、设备及存储介质。其中,该报销单异常检测方法可应用于终端设备或服务器中,该终端设备可以为手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备;该服务器可以为单台的服务器,也可以为由多台服务器组成的服务器集群。以下以该欺诈识别方法应用于服务器为例进行解释说明。

下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。

请参照图1,图1为本申请实施例提供的一种报销单异常检测方法的步骤流程示意图。

如图1所示,该报销单异常检测方法包括步骤S10至步骤S15。

步骤S10、获取待处理的报销单信息集,其中,所述报销单信息集包括多个报销单信息,每个所述报销单信息包括定性特征、定量特征以及备注信息特征。

可以理解,如果执行本申请的报销单异常检测方法为服务器,报销单信息可以为服务器直接从数据库获取。如果执行本申请的报销单异常检测方法为终端设备,报销单信息则可以为终端设备向服务器发送网络请求获取。报销单信息集,即为由获取到的多个报销单信息构成的集合。

报销单信息包括定性特征、定量特征以及备注信息特征。其中,定量特征可以包括多个子特征,用于表征报销单信息的数值数据。定性特征可以包括多个子特征,用于表征报销单信息的类别数据。备注信息特征可以包括多个子特征,用于表征报销单信息的文本数据。

示例性的,假设一个报销单信息包括如下数据,如下表一所示:

表一:

在上述报销单信息中,"金额(元)"以及"行程距离(公里)"所对应的值都是数值数据,对应该报销单信息的定量特征。"交通工具"所对应的值一般都是飞机、高铁、轮船之类的数据,对应该报销单信息的定性特征。而"备注"所对应的值,则是用户在报销单中所填写的说明文本信息,对应该报销单信息的备注信息特征。

在一些实施方式中,所述定性特征包括出差类型、出发地、目的地、交通工具、舱位等级、人员等级以及发票状态,所述定量特征包括报销单金额以及行程距离,所述备注信息特征包括备注。

步骤S11、对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集。

可以理解,报销单信息集有多个报销单信息,而每个报销单信息都有对应的备注信息特征。依次对报销单信息集的每个报销单信息所对应的备注信息特征进行关键词提取,并对提取到的关键词进行去重处理,即得到关键词词集。

如图2所示,在一些实施方式中,步骤S11包括步骤S110至步骤S112。

步骤S110、对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行分词处理,得到第一词集;

步骤S111、通过预设的关键词过滤器对所述第一词集进行过滤,得到第二词集;

步骤S112、对所述第二词集进行关键词去重处理,得到关键词词集。

可以理解,依次对报销单信息集中报销单信息的备注信息特征进行分词,并将拆分得到的词统一放到一个数组中,即得到第一词集。在一些实施方式中,可以使用NLP(Natural Language Processing)技术对报销单信息的备注信息特征进行分词。

关键词过滤器中设置有需要被过滤掉的无用词。根据关键词过滤器,可以过滤掉第一词集中无用词组,以得到第二词集。对第二词集进行去重处理,即得到关键词词集。

示例性的,假设报销单信息集有两个报销单信息,其中一个报销单信息的备注信息特征为备注:“今天出去外勤了,这个是往返车站的车费哈”,另一个报销单信息的备注信息特征为备注:“这个是今天外勤的打车费用”。

则对这两个报销单信息所对应的备注信息特征进行分词后,得到的第一词集为[“今天”、“出去”、“外勤”、“了”、“这个”、“是”、“往返车站”、“的”、“车费”、“哈”,“这个”、“是”,“今天”、“外勤”、“的”、“打车”、“费用”]。

假设关键词过滤器中设置的需要被过滤掉的无用词包括:"出去"、"了"、"这个"、"是"、"的"、"哈"、"今天"以及"费用"。

则根据通过关键词过滤器对第一词集进行过滤后,所得到的第二词集为:["外勤","往返车站","车费","外勤","打车"]。

对第二词集进行关键词去重处理,除去其中重复的关键词"外勤",即得到关键词词集:["往返车站","车费","外勤","打车"]。

步骤S12、计算所述关键词词集中各个对应关键词在各个所述报销单信息对应的备注信息特征出现的关键词频率,并根据所述关键词频率计算各个所述关键词对应的权重值。

可以理解,关键词对应的关键词频率,可以为报销单信息集中,备注信息特征包括该关键词的报销单信息的数量。再结合报销单信息集中所有报销单信息的数量,即可计算各个关键词对应的权重值。

在一些实施方式中,关键词对应的权重值可以通过计算关键词的逆文档频率获得。逆文档频率即为关键词的IDF(Inverse document frequency)值。假设关键词为w,则计算某个关键词w的IDF值的方法为log(D/Dw)。其中,D为报销单信息集中的报销单信息的数量。Dw为报销单信息集中,对应的备注信息特征出现关键词w的报销单信息的数量,也即关键词对应的关键词频率。计算所得到的IDF值,即为关键词w所对应的权重值。可以理解,如果报销单信息集中,对应的备注信息特征包含关键词w的报销单信息的数量越少,则该关键词所对应的IDF值越大,则说明关键词w越具有类别区分能力,即该关键词w对应的权重值越大。

示例性的,假设报销单信息集中的报销单信息的数量为10000000,对应的备注信息特征出现关键词“往返车站”的报销单信息的数量为1000,则关键词“往返车站”对应的关键词频率为1000,关键词“往返车站”所对应的IDF值为log(10000000/1,000)=4,也即关键词“往返车站”所对应的权重值为4。

步骤S13、根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征。

可以理解,报销单信息集的每个报销单信息中,报销单信息对应的备注信息特征可以包括关键词词集中的多个关键词。可以根据关键词对应的权重值,选取关键词作为该报销单信息对应备注信息特征的权重变量特征。因为报销单信息对应的权重变量特征为关键词集中的其中一个关键词,所以其性质等同于定性特征。

如图3所示,在一些实施方式中,步骤S13包括步骤S130至步骤S132。

步骤S130、依次获取所述报销单信息集中的报销单信息;

步骤S131、根据所述关键词词集,对所述报销单信息的所述备注信息特征进行关键词匹配,得到对应所述报销单信息的关键词匹配词集;

步骤S132、根据各个所述关键词对应的权重值,获取所述关键词匹配词集中权重值最大的关键词,得到所述报销单信息对应的权重变量特征。

可以理解,报销单信息的备注信息特征为如备注之类的文本类型的数据。通过关键词匹配,可以知道备注信息特征包含关键词词集中的哪些关键词,根据匹配到的关键词所构成的数组,即为对应报销单信息的关键词匹配词集。

而每一个关键词都有其对应的权重值,从关键词匹配词集中选取权重值最大的关键词,即得到报销单信息对应的权重变量特征。

示例性的,假设关键词词集为:["往返车站","车费","停车"]。假设关键词"往返车站"对应的权重值为10,假设关键词"车费"对应的权重值为7,假设关键词"停车"对应的权重值为2。

假设报销单信息集中的其中一个报销单信息对应的备注信息特征为备注:“这个是往返车站还有停车的费用哈”。

则根据关键词词集对该备注信息特征进行匹配后,得到的关键词匹配词集为:["往返车站","停车"]。又因为关键词匹配词集中,关键词"往返车站"所对应的权重值最大,则选取"往返车站"作为该报销单信息对应的权重变量特征。

步骤S14、对所述报销单信息的所述定性特征以及所述权重变量特征进行综合特征提取,得到所述报销单信息集中每个所述报销单信息的综合变量特征。

可以理解,综合变量特征可以包含多个子特征,且所得到的综合变量特征为数值类数据,其性质等同于定量特征。

在一些实施方式中,对报销单信息的定性特征以及权重变量特征进行综合特征提取,可以为通过使用主成分分析法进行综合特征提取,以得到报销单信息对应的综合变量特征。主成分分析方法可以把M维的类别数据,提炼成N维的数值数据,其中,N

在一些实施方式中,对报销单信息的定性特征以及权重变量特征进行综合特征提取,还可以为通过使用多元对应分析(Multiple Correspondence Analysis,MCA)算法进行综合特征提取,以得到报销单信息对应的综合变量特征。多元对应分析算法的原理与主成分分析方法相近,皆可以对多维变量进行降维处理,在本申请中,采用多元对应分析算法可以获得更好的特征提取效果。

步骤S15、根据所述综合变量特征以及所述定量特征,通过预设的异常检测模型识别所述报销单信息集中的异常报销单信息。

可以理解,异常检测模型为根据线性回归分类算法或者孤立森林算法,使用报销单训练数据集预先训练得到分类模型。另外,异常检测模型也可以为通过其他分类算法进行训练获得,具体使用可以根据需要进行选用。

异常检测模型对报销单信息集中的报销单信息进行异常检测的过程中,根据报销单信息的综合变量特征以及定量特征进行判断,以识别该报销单信息是否异常。

可以理解,异常检测模型需要根据数值类输入变量去识别报销单信息是否异常。而报销单信息所对应的综合变量特征以及定量特征皆为数值类数据,因此,可以通过异常j模型识别报销单信息集中的异常报销单信息。

在一些实施方式中,本方法还包括步骤S20至步骤S23。

步骤S20、获取异常报销单信息对应的异常综合变量特征以及异常定量特征。

可以理解,异常报销单信息为通过异常检测模型,从报销单信息集中检测出来状态为异常的报销单信息。异常报销单信息的异常综合变量特征,即为该异常报销单信息对应的综合变量特征。异常报销单信息的异常定量特征,即为该异常报销单信息对应的定量特征。

步骤S21、根据所述异常综合变量特征、及异常定量特征,计算报销单信息集中所述异常报销单信息与非异常报销单信息的匹配值,其中,所述非异常报销单信息为报销单信息集中除去所述异常报销单信息之外的报销单信息。

可以理解,异常报销单信息以及非异常报销单信息中均有其对应的综合变量特征以及定量特征,且综合变量特征以及定量特征均为数值类数据。因此,可以根据异常报销单信息对应的综合变量特征以及定量特征,计算异常报销单信息与报销单信息集中的其他非异常报销单信息的匹配值。

在一些实施方式中,可以采用K近邻(k-Nearest Neighbor,KNN)算法,根据综合变量特征以及定量特征计算报销单信息集中的异常报销单信息与非异常报销单信息的距离值,距离值越小,则说明用于计算距离的其他报销单信息与异常报销单信息越相近,在本实施方式中,距离值即匹配值。

步骤S22、筛选所述报销单信息集中所述匹配值符合预设条件的报销单信息,得到对应所述异常报销单的匹配报销单信息集。

在一些实施方式中,匹配值符合预设条件的报销单信息,可以为获取报销单信息集中,匹配值处于预设范围报销单信息,作为对应异常报销单的匹配报销单信息集。

在一些实施方式中,匹配值符合预设条件的报销单信息,也可以为对报销单信息集中的报销单信息按匹配值进行排序后,获取预设个数的报销单信息,作为对应异常报销单的匹配报销单信息集。

步骤S23、对所述异常报销单信息及所述匹配报销单信息集进行分析,确定所述异常报销单信息的异常根因特征。

可以理解,在匹配报销单信息集中,报销单信息的数据结构与异常报销单信息的数据结构相同,通过对异常报销单信息与匹配报销单信息集的报销单信息进行分析,可以计算出异常报销单信息中各个特征对应引发该报销单信息异常的概率,概率最大的特征,即为异常报销单信息的异常根因特征。

在一些实施方式中,步骤S23包括步骤S230至步骤S231。

步骤S230、依次获取所述匹配报销单信息集中的匹配报销单信息;

步骤S231、通过预设的分类算法对所述异常报销单信息及所述匹配报销单信息的所述定性特征、所述定量特征以及所述权重变量特征进行分析,确定所述异常报销单信息的异常根因特征。

在一些实施方式中,预设的分类算法为朴素贝叶斯分类算法,也可以为其他分类算法,具体使用可以根据需要进行选用。

通过朴素贝叶斯分类算法对异常报销单信息及匹配报销单信息集中报销单信息对应的定性特征、定量特征以及权重变量特征进行分析,即可以得到异常报销单信息中,对应的定性特征、定量特征以及权重变量特征各自引发报销单异常的概率分别是多少,对应概率最大的特征,即为异常报销单信息的异常根因特征。

示例性的,假设通过朴素贝叶斯分类算法分析后,对应异常报销单信息的定性特征、定量特征以及备注信息特征中,引发异常报销单信息异常的概率如下表二所示:

表二:

则异常报销单信息中,定性特征中的"交通工具"的概率最大,因此,定性特征中的"交通工具"即为造成该报销单异常的异常根因特征。

在一些实施方式中,所述方法还包括:根据所述待处理报销单信息集中的异常报销单信息,及所述异常报销单信息对应的异常根因特征,生成报销单异常报告信息。

其中,报销单异常报告信息记录有报销单信息集中的异常报销单信息,以及异常报销单信息对应的异常根因特征。通过报销单异常报告信息,财务人员可以对异常报销单进行对应处理。

本申请中,对报销单信息中的备注信息特征进行关键词提取,并计算关键词的权重值。根据关键词及其对应的权重值,将报销单信息中的备注信息特征转换成对应的权重变量特征。对报销单信息对应的定性特征以及权重变量特征进行综合变量特征提取,得到报销单信息对应的综合变量特征。使用异常检测模型对报销单信息的定性特征以及权重变量特征进行检测,识别报销单信息中的异常报销单信息。通过本申请方法,可以解决报销单信息数据类型复杂,难以用于模型数据分析,难以识别异常报销单的问题。

请参照图4,图4为本申请实施例提供的一种报销单异常检测装置的示意性框图。

如图4所示,该报销单异常检测装置201,包括:

报销单信息获取模块2011,用于获取待处理的报销单信息集,其中,所述报销单信息集包括多个报销单信息,每个所述报销单信息包括定性特征、定量特征以及备注信息特征;

关键词提取模块2012,用于对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集;

关键词权重匹配模块2013,用于计算所述关键词词集中各个对应关键词在各个所述报销单信息对应的备注信息特征出现的关键词频率,并根据所述关键词频率计算各个所述关键词对应的权重值;

权重变量匹配模块2014,用于根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征;

综合特征提取模块2015,用于对所述报销单信息的所述定性特征以及所述权重变量特征进行综合特征提取,得到所述报销单信息集中每个所述报销单信息的综合变量特征;

异常检测模块2016,用于根据所述综合变量特征以及所述定量特征,通过预设的异常检测模型识别所述报销单信息集中的异常报销单信息。

在一些实施方式中,所述关键词提取模块2012在对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集时,包括:

对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行分词处理,得到第一词集;

通过预设的关键词过滤器对所述第一词集进行过滤,得到第二词集;

对所述第二词集进行关键词去重处理,得到关键词词集。

在一些实施方式中,所述权重变量匹配模块2014在根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征时,包括:

依次获取所述报销单信息集中的报销单信息;

根据所述关键词词集,对所述报销单信息的所述备注信息特征进行关键词匹配,得到对应所述报销单信息的关键词匹配词集;

根据各个所述关键词对应的权重值,获取所述关键词匹配词集中权重值最大的关键词,得到所述报销单信息对应的权重变量特征。

在一些实施方式中,报销单异常检测装置201还包括:

异常特征获取模块2017:用于获取异常报销单信息对应的异常综合变量特征以及异常定量特征;

异常特征匹配模块2018:用于根据所述异常综合变量特征、及异常定量特征,计算报销单信息集中所述异常报销单信息与非异常报销单信息的匹配值,其中,所述非异常报销单信息为报销单信息集中除去所述异常报销单信息之外的报销单信息;

匹配报销单获取模块2019:用于筛选所述报销单信息集中所述匹配值符合预设条件的报销单信息,得到对应所述异常报销单的匹配报销单信息集;

异常根因分析模块2020:用于对所述异常报销单信息及所述匹配报销单信息集进行分析,确定所述异常报销单信息的异常根因特征。

在一些实施方式中,所述异常根因分析模块2019在对所述异常报销单信息及所述匹配报销单信息集进行分析,确定所述异常报销单信息的异常根因特征时,包括:

依次获取所述匹配报销单信息集中的匹配报销单信息;

通过预设的分类算法对所述异常报销单信息及所述匹配报销单信息的所述定性特征、所述定量特征以及所述权重变量特征进行分析,确定所述异常报销单信息的异常根因特征。

在一些实施方式中,所述定性特征包括出差类型、出发地、目的地、交通工具、舱位等级、人员等级以及发票状态,所述定量特征包括报销单金额以及行程距离,所述备注信息特征包括备注。

在一些实施方式中,报销单异常检测装置201还包括异常报告生成模块2021,用于:根据所述待处理报销单信息集中的异常报销单信息,及所述异常报销单信息对应的异常根因特征,生成报销单异常报告信息。

需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述报销单异常检测方法实施例中的对应过程,在此不再赘述。

上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。

请参阅图5,图5为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备包括但不限定于服务器。

如图5所示,该计算机设备301包括通过系统总线连接的处理器3011、存储器和网络接口,其中,存储器可以包括存储介质3012和内存储器3015,存储介质3012可以是非易失性的,也可以是易失性的。

存储介质3012可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器3011执行任意一种报销单异常检测方法。

处理器3011用于提供计算和控制能力,支撑整个计算机设备的运行。

内存储器3015为存储介质3012中的计算机程序的运行提供环境,该计算机程序被处理器3011执行时,可使得处理器3011执行任意一种报销单异常检测方法。

该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

应当理解的是,处理器3011可以是中央处理单元(Central Processing Unit,CPU),该处理器3011还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中,在一些实施方式中,所述处理器3011用于运行存储在存储器中的计算机程序,以实现如下步骤:

获取待处理的报销单信息集,其中,所述报销单信息集包括多个报销单信息,每个所述报销单信息包括定性特征、定量特征以及备注信息特征;

对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集;

计算所述关键词词集中各个对应关键词在各个所述报销单信息对应的备注信息特征出现的关键词频率,并根据所述关键词频率计算各个所述关键词对应的权重值;

根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征;

对所述报销单信息的所述定性特征以及所述权重变量特征进行综合特征提取,得到所述报销单信息集中每个所述报销单信息的综合变量特征;

根据所述综合变量特征以及所述定量特征,通过预设的异常检测模型识别所述报销单信息集中的异常报销单信息。

在一些实施方式中,所述处理器3011在对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行关键词提取,并对所提取到的关键词进行去重处理,得到关键词词集时,用于实现:

对所述报销单信息集的每个所述报销单信息对应的所述备注信息特征进行分词处理,得到第一词集;

通过预设的关键词过滤器对所述第一词集进行过滤,得到第二词集;

对所述第二词集进行关键词去重处理,得到关键词词集。

在一些实施方式中,所述处理器3011在根据所述关键词词集及各个所述关键词的权重值,对所述报销单信息集的所述备注信息特征进行匹配,得到对应所述报销单信息的权重变量特征时,用于实现:

依次获取所述报销单信息集中的报销单信息;

根据所述关键词词集,对所述报销单信息的所述备注信息特征进行关键词匹配,得到对应所述报销单信息的关键词匹配词集;

根据各个所述关键词对应的权重值,获取所述关键词匹配词集中权重值最大的关键词,得到所述报销单信息对应的权重变量特征。

在一些实施方式中,所述处理器3011还用于实现:

获取异常报销单信息对应的异常综合变量特征以及异常定量特征;

根据所述异常综合变量特征、及异常定量特征,计算报销单信息集中所述异常报销单信息与非异常报销单信息的匹配值,其中,所述非异常报销单信息为报销单信息集中除去所述异常报销单信息之外的报销单信息;

筛选所述报销单信息集中所述匹配值符合预设条件的报销单信息,得到对应所述异常报销单的匹配报销单信息集;

对所述异常报销单信息及所述匹配报销单信息集进行分析,确定所述异常报销单信息的异常根因特征。

在一些实施方式中,所述处理器3011在对所述异常报销单信息及所述匹配报销单信息集进行分析,确定所述异常报销单信息的异常根因特征时,用于实现:

依次获取所述匹配报销单信息集中的匹配报销单信息;

通过预设的分类算法对所述异常报销单信息及所述匹配报销单信息的所述定性特征、所述定量特征以及所述权重变量特征进行分析,确定所述异常报销单信息的异常根因特征。

在一些实施方式中,所述定性特征包括出差类型、出发地、目的地、交通工具、舱位等级、人员等级以及发票状态,所述定量特征包括报销单金额以及行程距离,所述备注信息特征包括备注。

在一些实施方式中,所述处理器3011还用于实现:根据所述待处理报销单信息集中的异常报销单信息,及所述异常报销单信息对应的异常根因特征,生成报销单异常报告信息。

需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述计算机设备的具体工作过程,可以参考前述报销单异常检测方法实施例中的对应过程,在此不再赘述。

本申请实施例还提供一种存储介质,该存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请报销单异常检测方法的各个实施例。

其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。

应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号