首页> 中国专利> 基于融合模型的反洗钱识别方法、装置、系统及介质

基于融合模型的反洗钱识别方法、装置、系统及介质

摘要

本发明公开了基于融合模型的反洗钱识别方法、装置、系统及介质,方法包括:获取多个客户在不同观察期和表现期的交易样本;对交易样本进行特征处理,得到用于模型训练的特征变量;通过决策模型从全部特征变量中筛选得到部分特征变量;将部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型;将待识别交易样本输入到包括决策模型和反洗钱识别模型的融合模型中,根据融合模型的输出结果确定待识别交易样本是否存在洗钱行为。通过决策模型对特征变量进行筛选,并通过反洗钱识别模型基于特征抽取结果识别洗钱行为,无需依赖人工甄别且融合不同模型的优势可处理复杂的分类问题,实现准确高效的反洗钱识别。

著录项

  • 公开/公告号CN116308801A

    专利类型发明专利

  • 公开/公告日2023-06-23

    原文格式PDF

  • 申请/专利权人 平安银行股份有限公司;

    申请/专利号CN202310394468.2

  • 发明设计人 蔡凡华;毛佩芳;

    申请日2023-04-13

  • 分类号G06Q40/04(2012.01);G06N20/00(2019.01);G06N3/04(2023.01);G06N3/08(2023.01);

  • 代理机构广东良马律师事务所 44395;

  • 代理人刘海杰

  • 地址 518000 广东省深圳市罗湖区深南东路5047号

  • 入库时间 2024-01-17 01:11:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-11

    实质审查的生效 IPC(主分类):G06Q40/04 专利申请号:2023103944682 申请日:20230413

    实质审查的生效

  • 2023-06-23

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及金融科技技术领域,尤其涉及基于融合模型的反洗钱识别方法、装置、系统及介质。

背景技术

在金融领域,随着大数据和互联网金融的高速发展,交易支付的多样性在促进经济发展的同时,也为转移非法资金的洗钱活动提供了便利。与传统金融活动相比,网络洗钱更为隐蔽,全球化程度更高、成本更低、追踪难度更大,而银行作为反洗钱的主要渠道,对反洗钱工作尤为重要。

目前,各大银行与金融机构判定客户存在洗钱风险并上报可疑客户的技术手段是先定立一系列监测指标,若客户的交易触发一定监测条件,则由系统自动生成可疑案例,再由富有经验的甄别人员将可疑案例所涉及的客户过去几个月的交易取出,人工一一鉴别上报。识别过程较为依赖人工甄别,识别效率低且人工成本高,因此如何提高反洗钱识别效率、节约人力成本的问题还亟待解决。

发明内容

鉴于上述现有技术的不足,本发明的目的在于提供可应用于金融科技或其它相关领域的基于融合模型的反洗钱识别方法、装置、系统及介质,旨在提高反洗钱识别的效率、降低反洗钱识别的人工成本。

本发明的技术方案如下:

一种基于融合模型的反洗钱识别方法,包括:

获取多个客户在不同观察期和表现期的交易样本;

对所述交易样本进行特征处理,得到用于模型训练的特征变量;

通过决策模型从全部特征变量中筛选得到部分特征变量;

将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型;

将待识别交易样本输入到包括所述决策模型和反洗钱识别模型的融合模型中,根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为。

在一个实施例中,所述对所述交易样本进行特征处理,得到用于模型训练的特征变量,包括:

对所述交易样本进行数据预处理,得到初筛变量;

对所述初筛变量进行分箱处理,并对分箱变量进行编码后得到用于模型训练的特征变量。

在一个实施例中,所述对所述交易样本进行数据预处理,得到初筛变量,包括:

剔除所述交易样本中的重复数据以及缺失率大于预设值的变量;

计算剔除后各个剩余变量的相关性和IV值,根据所述相关性和IV值对各个剩余变量进行筛选,得到初筛变量。

在一个实施例中,所述对所述初筛变量进行分箱处理,并对分箱变量进行编码后得到用于模型训练的特征变量,具体包括:

对所述初筛变量进行卡方分箱,并对分箱变量进行WOE编码后得到用于模型训练的特征变量。

在一个实施例中,所述通过决策模型从全部特征变量中筛选得到部分特征变量,包括:

将全部特征变量输入到决策模型中,输出每个特征变量的重要性,生成特征重要性排序列表;

根据所述特征重要性排序列表在全部特征变量中筛选得到部分特征变量。

在一个实施例中,所述根据所述特征重要性排序列表在全部特征变量中筛选得到部分特征变量,具体包括:

根据所述特征重要性排序列表,在全部特征变量中筛选得到特征重要性排序前预设比例的部分特征变量。

在一个实施例中,所述决策模型为CatBoost模型。

在一个实施例中,所述将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型,包括:

将所述部分特征变量输入到特征抽取模型中,以抽取输入变量之间的隐藏关系并输出每个样本存在洗钱行为的预测概率;

根据输出的预测概率对所述特征抽取模型进行迭代训练,直到满足预设收敛条件时结束训练,得到反洗钱识别模型。

在一个实施例中,所述特征抽取模型为多层感知机模型。

在一个实施例中,所述根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为,具体包括:

当所述融合模型输出的预测概率大于预设概率时,确定所述待识别交易样本存在洗钱行为。

在一个实施例中,所述观察期和表现期由以下步骤获得:

获取已定性的反洗钱案例作为历史样本;

对所述历史样本的交易行为进行统计,确定不同时间窗口下的洗钱风险比例,所述时间窗口包括未发生洗钱交易行为的观察期和已出现洗钱交易行为的表现期;

根据洗钱风险比例最高的时间窗口确定采集交易样本所需的观察期和表现期。

在一个实施例中,所述交易样本包括客户画像数据和交易行为数据。

一种基于融合模型的反洗钱识别装置,包括:

样本获取模块,用于获取多个客户在不同观察期和表现期的交易样本;

特征处理模块,用于对所述交易样本进行特征处理,得到用于模型训练的特征变量;

特征筛选模块,用于通过决策模型从全部特征变量中筛选得到部分特征变量;

抽取训练模块,用于将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型;

识别预测模块,用于将待识别交易样本输入到包括所述决策模型和反洗钱识别模型的融合模型中,根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为。

一种基于融合模型的反洗钱识别系统,所述系统包括至少一个处理器;以及,

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于融合模型的反洗钱识别方法。

一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于融合模型的反洗钱识别方法。

有益效果:本发明公开了基于融合模型的反洗钱识别方法、装置、系统及介质,相比于现有技术,本发明实施例通过决策模型对特征变量进行筛选,并通过反洗钱识别模型基于特征抽取结果识别洗钱行为,无需依赖人工甄别且融合不同模型的优势可处理复杂的分类问题,实现准确高效的反洗钱识别。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1为本发明实施例提供的基于融合模型的反洗钱识别方法的一个流程图;

图2为本发明实施例提供的基于融合模型的反洗钱识别方法中步骤S200的流程图;

图3为本发明实施例提供的基于融合模型的反洗钱识别方法中步骤S201的流程图;

图4为本发明实施例提供的基于融合模型的反洗钱识别方法中步骤S300的流程图;

图5为本发明实施例提供的基于融合模型的反洗钱识别方法中步骤S400的另一个流程图;

图6为本发明实施例提供的基于融合模型的反洗钱识别装置的功能模块示意图;

图7为本发明实施例提供的基于融合模型的反洗钱识别系统的硬件结构示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确,以下对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。以下结合附图对本发明实施例进行介绍。

在金融领域,随着大数据和互联网金融的高速发展,交易支付的多样性在促进经济发展的同时,也为转移非法资金的洗钱活动提供了便利。与传统金融活动相比,网络洗钱更为隐蔽,全球化程度更高、成本更低、追踪难度更大,而银行作为反洗钱的主要渠道,对反洗钱工作尤为重要。

目前,各大银行与金融机构判定客户存在洗钱风险并上报可疑客户的技术手段是先定立一系列监测指标,若客户的交易触发一定监测条件,则由系统自动生成可疑案例,再由富有经验的甄别人员将可疑案例所涉及的客户过去几个月的交易取出,人工一一鉴别上报。识别过程较为依赖人工甄别,识别效率低且人工成本高,或者也有部分机构通过单一模型对交易行为进行识别,但是识别准确性较低,因此金融机构如何提高反洗钱识别效率与准确性、节约人力成本的问题还亟待解决。

为了解决上述问题,本发明提出一种基于融合模型的反洗钱识别方法,请参阅图1,图1为本发明提供的基于融合模型的反洗钱识别方法一个实施例的流程图。本实施例提供的基于融合模型的反洗钱识别方法应用于包括终端设备、网络和服务器构成的系统,其中网络为用于在终端设备和服务器之间提供通信链路的介质,其可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等;终端设备上的操作系统可以包括手持设备操作系统(iPhone operating system,iOS系统)、安卓系统或其他操作系统,终端设备通过网络连接到服务器以实现交互,从而进行接收或发送数据等操作,具体可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式服务器等等。如图1所示,该方法具体包括如下步骤:

S100、获取多个客户在不同观察期和表现期的交易样本。

本实施例中,从数据库中按不同的时间窗口,取出近年来例如最近3年不同观察期和表现期的多个客户的交易样本,其中交易样本包括客户画像数据和交易行为数据,具体的客户画像数据可以包含字段:时间、客户id、客户名称、分行id、分行名称、客户分层、是否价值客户EVA、是否授信、是否结算客户、是否持有增值产品、存款收益年累计、贷款收益年累计、中收收益年累计、年化EVA、经营状态、注册资本、成立年限、所在行业类别、开户日期、是否小微企业、对公标识、存款月日均等等;交易行为数据可以包含字段:不同观察期和表现期的交易数据,例如近3个月交易笔数、近3个月交易金额、近6个月交易笔数、近6个月交易金额、近12个月交易笔数、近12个月交易金额等等,从而为融合模型的训练提供真是且丰富的样本数据。

具体的,观察期和表现期由以下步骤获得:

获取已定性的反洗钱案例作为历史样本;

对所述历史样本的交易行为进行统计,确定不同时间窗口下的洗钱风险比例,所述时间窗口包括未发生洗钱交易行为的观察期和已出现洗钱交易行为的表现期;

根据洗钱风险比例最高的时间窗口确定采集交易样本所需的观察期和表现期。

本实施例中,先选取近几年监管报送中发现已经定性的反洗钱案例作为历史样本,之后通过对历史样本中的交易行为进行统计,分析不同时间窗口下洗钱风险的比例,以洗钱风险比例最高的时间窗口确定采集交易样本所需的观察期和表现期,例如在不同时间窗口中,过去12个月的客户在未来3个月后出现洗钱交易行为的风险比例最高,则将观察期选取为12个月,表现期选取为3个月,从而可根据历史样本中的统计结果为训练数据的选取提供参考,以提高模型学习训练效果。

S200、对所述交易样本进行特征处理,得到用于模型训练的特征变量。

本实施例中,对从数据库中提取到的交易样本,通过特征工程对起进行特征处理,将提取的交易样本数据转换为可以用于模型训练的特征变量。

在一个实施例中,如图2所示,步骤S200包括:

S201、对所述交易样本进行数据预处理,得到初筛变量;

S202、对所述初筛变量进行分箱处理,并对分箱变量进行编码后得到用于模型训练的特征变量。

本实施例中,对交易样本的特征处理可分为数据预处理以及分箱编码处理,通过数据预处理对交易样本数据进行初步的筛选,以得到符合相关样本数据要求的初筛变量,避免无效样本数据对模型训练的影响。

之后对通过初步筛选的变量进行分箱处理,将连续型的数据分成几个数据段,即离散化处理,离散化后每个变量有单独的权重,可以为后续模型引入了非线性,以提升模型表达能力,加大拟合,同时也可以起到简化模型的作用,降低了模型过拟合的风险。具体可以利用toad工具对初筛变量进行卡方分箱,并观察分箱后变量的区间走势,基于区间走势调整分箱结果,例如对分箱进行合并操作等等,以提高分箱准确性。

变量分箱后不能直接进模型,需进行分箱后的编码处理,具体可以利用WOETransformer函数对分箱变量进行WOE(weight of evidence,证据权重)编码,编码转化后的数据即可用于后续模型的训练,实现对原始样本数据的特征加工过程,以确保模型训练效果,提高反洗钱识别的准确性。

在一个实施例中,如图3所示,步骤S201包括:

S2011、剔除所述交易样本中的重复数据以及缺失率大于预设值的变量;

S2012、计算剔除后各个剩余变量的相关性和IV值,根据所述相关性和IV值对各个剩余变量进行筛选,得到初筛变量。

本实施例中,在数据预处理阶段,先将交易样本中重复多余的数据进行清除,仅保留最新的,同时还剔除缺失率过大,例如大于50%的变量,避免这部分无效数据对模型训练效率以及效果造成影响;而对缺失率较低变量可进一步进行填充处理,例如针对数值型变量利用总体均值进行填充,类别型变量利用众数进行填充,以满足样本数据稀疏性或平滑度等的要求;剔除无效数据后,针对剩余变量则进一步计算其相关性和IV(informationvalue,信息价值),以相应的标准对剩余变量进行筛选,进而得到初筛变量,例如对于相关性>0.6以上的变量,仅保留一个,防止多重共线性变量出现;对各变量依次计算IV值,保留IV值>0.1以上的变量,由于IV值过低的变量对分类训练无益,可能降低模型训练效果和效率。通过多样化的特征处理为后续模型训练提供准确可靠的特征变量,进而提高反洗钱识别的效果。

S300、通过决策模型从全部特征变量中筛选得到部分特征变量。

本实施例中,将所有加工好的特征变量输入到决策模型中进行变量筛选,具体的决策模型为CatBoost模型,CatBoost模型是一种基于对称决策树(oblivious trees)为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架,可以高效合理地处理类别型特征,同时其对预测偏移处理,还可以减少模型的过拟合,提升模型预测效果。

在一个实施例中,如图4所示,步骤S300包括:

S301、将全部特征变量输入到决策模型中,输出每个特征变量的重要性,生成特征重要性排序列表;

S302、根据所述特征重要性排序列表在全部特征变量中筛选得到部分特征变量。

本实施例中,在融合模型的识别处理中分为两个阶段,第一阶段将全部的特征变量输入到CatBoost模型中,利用feature_importance函数输出每个特征变量的重要性,进而排序生成特征重要性排序列表,基于该列表在全部特征变量中筛选得到较为重要的部分特征变量,具体筛选标准为筛选特征重要性排序前预设比例的部分特征变量,例如筛选前20%的特征变量作为后续模型的输入变量,利用CatBoost模型可以针对性的在全部特征变量中筛选出重要的变量进行后一阶段的模型训练,提高训练训练的同时也保证了训练效果。

S400、将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型。

本实施例中,将筛选后的部分特征变量作为特征抽取模型的输入变量,特征抽取模型基于抽取到的特征关系对每个样本是否存在洗钱行为进行预测,基于预测结果对模型进行训练,训练完成后即可得到反洗钱识别模型,具体的特征抽取模型为多层感知机即MLP模型,MLP模型输出的每一个维度都是由每一个输入的维度加权得到,中间加入激活函数(ReLU),使得模型能够学习到非线性的关系。由于输出的每一个维度都是由每一个输入的维度加权得到,所以与单一的学习模型相比,MLP模型能综合考虑各特征的权重关系,挖掘变量之间的隐藏关系,模型最后接入一层softmax函数层进行处理,即可得到各样本的输出概率,通过比较阈值和该概率值的大小关系,既可得到样本是否具有洗钱行为的预测结果,实现对各个样本的反洗钱行为识别预测。

在一个实施例中,如图5所示,步骤S400包括:

S401、将所述部分特征变量输入到特征抽取模型中,以抽取输入变量之间的隐藏关系并输出每个样本存在洗钱行为的预测概率;

S402、根据输出的预测概率对所述特征抽取模型进行迭代训练,直到满足预设收敛条件时结束训练,得到反洗钱识别模型。

本实施例中,将筛选后的特征输入MLP模型中,MLP模型中间的隐藏层保留5个隐藏单元(hidden unit),加入两层全连接层,然后在两层全连接层中选择ReLu作为神经网络的激活函数进行插入,最后接入一层softmax函数层,经过MLP模型处理后即可抽取到输入变量之间的隐藏关系,进而通过softmax函数层得到每个样本疑似洗钱行为的预测概率,基于输出经过对模型进行反向传播的迭代训练,以调整模型参数,知道满足预设收敛条件例如迭代次数大于预设次数等则结束训练,从而得到可自动识别洗钱行为的反洗钱识别模型,无需依赖人工甄别,降低人工成本提高识别效率。

S500、将待识别交易样本输入到包括所述决策模型和反洗钱识别模型的融合模型中,根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为。

本实施例中,基于已训练完成的决策模型和反洗钱识别模型即可得到融合模型,融合模型具有良好的非线性学习能力,能够处理复杂的分类问题,并且训练的模型能够对未知样本进行记忆、推测,实现准确的行为识别分类处理。在具有反洗钱识别需求时,则将目标客户的待识别交易样本,例如观察期和表现期内的交易行为数据输入到融合模型中,使得待识别交易样本通过第一阶段的决策模型进行变量筛选后,将重要性较高的变量输入到第二阶段的反洗钱识别模型中,识别是否存在洗钱行为,具体当融合模型输出的预测概率大于预设概率,例如大于0.5时则确定存在洗钱行为,及时输出反洗钱识别告警信息,提醒工作人员及时上报处理,实现高效准确的反洗钱识别处理。

本发明另一实施例提供一种基于融合模型的反洗钱识别装置,如图6所示,装置1包括:

样本获取模块11,用于获取多个客户在不同观察期和表现期的交易样本;

特征处理模块12,用于对所述交易样本进行特征处理,得到用于模型训练的特征变量;

特征筛选模块13,用于通过决策模型从全部特征变量中筛选得到部分特征变量;

抽取训练模块14,用于将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型;

识别预测模块15,用于将待识别交易样本输入到包括所述决策模型和反洗钱识别模型的融合模型中,根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为。

本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述基于融合模型的反洗钱识别的执行过程,各模块的具体实施方式请参考上述对应的方法实施例,此处不再赘述。

在一个实施例中,所述特征处理模块12,包括:

预处理单元,用于对所述交易样本进行数据预处理,得到初筛变量;

分箱编码单元,用于对所述初筛变量进行分箱处理,并对分箱变量进行编码后得到用于模型训练的特征变量。

在一个实施例中,所述预处理单元,包括:

数据剔除单元,用于剔除所述交易样本中的重复数据以及缺失率大于预设值的变量;

变量筛选单元,用于计算剔除后各个剩余变量的相关性和IV值,根据所述相关性和IV值对各个剩余变量进行筛选,得到初筛变量。

在一个实施例中,所述分箱编码单元,具体用于:

对所述初筛变量进行卡方分箱,并对分箱变量进行WOE编码后得到用于模型训练的特征变量。

在一个实施例中,所述特征筛选模块13,包括:

重要性排序单元,用于将全部特征变量输入到决策模型中,输出每个特征变量的重要性,生成特征重要性排序列表;

特征筛选单元,用于根据所述特征重要性排序列表在全部特征变量中筛选得到部分特征变量。

在一个实施例中,所述特征筛选单元,具体用于:

根据所述特征重要性排序列表,在全部特征变量中筛选得到特征重要性排序前预设比例的部分特征变量。

在一个实施例中,所述决策模型为CatBoost模型。

在一个实施例中,所述抽取训练模块14,包括:

抽取预测单元,用于将所述部分特征变量输入到特征抽取模型中,以抽取输入变量之间的隐藏关系并输出每个样本存在洗钱行为的预测概率;

模型训练单元,用于根据输出的预测概率对所述特征抽取模型进行迭代训练,直到满足预设收敛条件时结束训练,得到反洗钱识别模型。

在一个实施例中,所述特征抽取模型为多层感知机模型。

在一个实施例中,所述识别预测模块15,具体用于:

当所述融合模型输出的预测概率大于预设概率时,确定所述待识别交易样本存在洗钱行为。

在一个实施例中,所述装置1,还包括:

获取模块,用于获取已定性的反洗钱案例作为历史样本;

统计模块,用于对所述历史样本的交易行为进行统计,确定不同时间窗口下的洗钱风险比例,所述时间窗口包括未发生洗钱交易行为的观察期和已出现洗钱交易行为的表现期;

窗口确定模块,用于根据洗钱风险比例最高的时间窗口确定采集交易样本所需的观察期和表现期。

在一个实施例中,所述交易样本包括客户画像数据和交易行为数据。

本发明另一实施例提供一种基于融合模型的反洗钱识别系统,如图7所示,系统10包括:

一个或多个处理器110以及存储器120,图7中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图7中以通过总线连接为例。

处理器110用于完成系统10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。

存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的基于融合模型的反洗钱识别方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行系统10的各种功能应用以及数据处理,即实现上述方法实施例中的基于融合模型的反洗钱识别方法。

存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据系统10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至系统10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,实现以下步骤:

获取多个客户在不同观察期和表现期的交易样本;

对所述交易样本进行特征处理,得到用于模型训练的特征变量;

通过决策模型从全部特征变量中筛选得到部分特征变量;

将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型;

将待识别交易样本输入到包括所述决策模型和反洗钱识别模型的融合模型中,根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为。

在一个实施例中,所述对所述交易样本进行特征处理,得到用于模型训练的特征变量,包括:

对所述交易样本进行数据预处理,得到初筛变量;

对所述初筛变量进行分箱处理,并对分箱变量进行编码后得到用于模型训练的特征变量。

在一个实施例中,所述对所述交易样本进行数据预处理,得到初筛变量,包括:

剔除所述交易样本中的重复数据以及缺失率大于预设值的变量;

计算剔除后各个剩余变量的相关性和IV值,根据所述相关性和IV值对各个剩余变量进行筛选,得到初筛变量。

在一个实施例中,所述对所述初筛变量进行分箱处理,并对分箱变量进行编码后得到用于模型训练的特征变量,具体包括:

对所述初筛变量进行卡方分箱,并对分箱变量进行WOE编码后得到用于模型训练的特征变量。

在一个实施例中,所述通过决策模型从全部特征变量中筛选得到部分特征变量,包括:

将全部特征变量输入到决策模型中,输出每个特征变量的重要性,生成特征重要性排序列表;

根据所述特征重要性排序列表在全部特征变量中筛选得到部分特征变量。

在一个实施例中,所述根据所述特征重要性排序列表在全部特征变量中筛选得到部分特征变量,具体包括:

根据所述特征重要性排序列表,在全部特征变量中筛选得到特征重要性排序前预设比例的部分特征变量。

在一个实施例中,所述决策模型为CatBoost模型。

在一个实施例中,所述将所述部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型,包括:

将所述部分特征变量输入到特征抽取模型中,以抽取输入变量之间的隐藏关系并输出每个样本存在洗钱行为的预测概率;

根据输出的预测概率对所述特征抽取模型进行迭代训练,直到满足预设收敛条件时结束训练,得到反洗钱识别模型。

在一个实施例中,所述特征抽取模型为多层感知机模型。

在一个实施例中,所述根据所述融合模型的输出结果确定所述待识别交易样本是否存在洗钱行为,具体包括:

当所述融合模型输出的预测概率大于预设概率时,确定所述待识别交易样本存在洗钱行为。

在一个实施例中,所述观察期和表现期由以下步骤获得:

获取已定性的反洗钱案例作为历史样本;

对所述历史样本的交易行为进行统计,确定不同时间窗口下的洗钱风险比例,所述时间窗口包括未发生洗钱交易行为的观察期和已出现洗钱交易行为的表现期;

根据洗钱风险比例最高的时间窗口确定采集交易样本所需的观察期和表现期。

在一个实施例中,所述交易样本包括客户画像数据和交易行为数据。

本发明实施例提供了一种非易失性计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S500。

作为示例,非易失性存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明而非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。

综上,本发明公开的基于融合模型的反洗钱识别方法、装置、系统及介质中,方法通过获取多个客户在不同观察期和表现期的交易样本;对交易样本进行特征处理,得到用于模型训练的特征变量;通过决策模型从全部特征变量中筛选得到部分特征变量;将部分特征变量输入到特征抽取模型中,基于每个样本的预测结果对模型进行训练,以得到反洗钱识别模型;将待识别交易样本输入到包括决策模型和反洗钱识别模型的融合模型中,根据融合模型的输出结果确定待识别交易样本是否存在洗钱行为。通过决策模型对特征变量进行筛选,并通过反洗钱识别模型基于特征抽取结果识别洗钱行为,无需依赖人工甄别且融合不同模型的优势可处理复杂的分类问题,实现准确高效的反洗钱识别。

当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的计算机程序可存储于一非易失性计算机可读取的存储介质中,该计算机程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、软盘、闪存、光存储器等。

应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号