公开/公告号CN114862558A
专利类型发明专利
公开/公告日2022-08-05
原文格式PDF
申请/专利权人 上海蓝书信息科技有限公司;
申请/专利号CN202210572209.X
申请日2022-05-24
分类号G06Q40/02(2012.01);G06Q10/10(2012.01);G06Q30/06(2012.01);
代理机构北京市京师律师事务所 11665;
代理人黄熊
地址 200135 上海市浦东新区中国(上海)自由贸易试验区浦东大道2123号三层
入库时间 2023-06-19 16:17:34
法律状态公告日
法律状态信息
法律状态
2022-08-23
实质审查的生效 IPC(主分类):G06Q40/02 专利申请号:202210572209X 申请日:20220524
实质审查的生效
2022-08-05
公开
发明专利申请公布
技术领域
本发明实施例涉及样本均衡处理方法技术领域,具体涉及一种在稀疏样本中解决正负样本不均衡问题的方法。
背景技术
随着金融科技和人工智能的发展,以大数据及机器学习为基础的各种模型能够有效提升审批速度,降低人工成本,提高业绩并降低逾期率。审批业务的风控模型大多使用有监督学习模型,其预测条件(特征)、预测标签(目标)均要明确。因此,普通贷款审批模型大多选取历史通过风控系统的订单(即有客户个人信息,业务信息和还款行为记录的订单数据)作为样本进行训练。这样的样本因为经过多重漏斗筛选,很少会出现负样本。这种训练样本一方太大或太小、占比严重失衡的情况就是所描述的一种在稀疏样本情况下正负样本不均衡的问题。
用不加处理的稀疏样本训练模型,有可能会发生过拟合,影响预测能力。
现有比较通用的技术方案主要有两种:
-过采样(增大少数类的样本数量,比如风控场景下多复制出来一些负样例)。
-欠采样(减少多数类样本的数量,比如风控场景下减少一些正样例,使比例均衡一些)。
减少一方采样数以平衡正负样本分布会使样例不全面。同时,单个样本具有偶然性,简单的重复样本并不能使模型学习到更全面的特征继而有更好的应用。
通过外部数据或人工对风控系统已拒绝的用户打标签成本较高,另外,不同机构提供的信贷产品结构不同(如贷款利率、首付等),通常不能直接作为样本进入训练过程。
订单经过预审、终审的多重‘规则+模型’漏斗及人工审核辅助评估客户资质。普通审批模型选取历史通过风控系统的订单,如图2所示,这样的订单拥有客户个人信息,业务信息和还款行为记录的订单数据,可以作为样本进行训练,但是此时的样本没有反映客户全貌,可能导致模型预测能力不足。
发明内容
为此,本发明实施例提供一种在稀疏样本中解决正负样本不均衡问题的方法,以解决现有技术中由于样本稀疏导致正负样本不均衡问题。
为了实现上述目的,本发明实施例提供如下技术方案:
一种在稀疏样本中解决正负样本不均衡问题的方法,其特征是:包括以下步骤:
对被风控系统拒绝的订单数据DATA_B中的每个样本打分;
按预设分数段划分所述DATA_B中的样本;
将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作为补充坏样本DATA_B_BAD加入至被风控系统接受的订单数据DATA_A中,形成新的订单数据DATA_C;
用所述新的订单数据DATA_C训练出新的审批模型Model_New。
进一步地,所述对被风控系统拒绝的订单数据DATA_B中的每个样本打分,具体包括:
根据所述被风控系统接受的订单数据DATA_A训练一个普通审批模型Model_Base;
用所述普通审批模型Model_Base给所述被风控系统拒绝的订单数据DATA_B中的每个样本打分。
进一步地,所述按预设分数段划分所述DATA_B中的样本,具体包括:
用所述普通审批模型Model_Base给所述被风控系统接受的订单数据DATA_A中的每个样本打分;
按预设分数段划分所述被风控系统接受的订单数据DATA_A中的样本;
按所述预设分数段划分所述被风控系统拒绝的订单数据DATA_B中的样本。
进一步地,所述将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作为补充坏样本DATA_B_BAD加入至被风控系统接受的订单数据DATA_A中,形成新的订单数据DATA_C,具体包括:
计算所述被风控系统接受的订单数据DATA_A中的样本中每个分数段的逾期率;
根据所述DATA_A中的样本中每个分数段的逾期率,计算所述被风控系统拒绝的订单数据DATA_B中每个分数段样本的预期个数;
将所述被风控系统拒绝的订单数据DATA_B中某一分数段的样本作为补充坏样本DATA_B_BAD加入至被风控系统接受的订单数据DATA_A中。
进一步地,所述某一分数段的样本为分数段内分数最低的分数段的样本。
本发明实施例具有如下优点:以现有数据中的部分样本补充到现有样本中,解决了汽车金融逾期风险控制场景下正负样本不均衡问题,同时在没有增加额外人工/外部数据成本的条件下,提升模型指标,客户分层更明确,且有效降低逾期率。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种在稀疏样本中解决正负样本不均衡问题的方法的系统流程图;
图2为本发明背景技术现有汽车金融风控系统流程图;
图3为本发明实施例提供的一种在稀疏样本中解决正负样本不均衡问题的方法体现被风控系统接受的订单数据各分数段逾期率表现的图表;
图4为本发明实施例提供的一种在稀疏样本中解决正负样本不均衡问题的方法体现被风控系统拒绝的订单数据各分数段逾期率表现的图表;
图5为本发明实施例提供的一种在稀疏样本中解决正负样本不均衡问题的方法体现补充负样本之后模型指标的对比效果示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:一种在稀疏样本中解决正负样本不均衡问题的方法,如图1所示,包括以下步骤:对被风控系统拒绝的订单数据DATA_B中的每个样本打分;
按预设分数段划分DATA_B中的样本;
将被风控系统拒绝的订单数据DATA_B中某一分数段的样本作为补充坏样本DATA_B_BAD加入至被风控系统接受的订单数据DATA_A中,形成新的订单数据DATA_C;
用新的订单数据DATA_C训练出新的审批模型Model_New;
具体为:选取历史通过风控系统的订单训练出一个普通审批模型Model_Base(即样本不均衡训练下得出的模型),用Model_Base给DATA_A中的每个样本打分并按分数段划分,计算出每个分数段的逾期率,得到图3,在本实施例中,优选为小于300分的计算为一个分数段,大于或等于751分计算为一个分数段,在300-750分之间的,每50分计算为一个分数段,同时,计算每个分数段的订单数量、逾期单数,并根据订单数量和逾期单数计算逾期率,这样可以显示出Model_Base中各个分数段的逾期率的表现。
用Model_Base给DATA_B中的每个样本打分,求出每个分数段的样本个数,其中,此分数段Model_Base给DATA_A中的每个样本打分并按分数段划分的分数段规则相同,用于拟合,与上述不同的是,此部分中需要计算正常还款单数,图4的逾期个数=图3逾期率*2*每个分数段个数,这样就可以把每个分数段的样本分为好样本(正常还款个数)和坏样本(逾期个数)两部分。
将DATA_B中<=300分数段内的分数最低的那部分单子作为补充坏样本(DATA_B_BAD)加入到DATA_A中。
用DATA_A+DATA_B_BAD训练出新的审批模型Model_New。
参照图5所示,可以看出,加上补充负样本的模型指标表现明显变好。若将自动通过分数定位651以上,则Model_New的逾期率(0.0496%)优于Model_Base的逾期率(0.0715%)。
本申请通过现有数据中的部分样本补充到现有样本中,解决了汽车金融逾期风险控制场景下正负样本不均衡问题,同时在没有增加额外人工/外部数据成本的条件下,提升模型指标,客户分层更明确,且有效降低逾期率。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所作的这些修改或改进,均属于本发明要求保护的范围。
机译: 用于确定细胞或微生物的存在,不存在或健康的测试方法,样品中的分析物核酸,探针,用于选择与一种化合物结合的分析物的方法,以确定目标核酸是否与蛋白质相互作用对U. Ma细胞或体外样本感兴趣,并确定样本中是否存在一种或多种目标化合物,用于对样本中的细胞,核酸分析物或微生物进行染色的试剂盒,
机译: 一种解决评估火箭和火炮样本版本质量问题的设备
机译: 将数据样本分类为两个或多个类别中的一种的方法,以及将数据样本分类为两个类别中的一种的方法