首页> 中国专利> 一种信贷风险预测方法、装置、设备及存储介质

一种信贷风险预测方法、装置、设备及存储介质

摘要

本发明公开了一种信贷风险预测方法、装置、设备及存储介质,该方法包括:获取历史上多个用户的操作行为数据,所述操作行为数据为用户及为用户提供信贷服务的应用程序之间的交互信息;按照预设处理逻辑对获取的所述操作行为数据进行处理,以使得所述操作行为数据成为可用于模型训练的数据;将处理后的所述操作行为数据加入至样本集中,并利用所述样本集训练预设的机器学习算法,得到风险预测模型,以使用所述风险预测模型基于任意用户的操作行为数据进行相应的风险预测。本申请有效利用了用户在应用程序上操作行为维度的数据,从数据维度的角度有效保证了风险预测模型的模型性能,进而保证风险信贷预测的较高准确性。

著录项

  • 公开/公告号CN113177844A

    专利类型发明专利

  • 公开/公告日2021-07-27

    原文格式PDF

  • 申请/专利权人 成都新希望金融信息有限公司;

    申请/专利号CN202110593403.1

  • 发明设计人 程序;吕文勇;周智杰;任晓东;

    申请日2021-05-28

  • 分类号G06Q40/02(20120101);G06Q10/06(20120101);G06N20/00(20190101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人薛娇

  • 地址 610000 四川省成都市高新区中海国际中心D座9楼

  • 入库时间 2023-06-19 12:00:51

说明书

技术领域

本发明涉及数据处理技术领域,更具体地说,涉及一种信贷风险预测方法、装置、设备及存储介质。

背景技术

为了策略性地管理信贷风险,金融机构根据用户违约的估计概率为每个用户分配一个信用评分,该信用评分即表示针对用户预测的信贷风险,但是现有技术中这种实现信贷风险预测的方案存在很多问题,最显著的问题则为实现信贷风险预测的准确性较低。

发明内容

本发明的目的是提供一种信贷风险预测方法、装置、设备及存储介质,以改善现有技术中存在的实现信贷风险预测的准确性较低的问题。

为了实现上述目的,本发明提供如下技术方案:

一种信贷风险预测方法,包括:

获取历史上多个用户的操作行为数据,所述操作行为数据为用户及为用户提供信贷服务的应用程序之间的交互信息;

按照预设处理逻辑对获取的所述操作行为数据进行处理,以使得所述操作行为数据成为可用于模型训练的数据;

将处理后的所述操作行为数据加入至样本集中,并利用所述样本集训练预设的机器学习算法,得到风险预测模型,以使用所述风险预测模型基于任意用户的操作行为数据进行相应的风险预测。

在上述实现方式中,本申请获取多个用户中每个用户及为用户提供信贷服务的应用程序的之间的交互信息为操作行为数据,基于操作行为数据训练机器学习算法得到相应风险预测模型,以利用该风险预测模型基于任意用户的操作行为数据进行相应的风险预测,从而有效利用了用户在应用程序上操作行为维度的数据,从数据维度的角度有效保证了风险预测模型的模型性能,进而保证风险信贷预测的较高准确性。

可选地,按照预设处理逻辑对获取的所述操作行为数据进行处理之前,还包括:

基于获取的所述操作行为数据衍生获得多维度的衍生特征数据;

将所述衍生特征数据及所述操作行为数据进行合并,并将所述操作行为数据更新为合并所得的数据。

在上述实现方式中,对客户操作层面的数据进行了更有效的利用和信息挖掘,在模型训练时能够实现对操作行为相应数据更成分的学习,进而保证训练所得的风险预测模型能够达到较高的准确性。

可选地,按照预设处理逻辑对获取的所述操作行为数据进行处理,包括:

针对所述操作行为数据包含的每项特征,获取每项所述特征对应特征值的分布情况及每项所述特征对应特征值的缺失率;

如果任意特征对应特征值的分布情况异常和/或缺失率达到缺失率阈值,则剔除该任意特征。

在上述实现方式中,本申请通过剔除特征值分布情况异常及缺失率很高的特征,能够剔除无法充分表现用户的操作行为的数据,保证基于操作行为数据实现模型训练时的有效性,进而保证模型的稳定性和科技实行。

可选地,按照预设处理逻辑对获取的所述操作行为数据进行处理,包括:

分析所述操作行为数据包含的不同特征之间是否存在多重共线性;

如果基于分析的结果确定任意多个特征之间的多重共线性对应共线性值达到共线性阈值,则剔除该任意多个特征中信息价值非最高的特征。

在上述实现方式中,通过多重共线性严重中信息价值较低的特征的剔除,减少模型训练时需要学习的数据量,从而提高模型训练效率的同时,保证模型训练的过程中能够充分学习到所需的信息。

可选地,按照预设处理逻辑对获取的所述操作行为数据进行处理,包括:

在完成所述操作行为数据中相应特征的剔除后,针对缺失率未达到所述缺失率阈值的每项特征,分析特征对应特征值缺失的原因;

采用与特征值缺失的原因对应的特殊值填充缺失的特征值。

在上述实现方式中,本申请中针对缺失特征值的原因实现缺失特征值的填充,从而能够使得填充的特征值与缺失特征值的原因相对应,保证了填充的特征值具有用户操作行为的表现能力。

可选地,按照预设处理逻辑对获取的所述操作行为数据进行处理,包括:

在完成所述操作行为数据中相应特征值的填充后,对所述操作行为数据中包含的每项特征进行分箱操作;

对分箱操作所得的每个区间分别进行WOE转换,得到相应的WOE值。

在上述实现方式中,通过分箱操作及WOE转换,能够减少模型训练时需学习的数据量,进而提高模型训练效率。

可选地,利用所述样本集训练预设的机器学习算法之前,还包括:

获取历史上多个用户的操作行为数据的同时,获取该多个用户的个人基本数据及征信数据;

按照所述预设处理逻辑对获取的所述个人基本数据及所述征数据进行处理,以使得所述个人基本数据及所述征信数据成为可用于模型训练的数据;

将处理后的所述个人基本数据及所述征信数据加入至所述样本集中。

在上述实现方式中,能够使得模型训练过程中学习到的数据维度更多,信息更丰富,进一步保证训练所得风险预测模型的预测准确性。

一种信贷风险预测装置,包括:

获取模块,用于:获取历史上多个用户的操作行为数据,所述操作行为数据为用户及为用户提供信贷服务的应用程序之间的交互信息;

处理模块,用于:按照预设处理逻辑对获取的所述操作行为数据进行处理,以使得所述操作行为数据成为可用于模型训练的数据;

训练模块,用于:将处理后的所述操作行为数据加入至样本集中,并利用所述样本集训练预设的机器学习算法,得到风险预测模型,以使用所述风险预测模型基于任意用户的操作行为数据进行相应的风险预测。

在上述实现方式中,本申请获取多个用户中每个用户及为用户提供信贷服务的应用程序的之间的交互信息为操作行为数据,基于操作行为数据训练机器学习算法得到相应风险预测模型,以利用该风险预测模型基于任意用户的操作行为数据进行相应的风险预测,从而有效利用了用户在应用程序上操作行为维度的数据,从数据维度的角度有效保证了风险预测模型的模型性能,进而保证风险信贷预测的较高准确性。

可选地,还可以包括:

衍生模块,用于:按照预设处理逻辑对获取的所述操作行为数据进行处理之前,基于获取的所述操作行为数据衍生获得多维度的衍生特征数据;将所述衍生特征数据及所述操作行为数据进行合并,并将所述操作行为数据更新为合并所得的数据。

在上述实现方式中,对客户操作层面的数据进行了更有效的利用和信息挖掘,在模型训练时能够实现对操作行为相应数据更成分的学习,进而保证训练所得的风险预测模型能够达到较高的准确性。

可选地,处理模块具体用于:针对所述操作行为数据包含的每项特征,获取每项所述特征对应特征值的分布情况及每项所述特征对应特征值的缺失率;如果任意特征对应特征值的分布情况异常和/或缺失率达到缺失率阈值,则剔除该任意特征。

在上述实现方式中,本申请通过剔除特征值分布情况异常及缺失率很高的特征,能够剔除无法充分表现用户的操作行为的数据,保证基于操作行为数据实现模型训练时的有效性,进而保证模型的稳定性和科技实行。

可选地,处理模块具体用于:分析所述操作行为数据包含的不同特征之间是否存在多重共线性;如果基于分析的结果确定任意多个特征之间的多重共线性对应共线性值达到共线性阈值,则剔除该任意多个特征中信息价值非最高的特征。

在上述实现方式中,通过多重共线性严重中信息价值较低的特征的剔除,减少模型训练时需要学习的数据量,从而提高模型训练效率的同时,保证模型训练的过程中能够充分学习到所需的信息。

可选地,处理模块具体用于:在完成所述操作行为数据中相应特征的剔除后,针对缺失率未达到所述缺失率阈值的每项特征,分析特征对应特征值缺失的原因;采用与特征值缺失的原因对应的特殊值填充缺失的特征值。

在上述实现方式中,本申请中针对缺失特征值的原因实现缺失特征值的填充,从而能够使得填充的特征值与缺失特征值的原因相对应,保证了填充的特征值具有用户操作行为的表现能力。

可选地,处理模块具体用于:在完成所述操作行为数据中相应特征值的填充后,对所述操作行为数据中包含的每项特征进行分箱操作;对分箱操作所得的每个区间分别进行WOE转换,得到相应的WOE值。

在上述实现方式中,通过分箱操作及WOE转换,能够减少模型训练时需学习的数据量,进而提高模型训练效率。

可选地,获取模块还用于:利用所述样本集训练预设的机器学习算法之前,获取历史上多个用户的操作行为数据的同时,获取该多个用户的个人基本数据及征信数据;

处理模块还用于:按照所述预设处理逻辑对获取的所述个人基本数据及所述征数据进行处理,以使得所述个人基本数据及所述征信数据成为可用于模型训练的数据;

训练模块还用于:将处理后的所述个人基本数据及所述征信数据加入至所述样本集中。

在上述实现方式中,能够使得模型训练过程中学习到的数据维度更多,信息更丰富,进一步保证训练所得风险预测模型的预测准确性。

本发明实施例还提供了一种信贷风险预测设备,可以包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如上任一项所述信贷风险预测方法的步骤。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可以实现如上任一项所述信贷风险预测方法的步骤。

本申请实施例的有益效果为:在上述实现方式中,本申请获取多个用户中每个用户及为用户提供信贷服务的应用程序的之间的交互信息为操作行为数据,基于操作行为数据训练机器学习算法得到相应风险预测模型,以利用该风险预测模型基于任意用户的操作行为数据进行相应的风险预测,从而有效利用了用户在应用程序上操作行为维度的数据,从数据维度的角度有效保证了风险预测模型的模型性能,进而保证风险信贷预测的较高准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种信贷风险预测方法的流程示意图;

图2为本发明实施例提供的一种信贷风险预测方法中按照预设处理逻辑对获取的操作行为数据进行处理的流程示意图;

图3为本发明实施例提供的一种信贷风险预测方法中训练预设机器学习算法得到风险预测模型的流程示意图;

图4为本发明实施例提供的一种信贷风险预测装置的结构示意图。

图标:11-获取模块;12-处理模块;13-训练模块。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

经本申请人研究发现,金融机构可以选择风险预测模型来解决信用评分确定这一分类问题,如逻辑回归,决策树,随机森林等。整个风险预测模型构建过程主要可以包括以下步骤:

1.收集原始数据。最常用的原始数据主要是个人基本数据和金融类指标,包括个人的信贷历史记录、消费记录、近期财务状况等,主要涉及到个人填报信息和征信数据等。

2.提取特征。大部分原始数据需要进一步转化才能用到模型训练中,主要包括数据清洗、特征衍生以及特征过滤等,获得多个维度的特征变量。

3.模型训练。根据实际业务场景和需求确定合理的样本标签,并与步骤2中得到的特征变量一起放入模型训练;整个训练流程主要包括参数优化、模型评估和模型解释。

4.模型部署。根据金融机构自身可接受的风险水平,合理利用模型的输出结果、即信用评分,评估客户的贷款资质和违约风险。

另外,近年来金融科技在金融领域发挥着越来越重要的作用,在商业银行等金融机构从传统信贷模式逐步转型为依托大数据等新兴技术的数字化信贷模式的过程中,各类应用程序作为服务客户的主要窗口,在与客户之间的日常交互中,生成了海量的基于客户操作行为的数据。由于这些数据之前从未被传统金融机构获得,因此现有的技术方案还不能充分利用这类数据;另一方面,随着信贷风险识别技术的发展,原有数据的价值已经得到了较为全面的挖掘,因此利用传统数据来提升实现信贷风险预测的风险预测模型表现,进而获得竞争优势,也变得越来越困难;相应在利用风险预测模型实现信贷风险预测时则会导致准确性较低。

为了解决上述问题,本申请实施例提供了一种信贷风险预测方法,请参考图1,图1为本申请实施例提供的一种信贷风险预测方法的流程示意图。该信贷风险预测方法的具体步骤可以如下:

S11:获取历史上多个用户的操作行为数据,操作行为数据为用户及为用户提供信贷服务的应用程序之间的交互信息。

其中,用户通过与应用程序之间的互动实现相应的信贷服务;为了获取用户的操作行为数据,本申请实施例可以从应用程序中获取用户和应用程序的在线交互行为,记录并存储该在线交互行为相应的交互信息,可以包括用户点击次数、信息输入的间隔时长、页面刷新次数等,并将这些交互信息作为用户日常在线操作行为数据进行后续操作。需要说明的是,操作行为数据可以包括至少一个特征及每个特征相应的特征值,如特征为用户点击次数,则相应的特征值可以为3次、5次等次数值,特征为信息输入的间隔时长,则相应的特征值可以为30分钟、2小时等时长值,特征为页面刷新次数,则相应的特征值可以为6次、7次等次数值。

可以理解的是,本申请实施例在获取到当前时刻之前多个用户的操作行为数据后,可以将这些操作行为数据传输到中间数据处理模块(即处理模块),触发中间数据处理模块对接收的操作行为数据进行相应的数据处理,进而利用处理后的操作行为数据进行模型训练。

S12:按照预设处理逻辑对获取的操作行为数据进行处理,以使得操作行为数据成为可用于模型训练的数据。

预设处理逻辑可以根据实际需要进行设定,如可以包括数据清洗、数据统计等数据预处理及特征工程等。具体来说,在获取到操作行为数据后,可以根据预先设定好的计算逻辑对操作行为数据做初步处理,主要可以包括数据清洗、数据统计等,进而获得标准的操作行为数据。其中,如果任意特征的特征值不属于该任意特征的特征值应属于的范围,则认为该任意特征的特征值是不合理的,因此对于单个特征来说,如果存在足够多个数的特征值均不属于该单个特征的特征值应属于的范围,则将该单个特征剔除,从而实现不合理的特征值对应特征的清洗;如果用户每次访问应用程序均对应一条操作行为数据,那么如果不同用户访问应用程序的次数不同,这不同的用户具有的操作行为数据的条数也是不同的,此时直接将其均用作后续模型训练是不合理的,因此本申请实施例可以将其转换成另一种记录方式,如特征包括访问次数、每次访问点击次数,则需要统计一段时间内每个用户访问应用程序的次数及用户每次访问应用程序时的点击次数作为操作行为数据,从而得到标准的结构化数据,便于后续使用。当然根据实际需要进行的其他预处理也均在本发明的保护范围之内。

可选地,本申请实施例按照预设处理逻辑对获取的操作行为数据进行处理的流程示意图可以如图2所示,具体可以包括:

S121:对操作行为数据包含的每项特征,获取每项特征对应特征值的分布情况及每项特征对应特征值的缺失率;如果任意特征对应特征值的分布情况异常和/或缺失率达到缺失率阈值,则剔除该任意特征。

其中,缺失率阈值可以根据实际需要进行设定,如30%、35%等。本申请实施例可以对操作行为数据中多维度的特征进行描述性统计和初步分析,具体来说,针对操作行为数据中包含的单个特征,可以分析该单个特征的特征值的分布情况,可选地单个特征的特征值的分布情况可以为该单个特征的特征值所属的范围,此时如果该单个特征的特征值所属的范围与其实际应属的范围具有较大差异,则可以认为该单个特征的特征值的分布情况异常,如特征为年龄,正常年龄范围为1至120,则如果特征的特征值所属范围为1至500,则说明其分布情况是异常的;然后剔除该分布情况异常的单个特征,当然本申请实施例中剔除该单个特征时均包括剔除该单个特征及相应的特征值。在另一种方式中,针对操作行为数据中包含的单个特征,可以计算该单个特征的特征值的缺失率,也即该单个特征具有相应特征值的用户数量占全部用户数量的百分比;如果该单个特征的特征值的缺失率达到缺失率阈值,则说明缺失率很高,因此也就失去了模型训练时学习该单个特征的意义,因此将该单个特征剔除。可见,本申请通过剔除特征值分布情况异常及缺失率很高的特征,能够剔除无法充分表现用户的操作行为的数据,保证基于操作行为数据实现模型训练时的有效性,进而保证模型的稳定性和科技实行。

S122:分析操作行为数据包含的不同特征之间是否存在多重共线性;如果基于分析的结果确定任意多个特征之间的多重共线性对应共线性值达到共线性阈值,则剔除该任意多个特征中信息价值非最高的特征。

其中,信息价值(差膨胀系数,IV)表示数据信息所具有的价值,共线性值可以为VIF(variance inflation factor,差膨胀系数),而共享性阈值可以根据实际需要进行设定,如5。本申请实施例可以分析操作行为数据中不同特征之间的相关性,以基于分析的结果确定不同特征之间是否存在多重共线性,也即计算不同特征之间的共线性值,如果共线性值达到共线性阈值,则说明多重共线性较严重,因此将多重共线性较严重的多个特征中信息价值最高的特征保留,其余特征剔除。由于多重共线性普遍存在,因此本申请实施例中保留不存在严重多重共线性的特征,剔除存在严重多重共线性的特征中信息价值较低(较不稳定,预测能力弱)的特征;从而通过多重共线性严重中信息价值较低的特征的剔除,减少模型训练时需要学习的数据量,从而提高模型训练效率的同时,保证模型训练的过程中能够充分学习到所需的信息。

S123:在完成操作行为数据中相应特征的剔除后,针对缺失率未达到缺失率阈值的每项特征,分析特征对应特征值缺失的原因;采用与特征值缺失的原因对应的特殊值填充缺失的特征值。

本申请实施例中对于缺失率较低的任意特征,可以利用该任意特征的均值填充该任意特征中缺失的特征值。在另一种方式中,本申请实施例可以分析缺失特征值的原因,进而将该原因对应的特殊值填充缺失的特征值,如任意特征值是由于没有获取到导致缺失的,则可以利用第一特殊值(如-99)实现该任意特征值的填充,该任意特征值是由于存在多个不同的值导致缺失的,则可以利用第二特殊值(-98)实现该任意特征值的填充,当然根据实际需要进行的其他设定也均在本发明的保护范围之内;此时在后续进行分箱操作时可以将不同特殊值分配至不同的区间中,以保证不同区间具有比较均匀的用户操作行为的表现能力。本申请中针对缺失特征值的原因实现缺失特征值的填充,从而能够使得填充的特征值与缺失特征值的原因相对应,保证了填充的特征值具有用户操作行为的表现能力。

S124:在完成操作行为数据中相应特征值的填充后,对操作行为数据中包含的每项特征进行分箱操作;对分箱操作所得的每个区间分别进行WOE转换,得到相应的WOE值。

本申请实施例可以对数据中包含的每项特征进行分箱操作,而在分箱操作的过程中,一方面要保证各分箱的数据量充足,保证统计意义,另一方面通过分析分箱操作结果的合理性和可解释性,进一步调整分箱,最终将特征分为多个离散区间(区间与分箱含义相同)。其中,各分箱的数据量充足不仅需要全部操作行为数据的数据量足够多,还需要各个分箱包含的数据量占全部操作行为数据的数据量足够多;而通过分析分箱操作结果的合理性和可解释性调整分箱,则是可以基于实际业务分析分箱操作结果是否合理,如果不合理则调整分箱,如任意分箱包含的操作行为数据无法正确表达该分箱应具有的意义,则说明该任意分箱需要调整。并且,在实现分箱操作后,还会将分箱操作所得的每个分箱分别进行WOE(weight of evidence,证据权重)转换,从而得到每个分箱的WOE值,相应的利用样本集实现模型训练则仅需将各用户的操作行为数据中各特征的WOE值及表示每个用户的信用评分(信用评分为相应用户的分类标签)输入至机器学习算法,机器学习算法通过学习则可得到每个特征的系数,进而在任意用户的操作行为数据中各特征的WOE值输入至风险预测模型后,风险预测模型则将上述系数与当前输入的相应WOE值进行加权求和,即可得到相应的信用评分。本申请通过分箱操作及WOE转换,能够减少模型训练时需学习的数据量,进而提高模型训练效率。

可选地,本申请实施例按照预设处理逻辑对获取的操作行为数据进行处理之前,还可以包括:

基于获取的操作行为数据衍生获得多维度的衍生特征数据;

将衍生特征数据及操作行为数据进行合并,并将操作行为数据更新为合并所得的数据。

本申请实施例基于操作行为数据可以通过暴力衍生,衍生获得多维度的衍生特征数据,并将这些衍生特征数据也作为操作行为数据实现后续的操作,而暴力衍生可以包括对操作行为数据中相应特征的特征值进行加减乘除计算等,当然也可以包括根据实际需要进行的其他设定,从而对客户操作层面的数据进行了更有效的利用和信息挖掘,在模型训练时能够实现对操作行为相应数据更成分的学习,进而保证训练所得的风险预测模型能够达到较高的准确性。

S13:将处理后的操作行为数据加入至样本集中,并利用样本集训练预设的机器学习算法,得到风险预测模型,以使用风险预测模型基于任意用户的操作行为数据进行相应的风险预测。

其中,预设的机器学习算法可以为Logistic回归算法,当然根据需要进行的其他设定也均在本发明的保护范围之内。在需要实现任意用户的信贷风险预测时,可以获取该任意用户的操作行为数据,并按照预设处理逻辑对该任意用户的操作行为数据进行处理得到相应WOE值后,将WOE值输入至风险预测模型,即可得到风险预测模型输出的表示该任意用户信贷风险的数据(即信用评分)。并且,在实现模型训练时可以将样本集划分为训练集合测试集,训练集和测试集中包含的数据的比例可以为7:3;利用训练集训练机器学习算法,利用测试集评估机器学习算法的模型性能表现,若其模型性能表现能够达到性能标准,则确定机器学习算法为最终的风险预测模型,否则调整机器学习算法的参数和特征选择,再次返回执行模型训练的步骤,直至模型性能表现能够达到性能标准为止。在另一种具体实现方式中,获取到模型所用数据(包括操作行为数据、个人基本数据、征信数据及相应的衍生特征数据)后,也可以直接将模型所用数据加入至样本集中,然后再按照预设处理逻辑对样本集中的数据进行处理,最后使用处理后的数据进行模型训练等。

另外,本申请实施例中训练预设机器学习算法得到风险预测模型的流程示意图可以如图3所示,具体可以包括:

S131:利用训练集训练机器学习算法;

S132:根据实际业务需要明确模型评估指标;机器学习算法为Logistic回归算法时采用KS值和AUC值来作为模型性能表现的模型评估指标;

S133:利用测试集计算步骤S131得到的训练好的Logistic回归算法的KS值和AUC值,若均达到预先设定的区分度的要求,则确定训练好的Logistic回归算法为风险预测模型,否则调整Logistic回归算法的参数和特征选择,返回执行步骤S131,直到模型评估指标达标为止。

从而通过上述步骤保证训练所得的风险预测模型的模型性能表现符合需求,进而保证利用该风险预测模型实现较为准确的信贷风险预测。

可选地,本申请利用样本集训练预设的机器学习算法之前,还可以包括:

获取历史上多个用户的操作行为数据的同时,获取该多个用户的个人基本数据及征信数据;

按照预设处理逻辑对获取的个人基本数据及征数据进行处理,以使得个人基本数据及征信数据成为可用于模型训练的数据;

将处理后的个人基本数据及征信数据加入至样本集中。

本申请实施例可以获取历史上多个用户的操作行为数据的同时,还获取该多个用户的个人基本数据及征信数据,并按照预设处理逻辑对这些数据进行处理得到相应WOE值后,将处理所得的数据信息也加入至样本集中实现后续的模型训练操作,相应的,在需要利用风险预测模型实现任意用户的信贷风险预测时也需要获取该任意用户的个人基本数据及征信数据,进而按照预设处理逻辑对这些数据及该任意用户的操作行为数据进行处理,并将处理所得的数据(WOE值)输入至风险预测模型,得到表示该任意用户信贷风险的数据。从而能够使得模型训练过程中学习到的数据维度更多,信息更丰富,进一步保证训练所得风险预测模型的预测准确性。

另外,在得到历史上多个用户的个人基本数据和征信数据后,还可以采用暴力衍生基于该多个用户的个人基本数据及征信数据衍生得到更多维的衍生特征数据,并将这些衍生特征数据加入至上述个人基本数据及征信数据中。个人基本数据可以包括用户的年龄、工作、性别等,征信数据可以包括贷款数额、存款资金、还款情况等。

在一种具体实现方式中,本发明实施例提供的一种信贷风险预测方法具体可以包括:

1.从应用程序中获取用户的操作行为数据,随后存储并传输到中间数据处理模块,并触发原始数据处理操作,获得大量衍生的基于操作行为数据的多维度特征数据;

2.基于个人基本数据和征信数据衍生出多维度特征数据,针对步骤1获得的大量操作行为数据、个人基本数据、征信数据及全部衍生数据,在进行数据预处理和特征工程后,作为基础特征共同参与机器学习算法的训练过程,并得到训练好的风险预测模型;

3.利用测试评估模型性能表现,若达到性能标准,则得到最终模型,否则调整机器学习算法参数和特征选择,再次执行步骤2和3,直到达到性能标准。

可选地,步骤1的具体步骤可以为:

1.1.基于用户和应用程序的在线交互行为,记录并存储相应的交互信息,包括用户点击次数、信息输入的间隔时长、页面刷新次数等;

1.2.根据预先设定好的计算逻辑,对步骤1.1得到的操作行为数据做初步处理,主要包括数据清洗、数据统计等,并最终获得标准的操作行为数据;

1.3.利用步骤1.2得到的标准的操作行为数据,根据预先设定好的衍生逻辑获得基于操作行为数据的多维度衍生特征数据。

可选地,步骤2中的机器学习算法可以是Logistic回归算法。

可选地,步骤2的具体步骤可以为:

2.1.以个人基本数据和征信数据为基础,根据预先设定好的衍生逻辑获取大量的衍生特征数据;;

2.2.将步骤1得到的基于操作行为数据的衍生特征和步骤2.1得到的基于个人基本数据和征信数据的衍生特征以及操作行为数据、个人基本数据、征信数据合并在一起,共同构建出样本集,并从样本集中随机选择训练集和测试集,所包含的数据量比例为7:3;

2.3.对训练集中的数据进行异常特征剔除、共线特征剔除、缺失值填充、特征分箱和WOE转化。

可选地,步骤3的具体步骤可以为:

3.1.根据实际业务需要明确模型评估指标。对基于Logistic回归算法的信贷模型,采用KS值和AUC值来作为模型性能表现的衡量指标;

3.2.利用测试集,计算步骤2得到的训练好的Logistic回归算法的KS值和AUC值,若达到区分度的要求,则得到最终的风险预测明,否则调整Logistic回归算法参数和特征选择,重新执行步骤2和步骤3,直到模型性能达标。

本发明的主要目的是解决客户操作行为数据在风险预测模型中的应用问题;具体来说,本申请具有如下效果:

1.本发明通过设计一系列客户操作层面的数据处理方案,有效利用了操作行为维度的数据,从数据维度的角度有效提升了现有技术的性能;

2.本发明通过纳入客户操作行为维度数据,有效拓宽了现有技术的数据来源,在一定程度上缓解了现有技术对征信数据等数据来源的高度依赖性,增强了现有技术的稳定性;

3.本发明所使用的客户操作数据属于自由数据的挖掘,因此成本很低,有效改善了现有技术数据成本太高的问题;

4.本发明所使用的客户操作数据的时效性很强,避免了数据延迟问题;

5.本发明所使用的客户操作数据的覆盖率很高,避免了无法覆盖信贷历史较短或第三方数据缺失较多的人群的问题,有效的控制了潜在客户的流失;

6.本发明所使用的客户操作数据具有灵活、新颖和不易感知的特点,黑产的学习成本较高,因此能有效提升现有技术的防御黑产攻击的能力。

本发明实施例还提供了一种信贷风险预测装置,如图4所示,可以包括:

获取模块11,用于:获取历史上多个用户的操作行为数据,操作行为数据为用户及为用户提供信贷服务的应用程序之间的交互信息;

处理模块12,用于:按照预设处理逻辑对获取的操作行为数据进行处理,以使得操作行为数据成为可用于模型训练的数据;

训练模块13,用于:将处理后的操作行为数据加入至样本集中,并利用样本集训练预设的机器学习算法,得到风险预测模型,以使用风险预测模型基于任意用户的操作行为数据进行相应的风险预测。

可选地,本发明实施例提供的一种信贷风险预测装置还可以包括:

衍生模块,用于:按照预设处理逻辑对获取的操作行为数据进行处理之前,基于获取的操作行为数据衍生获得多维度的衍生特征数据;将衍生特征数据及操作行为数据进行合并,并将操作行为数据更新为合并所得的数据。

可选地,处理模块具体用于:针对操作行为数据包含的每项特征,获取每项特征对应特征值的分布情况及每项特征对应特征值的缺失率;如果任意特征对应特征值的分布情况异常和/或缺失率达到缺失率阈值,则剔除该任意特征。

可选地,处理模块具体用于:分析操作行为数据包含的不同特征之间是否存在多重共线性;如果基于分析的结果确定任意多个特征之间的多重共线性对应共线性值达到共线性阈值,则剔除该任意多个特征中信息价值非最高的特征。

可选地,处理模块具体用于:在完成操作行为数据中相应特征的剔除后,针对缺失率未达到缺失率阈值的每项特征,分析特征对应特征值缺失的原因;采用与特征值缺失的原因对应的特殊值填充缺失的特征值。

可选地,处理模块具体用于:在完成操作行为数据中相应特征值的填充后,对操作行为数据中包含的每项特征进行分箱操作;对分箱操作所得的每个区间分别进行WOE转换,得到相应的WOE值。

可选地获取模块还用于:利用样本集训练预设的机器学习算法之前,获取历史上多个用户的操作行为数据的同时,获取该多个用户的个人基本数据及征信数据;

处理模块还用于:按照预设处理逻辑对获取的个人基本数据及征数据进行处理,以使得个人基本数据及征信数据成为可用于模型训练的数据;

训练模块还用于:将处理后的个人基本数据及征信数据加入至样本集中。

本发明实施例还提供了一种信贷风险预测设备,可以包括:

存储器,用于存储计算机程序;

处理器,用于执行计算机程序时实现如上任一项所述信贷风险预测方法的步骤。

应当理解的是,该电子设备(即信贷风险预测设备)可以是个人电脑(PersonalComputer PC)、平板电脑、智能手机、个人数字助理(Personal Digital Assistant PDA)等具有逻辑计算功能的电子设备。

本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时可以实现如上任一项所述信贷风险预测方法的步骤。

综上所述,本申请实施例提供了一种信贷风险预测方法、装置、设备及存储介质,该方法包括:获取历史上多个用户的操作行为数据,所述操作行为数据为用户及为用户提供信贷服务的应用程序之间的交互信息;按照预设处理逻辑对获取的所述操作行为数据进行处理,以使得所述操作行为数据成为可用于模型训练的数据;将处理后的所述操作行为数据加入至样本集中,并利用所述样本集训练预设的机器学习算法,得到风险预测模型,以使用所述风险预测模型基于任意用户的操作行为数据进行相应的风险预测。

在上述实现方式中,本申请获取多个用户中每个用户及为用户提供信贷服务的应用程序的之间的交互信息为操作行为数据,基于操作行为数据训练机器学习算法得到相应风险预测模型,以利用该风险预测模型基于任意用户的操作行为数据进行相应的风险预测,从而有效利用了用户在应用程序上操作行为维度的数据,从数据维度的角度有效保证了风险预测模型的模型性能,进而保证风险信贷预测的较高准确性。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的框图显示了根据本申请的多个实施例的设备的可能实现的体系架构、功能和操作。在这点上,框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图中的每个方框、以及框图的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。因此本实施例还提供了一种可读取存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行信贷风险预测方法中任一项所述方法中的步骤。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RanDom Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而己,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不同限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句"包括…"限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号