首页> 中国专利> 一种信用评分卡模型的建模方法、装置、介质及电子设备

一种信用评分卡模型的建模方法、装置、介质及电子设备

摘要

本申请实施例公开了一种信用评分卡模型的建模方法、装置、介质及电子设备。所述方法包括:获取建模数据,对所述建模数据进行预处理,得到预处理结果;采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。执行本方案,可以采用进化计算算法,在信用评分卡模型的建立过程中,自动进行特征选择,模型建立以及模型评估,无需工作人员介入,从而实现客观并且准确的建立信用评分卡模型目的。

著录项

  • 公开/公告号CN112184412A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 中国建设银行股份有限公司;

    申请/专利号CN202011003183.4

  • 发明设计人 马吉甫;许斌;陈曦;

    申请日2020-09-22

  • 分类号G06Q40/02(20120101);G06K9/62(20060101);

  • 代理机构11332 北京品源专利代理有限公司;

  • 代理人孟金喆

  • 地址 100033 北京市西城区金融大街25号

  • 入库时间 2023-06-19 09:26:02

说明书

技术领域

本申请实施例涉及信用评价技术领域,尤其涉及一种信用评分卡模型的建模方法、装置、介质及电子设备。

背景技术

近年来,随着经济的快速发展,人们的生活水平的逐渐提高,信用贷款已经成为各个行业,各个人员所密切关注的资金运行方式。

信用评分卡模型在国外是一种成熟的预测方法。但建模过程中,特征选择需要通过各种统计分析方法进行特征重要性评估,且特征的选择需要不断的人工迭代进行多轮评选。入模型特征,需要根据WOE(Weight of Evidence,证据权重)值,对变量进行离散化分箱,分箱过程也需要手工调整离散边界值,建模过程中,需要建模人员根据模型的评估指标KS,拟合曲线等指标,手工调整模型,选择特征,迭代的完成最终建模成果。整个建模过程自动化程度较低,特征选择中存在主观因素,评估指标和模型参数选择。

发明内容

本申请实施例提供一种信用评分卡模型的建模方法、装置、介质及电子设备,可以采用进化计算算法,在信用评分卡模型的建立过程中,自动进行特征选择,模型建立以及模型评估,无需工作人员介入,从而实现客观并且准确的建立信用评分卡模型目的。

第一方面,本申请实施例提供了一种信用评分卡模型的建模方法,所述方法包括:

获取建模数据,对所述建模数据进行预处理,得到预处理结果;

采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;

基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;

采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。

进一步的,采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果,包括:

采用进化计算算法构造解释性的遗传编码规则;

根据所述遗传编码规则,确定预处理结果中特征的编码基因,并基于所述编码基因进行特征分箱,得到特征分箱结果。

进一步的,采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,包括:

采用由进化计算算法确定的至少一个评估指标作为进化目标,对信用评分卡模型进行迭代,得到符合至少一个进化目标的特征分箱结果;

基于所述符合至少一个进化目标的特征分箱结果,构建至少一个信用评分卡模型的可用模型。

进一步的,在构建至少一个信用评分卡模型的可用模型之后,所述方法还包括:

响应于可用模型的选择操作,得到至少一个信用评分卡模型的目标模型;

若所述目标模型符合预设标准,则进行信用评分卡模型的目标模型的上线部署。

进一步的,获取建模数据,对所述建模数据进行预处理,得到预处理结果,包括:

获取建模数据,对所述建模数据进行探索性数据分析;

对所述探索性数据分析的结果进行数据预处理,得到预处理结果。

进一步的,获取建模数据,对所述建模数据进行探索性数据分析,包括:

获取建模数据,对所述建模数据采用数据缺失值处理,数据异常值处理,以及数据之间的分布以及关联性中的至少一种探索性数据分析。

进一步的,对所述探索性数据分析的结果进行数据预处理,得到预处理结果,包括:

对所述探索性数据分析的结果,进行特征转换和编码处理,得到预处理结果。

进一步的,所述进化计算算法包括:遗传算法,文化基因算法以及进化多目标优化算法。

进一步的,所述逻辑回归算法包括采用logistic回归模型进行的一种二分类的线性模型算法。

第二方面,本申请实施例提供了一种信用评分卡模型的建模装置,所述装置包括:

预处理结果获取模块,用于获取建模数据,对所述建模数据进行预处理,得到预处理结果;

特征分箱结果确定模块,用于采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;

评分卡模型建立模块,用于基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;

上线部署模块,用于采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。

第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的信用评分卡模型的建模方法。

第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的信用评分卡模型的建模方法。

本申请实施例所提供的技术方案,获取建模数据,对所述建模数据进行预处理,得到预处理结果;采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。本申请所提供的技术方案,可以采用进化计算算法,在信用评分卡模型的建立过程中,自动进行特征选择,模型建立以及模型评估,无需工作人员介入,从而实现客观并且准确的建立信用评分卡模型目的。

附图说明

图1是本申请实施例提供的信用评分卡模型的建模方法的流程图;

图2是本申请实施例提供的另一信用评分卡模型的建模方法的示意图;

图3是本申请实施例提供的信用评分卡模型的建模装置的结构示意图;

图4是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1是本申请实施例提供的信用评分卡模型的建模方法的流程图,本实施例可适用于信用评分卡模型建立的情况,该方法可以由本申请实施例所提供的信用评分卡模型的建模装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于智能终端等电子设备中。

如图1所示,所述信用评分卡模型的建模方法包括:

S110、获取建模数据,对所述建模数据进行预处理,得到预处理结果。

其中,建模数据可以是一定数量的历史数据,可以包括训练集数据和测试集数据。此处的预处理,可以是对数据进行离散化处理,以及残缺数值的补充等。可以理解的,得到的预处理结果,可以是用来作为模型训练的输入数据的。

除了企业内部自有的数据外,还有第三方机构数据支持,比如芝麻信用,征信局等。通过大数据分析用户的各种数据来达到最终目的,数据维度很广,可以包括:用户基础属性,用户行为,用户网购,用户APP行为等。在数据质量不差的情况下,数量越多越好,后续再进行甄别筛选。

在本实施例中,可选的,获取建模数据,对所述建模数据进行预处理,得到预处理结果,包括:

获取建模数据,对所述建模数据进行探索性数据分析;

对所述探索性数据分析的结果进行数据预处理,得到预处理结果。

数据探索也是很重要的一步,主要考察数据的质量,包括:数据缺失值,数据异常值,数据一致性,数据分布特征,以及数据之间的关联性等。通常可以使用描述性统计指标,如均值,中位数,众数,方差/标准差等进行宏观上的度量,也可以使用可视化方法辅助进行数据分布,以及关联性等的初步分析工作。

在上述技术方案的基础上,可选的,获取建模数据,对所述建模数据进行探索性数据分析,包括:

获取建模数据,对所述建模数据采用数据缺失值处理,数据异常值处理,以及数据之间的分布以及关联性中的至少一种探索性数据分析。

缺失值处理:根据缺失情况(是否随机,以及缺失量等)可选择使用均值,众数,中位数等填充,也可以用机器学习模型来填充缺失值(常见算法有随机森林,决策树,kNN等)。

异常值处理:可根据异常的情况考虑使用

数据分布以及关联性:可以考虑结合可视化的方法进一步的观察:数据分布是否均衡,数据特征之间的联系,以及数据特征与目标变量之间的联系等进行了解。

在上述技术方案的基础上,可选的,对所述探索性数据分析的结果进行数据预处理,得到预处理结果,包括:

对所述探索性数据分析的结果,进行特征转换和编码处理,得到预处理结果。

数据预处理主要包括特征转换,特征编码,特征选择,特征共线性处理,以及创建衍生变量等一系列的处理方法。

特征转换和编码:在信用评分模型的变量选择中,如果使用逻辑回归模型,那么就需对所有特征进行分箱离散化(一般是先细分再粗分),这样可以增加模型对非线性的表达,让模型更稳定。然后再进行woe编码,因为woe的转换公式与逻辑回归模型上非常相似,便于生成评分系统。

特征选择:在数据中是非常中重要,目的在于帮助挑选出最有意义的特征。选择特征最终目的是挑选能区分好用户或坏用户的强相关特征。

根据所使用的模型可以通过基尼系数或信息价值IV找到显著特征项,也可以通过LASSO、LR、RF模型等对特征做重要性的筛选。当然,还有很多其它的方法,这里仅介绍这几种。

a)IV:基于woe编码,可以衡量特征信息重要程序;

b)LASSO:主要适合基于L1的正则惩罚过滤对区分好坏用户不重要的特征;

c)LR:通过拟合的参数排序得到特征的重要性程度;

d)RF:集成学习(bagging),依据算法的附加功能进行特征的重要性排序;

最后要说的是,特征选择要结合业务,根据业务的理解挑选解释型强且权重较大的特征变量。

S120、采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果。

进化计算(Evolutionary Computation)是人工智能(ArtificialIntelligence),进一步说是智能计算(Computational Intelligence)中涉及到组合优化问题的一个子域。其算法是受生物进化过程中“优胜劣汰”的自然选择机制和遗传信息的传递规律的影响,通过程序迭代模拟这一过程,把要解决的问题看作环境,在一些可能的解组成的种群中,通过自然演化寻求最优解。

其中,特征选择需要通过各种统计分析方法进行特征重要性评估,且特征的选择需要不断的人工迭代进行多轮评选。

在本实施例中,可选的,采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果,包括:

采用进化计算算法构造解释性的遗传编码规则;

根据所述遗传编码规则,确定预处理结果中特征的编码基因,并基于所述编码基因进行特征分箱,得到特征分箱结果。

本发明在保障模型可解释性的基础上,引入自动特征选择因子,自动化选择特征。其次,通过进化计算算法,自动完成特征分箱结果的计算。本方案可以解决:在特征选择需要通过各种统计分析方法进行特征重要性评估,且特征的选择需要不断的人工迭代进行多轮评选。入模型特征,需要人工根据WOE值,对变量进行离散化分箱。

S130、基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模。

本发明是基于进化计算优化传统建模流程,将原有建模流程中需要大量迭代的建模的过程,有算法支持,极大的减少了人工工作量。与现有业界使用的传统建模方法相比,本发明在保障模型可解释情况下,直接进行模型选择,将特征选择,特征分箱由算法支持,建模人员仅需要选择和评估最终模型即可。

S140、采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。

其中,评估指标可以是基于进化计算算法确定的。预设标准,可以确定模型具有稳定的计算能力的标准,例如准确率达到90%或者100%,或者通过测试集数据进行测试发现预估结果是与实际结果相吻合的,则可以确定符合预设标准。

在本方案中,可选的,在构建至少一个信用评分卡模型的可用模型之后,所述方法还包括:

响应于可用模型的选择操作,得到至少一个信用评分卡模型的目标模型;

若所述目标模型符合预设标准,则进行信用评分卡模型的目标模型的上线部署。

通过多目标进化计算,将模型评估指标作为进化目标,从而可以在一代进化中,产生多个可用模型,供建模人员选择。由此,可以避免对模型评估过程中人工的介入,引入人为的主观因素,影响模型的评估的导向。

在本方案中,可选的,在构建至少一个信用评分卡模型的可用模型之后,所述方法还包括:

响应于可用模型的选择操作,得到至少一个信用评分卡模型的目标模型;

若所述目标模型符合预设标准,则进行信用评分卡模型的目标模型的上线部署。

进化算法还经常被用到多目标问题的优化求解中来,一般称这类进化算法为进化多目标优化算法(Multi-Objective Evolutionary Algorithm,MOEA)。

对于一个优化问题而言,如果其只有一个目标方程,那么称之为单目标优化问题;而一旦方程个数达到两个或者两个以上,那么它被相应的称之为多目标优化问题(Multi-objective Optimization Problems,简称为MOPs)。

对于一个多目标优化问题而言,问题的最优解可能不止一个,而应该是一组,通常称这组最优解为相应多目标优化问题的一个非支配解集,或者称为是Pareto解集,其中的每一个解称之为Pareto解(Pareto是引自一个经济学的术语)。求解多目标优化问题的解法有很多,比如常见的目标规划方法,目标分解方法,目标化多为少方法(将多个目标表示为一个)等。进化算法在解决多目标问题上有着天然的优势,对于一个进化多目标优化算法而言,它可以对多个目标函数同时进行优化,而且输出一组非支配的Pareto解集,从而可以有效地求解多目标问题。

在上述技术方案的基础上,可选的,所述进化计算算法包括:遗传算法,文化基因算法以及进化多目标优化算法。

其中,进化多目标优化算法前面已经进行了解释,此处主要解释遗传算法和文化基因算法。

遗传算法(Genetic Algorithm,简称GA),是一种最基本的进化算法,它是模拟达尔文生物进化理论的一种优化模型,最早由J.Holland教授于1975年提出。遗传算法中种群分每个个体都是解空间上的一个可行解,通过模拟生物的进化过程,从而在解空间内搜索最优解。

文化基因算法文化基因算法(Memetic Algorithm,简称MA),也被称为是“密母算法”,它是由Mpscato在1989年提出的。文化基因算法是一种基于种群的全局搜索和基于个体的局部启发式搜索的结合体,它的本质可以理解为:

Memetic=GA+Local Search;

即Memetic算法实质上为遗传算法加上一个局部搜索(Local Search)算子。局部搜索算子可以根据不同的策略进行设计。

本发明是基于进化计算优化传统建模流程,将原有建模流程中需要大量迭代的建模的过程,有算法支持,极大的减少了人工工作量。

在上述各技术方案的基础上,可选的,所述逻辑回归算法包括采用logistic回归模型进行的一种二分类的线性模型算法。

在信用评分卡建模中,用到最常用的方法就是逻辑回归(LR)。虽然是传统的模型,但是由于其自身特点,加上自变量进行了证据权重转换(WOE),Logistic回归的结果可以直接转换为一个汇总表,即所谓的标准评分卡格式,这对于区分好坏用户以及评分卡的建立非常适用。

除了LR外,神经网络,Xgboost等高级模型也会被使用,不过综合考虑LR目前能够满足大部分的需求且部署上线容易。

本申请实施例所提供的技术方案,获取建模数据,对所述建模数据进行预处理,得到预处理结果;采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。本申请所提供的技术方案,可以采用进化计算算法,在信用评分卡模型的建立过程中,自动进行特征选择,模型建立以及模型评估,无需工作人员介入,从而实现客观并且准确的建立信用评分卡模型目的。

图2是本申请实施例提供的另一信用评分卡模型的建模方法的示意图,如图2所示,与上述方案重复的步骤此处不再赘述。

其中,本发明优化了传统建模流程中的迭代部分,即:将原有建模流程中的,特征选择,模型开发进行整合,从而直接评估选择模型。

通过进化计算,构造可解释的遗传编码规则,保障模型的可解释性。

通过对遗传编码规则中引入,特征选择位的基因,提供了自动化特征选择的功能。

通过多目标进化计算,将模型评估指标作为进化目标,从而可以在一代进化中,产生多个可用模型,供建模人员选择。

图3是本申请实施例提供的信用评分卡模型的建模装置的结构示意图。如图3所示,所述信用评分卡模型的建模装置包括:

预处理结果获取模块310,用于获取建模数据,对所述建模数据进行预处理,得到预处理结果;

特征分箱结果确定模块320,用于采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;

评分卡模型建立模块330,用于基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;

上线部署模块340,用于采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。

上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种信用评分卡模型的建模方法,该方法包括:

获取建模数据,对所述建模数据进行预处理,得到预处理结果;

采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;

基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;

采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。

存储介质——任何的各种类型的存储器电子设备或存储电子设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDR RAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“存储介质”可以包括可以驻留在不同未知中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的信用评分卡模型的建模操作,还可以执行本申请任意实施例所提供的信用评分卡模型的建模方法中的相关操作。

本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的信用评分卡模型的建模装置。图4是本申请实施例提供的一种电子设备的结构示意图。如图4所示,本实施例提供了一种电子设备400,其包括:一个或多个处理器420;存储装置410,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器420执行,使得所述一个或多个处理器420实现本申请实施例所提供的信用评分卡模型的建模方法,该方法包括:

获取建模数据,对所述建模数据进行预处理,得到预处理结果;

采用进化计算算法对所述预处理结果进行特征选择,得到特征分箱结果;

基于所述特征分箱结果,采用逻辑回归算法进行信用评分卡模型的建模;

采用由进化计算算法确定的评估指标,对信用评分卡模型进行评估,若符合预设标准,则进行信用评分卡模型的上线部署。

当然,本领域技术人员可以理解,处理器420还实现本申请任意实施例所提供的信用评分卡模型的建模方法的技术方案。

图4显示的电子设备400仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示,该电子设备400包括处理器420、存储装置410、输入装置430和输出装置440;电子设备中处理器420的数量可以是一个或多个,图4中以一个处理器420为例;电子设备中的处理器420、存储装置410、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线450连接为例。

存储装置410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的信用评分卡模型的建模方法对应的程序指令。

存储装置410可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置410可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置410可进一步包括相对于处理器420远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏、扬声器等电子设备。

本申请实施例提供的电子设备,可以采用进化计算算法,在信用评分卡模型的建立过程中,自动进行特征选择,模型建立以及模型评估,无需工作人员介入,从而实现客观并且准确的建立信用评分卡模型目的。

上述实施例中提供的信用评分卡模型的建模装置、存储介质及电子设备可执行本申请任意实施例所提供的信用评分卡模型的建模方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的信用评分卡模型的建模方法。

注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号