首页> 中国专利> 一种面向机器学习可解释性的信贷违约预测方法及系统

一种面向机器学习可解释性的信贷违约预测方法及系统

摘要

本发明涉及信贷违约预测技术领域,尤其是一种面向机器学习可解释性的信贷违约预测方法,包括以下步骤:S1、数据的采集;S2、数据的预处理;S3、数据的划分和训练;S4、模型的验证。本发明还公开了一种面向机器学习可解释性的信贷违约预测方法的系统,包括数据采集模块,所述数据采集模块通过信号线连接清洗筛选模块,清洗筛选模块对输入数据进行清洗,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据,所述清洗筛选模块通过信号连接有数据划分模块,本发明能够高效准确进行违约预测。

著录项

  • 公开/公告号CN112686446A

    专利类型发明专利

  • 公开/公告日2021-04-20

    原文格式PDF

  • 申请/专利权人 北京工商大学;

    申请/专利号CN202011606395.1

  • 发明设计人 吴金迪;

    申请日2020-12-28

  • 分类号G06Q10/04(20120101);G06Q40/02(20120101);G06F16/215(20190101);G06F16/23(20190101);G06F11/14(20060101);G06N20/00(20190101);

  • 代理机构42261 武汉尚齐知识产权代理事务所(普通合伙);

  • 代理人王攀

  • 地址 100080 北京市海淀区阜成路北京工商大学

  • 入库时间 2023-06-19 10:41:48

说明书

技术领域

本发明涉及信贷违约预测领域,尤其涉及一种面向机器学习可解释性的信贷违约预测方法及系统。

背景技术

随着金融借贷市场日趋成熟,小微企业对贷款的需求量越来越大,同时对贷款审批效率、贷款发放时间和贷款发放管理等方面的要求不断提高,在现有条件下,如何节约审核时间、提高审核准确率、贷款池优化管理成为目前面临的巨大挑战,如何科学合理的对各类风险进行定价,是银行信贷部门实现高效率运营管理、降低运营成本、保证客户服务质量和水平的重要环节。目前在对客户的信用审核上没有好的评价标准,容易发生误判的情况。

发明内容

本发明的目的是为了解决现有技术中存在不能准确地评价信用的缺点,而提出的一种面向机器学习可解释性的信贷违约预测方法及系统。

为达到以上目的,本发明采用的技术方案为:一种面向机器学习可解释性的信贷违约预测方法,包括以下步骤:

S1、数据的采集,采集的数据来源包括业务统计的数据、银行提供的征信数据和第三方提供的大数据;

S2、数据的预处理:清洗筛选模块对输入数据进行清洗,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据;

S3、数据的划分和训练:将经过清洗的数据分为多个组,分别对多个组的数据进行逻辑回归、随机森林、XGBoost及深度学习,并对多个组的预测结果相加求平均值;

S4、模型的验证:通过验证模块对建立的模型进行验证,通过引入新的数据来分别对各个组的预测结果进行评价之后再对平均值进行评价,找到最佳的模型。

优选的,S4中通过定量分析模块对模型进行大量数据的验证,通过定型分析模块对模型预测的准确性进行评估

本发明还公开了一种面向机器学习可解释性的信贷违约预测方法的系统,包括数据采集模块,所述数据采集模块通过信号线连接清洗筛选模块,清洗筛选模块对输入数据进行清洗,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据,所述清洗筛选模块通过信号连接有数据划分模块,通过数据划分模块将经过清洗的数据分为多个组,所述数据划分模块通过信号连接系统控制中心,所述系统控制中心用于对预测系统进行控制和管理,所述系统控制中心通过信号线连接有模型建立模块和综合评估模块,通过模型建立模块建立评价模型,通过综合评估模块对客户信用风险进行评分,所述模型建立模块通过信号线连接有训练模块,所述训练模块分别对多个组的数据进行逻辑回归、随机森林、XGBoost及深度学习,并对多个组的预测结果相加求平均值,所述模型建立模块通过信号线连接有验证模块,通过验证模块对建立的模型进行验证,通过引入新的数据来分别对各个组的预测结果进行评价之后再对平均值进行评价,找到最佳的模型,所述验证模块通过信号线连接有定量分析模块和定性分析模块,通过定量分析模块对模型进行大量数据的验证,通过定型分析模块对模型预测的准确性进行评估。

优选的,所述数据采集模块采集的数据来源包括业务统计的数据、银行提供的征信数据和第三方提供的大数据。

优选的,所述训练模块通过信号线连接监督学习模块和无监督学习模块,对降噪梯度提升树进行训练,使用历史网络个人信贷信息进行无监督学习,得到第一数据特征,使用第一数据特征进行有监督学习,完成降噪梯度提升树模型训练。

优选的,所述系统控制中心包括系统管理主机,所述系统管理主机通过局域网连接数据库,数据库用于对系统内数据进行存储,所述系统管理主机通过信号线连接数据划分模块、综合评估模块和模型建立模块,所述局域网设有防火墙。

优选的,所述数据库通过信号线连接有定时备份模块,通过定时模块能够对数据库内的数据进行定时的备份,从而能够方便在数据库内数据发生丢失时能够进行及时恢复,挽回损失,所述数据库铜鼓信号线连接有自动更新模块,通过自动更新模块能够方便对数据库内的数据进行定期更新,所述数据库通过信号线连接有图表展示模块,通过图表展示模块能够将数据库内的数据统计为图表进行展示,从而方便系统的管理者直观了解。

优选的,所述综合评估模块内设历史评估模块、行业评估模块、职位评估模块、地区评估模块、证件评估模块、收入评估模块和真实性评估模块,通过对客户的历史信用记录进行评估、所从事的行业进行评估、担任的职务进行评估、所在的地区进行评估、所提供的证件进行评估、收入水平进行评估以及提供的数据的真实性进行评估来进行全面的综合评估。

优选的,所述综合评估模块通过数据线连接有数据输入模块,数据输入模块对客户的数据进行输入,所述综合评估模块通过信号线连接有评分建立模块,评分建立模块通过生成的模型对客户的信用风险进行评估,所述综合评估模块通过信号线连接有风险预测模块,风险预测模块通过评分对客户的风险等级进行评分,所述综合评估模块通过信号线连接有反馈模块,通过反馈模块能够对评分结果向系统控制中心进行反馈。

优选的,所述系统控制中心通过信号线连接有安全警示模块,所述安全警示模块通过信号线连接有违约判断模块和警示通知模块,通过违约判断模块根据客户的评分结果对客户的违约情况进行预测,当违约预测判断客户违约概率超过设定值时则通过警示通知模块进行通知。

与现有技术相比,本发明具有以下有益效果:

1、本发明的预测方法基于大数据分析,通过使用机器学习算法对比传统评分卡模式能够实现模型自动学习,对于客户数据变化更敏感,预测准确率更高,能够快速、有效进行自动化对信贷模型的信贷生命周期内是否违约进行预测,进而进行快速审批处理;

2、本发明采用了预测模型采用了优化的逻辑回归算法,满足复杂的信贷约束,获得的违约概率预测和风险溢价的结果更加准确。

3、该信贷审批的方法基于违约概率和风险溢价结果的转变,使得审核人员可以从繁重的信用风险评估审核和定价中解放出来,提高了信贷审批的高效性。

附图说明

图1为本发明的系统框图;

图2为本发明的系统控制中心的系统框图;

图3为本发明的综合评估模块的系统框图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。

一种面向机器学习可解释性的信贷违约预测方法,包括以下步骤:

S1、数据的采集,采集的数据来源包括业务统计的数据、银行提供的征信数据和第三方提供的大数据;

S2、数据的预处理:清洗筛选模块对输入数据进行清洗,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据;

S3、数据的划分和训练:将经过清洗的数据分为多个组,分别对多个组的数据进行逻辑回归、随机森林、XGBoost及深度学习,并对多个组的预测结果相加求平均值;

S4、模型的验证:通过验证模块对建立的模型进行验证,通过引入新的数据来分别对各个组的预测结果进行评价之后再对平均值进行评价,找到最佳的模型。

S4中通过定量分析模块对模型进行大量数据的验证,通过定型分析模块对模型预测的准确性进行评估

如图1-图3所示,本发明还公开了一种面向机器学习可解释性的信贷违约预测方法的系统,包括数据采集模块,数据采集模块通过信号线连接清洗筛选模块,清洗筛选模块对输入数据进行清洗,如数据某一变量有缺失,则对于少数非核心数据的予以删去,如删去的量过多则以总体分布抽样的方法以及根据其他信息做极大似然估计的办法填入数据,清洗筛选模块通过信号连接有数据划分模块,通过数据划分模块将经过清洗的数据分为多个组,数据划分模块通过信号连接系统控制中心,系统控制中心用于对预测系统进行控制和管理,系统控制中心通过信号线连接有模型建立模块和综合评估模块,通过模型建立模块建立评价模型,通过综合评估模块对客户信用风险进行评分,模型建立模块通过信号线连接有训练模块,训练模块分别对多个组的数据进行逻辑回归、随机森林、XGBoost及深度学习,并对多个组的预测结果相加求平均值,模型建立模块通过信号线连接有验证模块,通过验证模块对建立的模型进行验证,通过引入新的数据来分别对各个组的预测结果进行评价之后再对平均值进行评价,找到最佳的模型,验证模块通过信号线连接有定量分析模块和定性分析模块,通过定量分析模块对模型进行大量数据的验证,通过定型分析模块对模型预测的准确性进行评估。

数据采集模块采集的数据来源包括业务统计的数据、银行提供的征信数据和第三方提供的大数据。

训练模块通过信号线连接监督学习模块和无监督学习模块,对降噪梯度提升树进行训练,使用历史网络个人信贷信息进行无监督学习,得到第一数据特征,使用第一数据特征进行有监督学习,完成降噪梯度提升树模型训练。

系统控制中心包括系统管理主机,系统管理主机通过局域网连接数据库,数据库用于对系统内数据进行存储,系统管理主机通过信号线连接数据划分模块、综合评估模块和模型建立模块,局域网设有防火墙。

数据库通过信号线连接有定时备份模块,通过定时模块能够对数据库内的数据进行定时的备份,从而能够方便在数据库内数据发生丢失时能够进行及时恢复,挽回损失,数据库铜鼓信号线连接有自动更新模块,通过自动更新模块能够方便对数据库内的数据进行定期更新,数据库通过信号线连接有图表展示模块,通过图表展示模块能够将数据库内的数据统计为图表进行展示,从而方便系统的管理者直观了解。

综合评估模块内设历史评估模块、行业评估模块、职位评估模块、地区评估模块、证件评估模块、收入评估模块和真实性评估模块,通过对客户的历史信用记录进行评估、所从事的行业进行评估、担任的职务进行评估、所在的地区进行评估、所提供的证件进行评估、收入水平进行评估以及提供的数据的真实性进行评估来进行全面的综合评估。

综合评估模块通过数据线连接有数据输入模块,数据输入模块对客户的数据进行输入,综合评估模块通过信号线连接有评分建立模块,评分建立模块通过生成的模型对客户的信用风险进行评估,综合评估模块通过信号线连接有风险预测模块,风险预测模块通过评分对客户的风险等级进行评分,综合评估模块通过信号线连接有反馈模块,通过反馈模块能够对评分结果向系统控制中心进行反馈。

系统控制中心通过信号线连接有安全警示模块,安全警示模块通过信号线连接有违约判断模块和警示通知模块,通过违约判断模块根据客户的评分结果对客户的违约情况进行预测,当违约预测判断客户违约概率超过设定值时则通过警示通知模块进行通知。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号