首页> 中国专利> 一种中小企业商业价值信用贷款评价方法

一种中小企业商业价值信用贷款评价方法

摘要

一种中小企业商业价值信用贷款评价方法,选取总体有效样本数据集中起始与截止的授信时间周期为时间窗口期,通过时间窗口确定企业违约频率或者趋势稳定的时间水平区间;根据企业融资申请的业务指标建立一个数据库表,对比拒绝授信和实际放款企业在业务指标上的差异表现,利用数据挖掘算法给出区分企业是否可以获得银行授信的商业价值信用贷款评价模型,通过商业价值信用贷款评价模型对融资申请企业是否符合银行授信要求进行有效识别。本发明基于历史数据实现中小企业商业价值信用贷款评价需求,可以有效识别出大概率可以获得目前合作银行贷款的企业对象,提高平台融资申请企业的获贷率,解决中小企业融资难、融资贵和融资慢的问题。

著录项

  • 公开/公告号CN112330441A

    专利类型发明专利

  • 公开/公告日2021-02-05

    原文格式PDF

  • 申请/专利权人 北京宸信征信有限公司;

    申请/专利号CN202011261813.8

  • 发明设计人 金昊;

    申请日2020-11-12

  • 分类号G06Q40/02(20120101);G06K9/62(20060101);G06N20/20(20190101);

  • 代理机构11577 北京知呱呱知识产权代理有限公司;

  • 代理人彭伶俐

  • 地址 100190 北京市海淀区中关村北二条13号46幢104房间

  • 入库时间 2023-06-19 09:49:27

说明书

技术领域

本发明涉及数据处理技术领域,具体涉及一种中小企业商业价值信用贷款评价方法。

背景技术

现阶段,针对中小企业融资难,中小企业商业价值信用贷款随之兴起。中小企业商业价值信用贷款,是以借款人的信誉发放的贷款,借款人无需提供抵押品或第三方担保仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的。由于这种贷款方式风险较大,一般要对借款方的经济效益、经营管理水平、发展前景等情况进行详细的考察,以降低风险。

现阶段,针对中小企业商业价值信用贷款出现了对应的管理平台,如,重庆市经信委启动中小企业商业价值信用贷款改革试点,实现不需要抵押、质押、担保的信用贷款。作为首批试点合作银行之一,中国银行重庆市分行和光大银行重庆分行出台多项措施,推动政策落地,为民营企业带来了实实在在的获得感。

中小企业商业价值信用贷款对企业信用风险控制必不可少,管理平台前期主要基于专家经验构建的企业融资评价模型,随着管理平台积累的融资信贷数据愈加丰富,如何利用历史数据更好地训练学习出新的可以有效识别出“大概率可以获得目前合作银行贷款的好企业”是管理平台发展新阶段一个重要目标,为此,如何基于历史数据实现中小企业商业价值信用贷款评价成为一个亟待解决的技术问题。

发明内容

为此,本发明提供一种中小企业商业价值信用贷款评价方法,基于历史数据实现中小企业商业价值信用贷款评价需求,以有效识别出大概率可以获得目前合作银行贷款的企业对象,解决中小企业融资难、融资贵和融资慢的问题。

为了实现上述目的,本发明提供如下技术方案:一种中小企业商业价值信用贷款评价方法,包括以下步骤:

(1)数据准备:选取有融资申贷历史记录的企业数据作为原始样本数据,根据授信反馈信息状态,将同意授信的定义为正样本,将拒绝授信的定义为负样本;

(2)正负样本集梳理:对所述原始样本数据进行梳理判断,将授信反馈信息不明确,反馈信息实际为正样本而授信业务状态反馈显示为负样本状态的样本清洗梳理出来;

(3)企业正负样本集判定:获取所述原始样本数据中有明确融资申请行为且已获得银行明确是否授信的反馈信息数据作为总体有效样本数据集,将所述总体有效样本数据集的数据根据正样本和负样本定义进行标注;

(4)样本抽取:从所述总体有效样本数据集中分层随机抽取样本集和测试集;

(5)时间窗口确定统计:选取所述总体有效样本数据集中起始与截止的授信时间周期为时间窗口期,通过所述时间窗口确定企业违约频率或者趋势稳定的时间水平区间;

(6)商业价值信用贷款评价模型构建:根据企业融资申请的业务指标建立一个数据库表,对比拒绝授信和实际放款企业在所述业务指标上的差异表现,利用数据挖掘算法给出区分企业是否可以获得银行授信的商业价值信用贷款评价模型,通过所述商业价值信用贷款评价模型对融资申请企业是否符合银行授信要求进行有效识别。

作为中小企业商业价值信用贷款评价方法的优选方案,所述企业正负样本集判定过程中,将银行反馈信息为实际放款状态的样本数据设定为正样本;技术性假定银行反馈信息为拒绝放款和拒绝预授信的样本数据为负样本。

作为中小企业商业价值信用贷款评价方法的优选方案,所述企业数据包括税务、财务数据、社保数据、专利数据、软著数据、著作权数据、商标数据、不动产数据、电力数据、海关数据和专项资金数据。

作为中小企业商业价值信用贷款评价方法的优选方案,对所述总体有效样本数据集进行衍生变量生成、缺失值处理、极端值识别处理和关键变量发现。

作为中小企业商业价值信用贷款评价方法的优选方案,所述衍生变量生成包括总房屋面积汇总、抵押房屋面积汇总、总土地面积汇总、抵押土地面积汇总、专利数量汇总、软著数量汇总、商标数量汇总、季度用电量和季度缴纳电费额。

作为中小企业商业价值信用贷款评价方法的优选方案,所述缺失值处理为税务数据,对缺失值进行0、均值、中位数或众数填补。

作为中小企业商业价值信用贷款评价方法的优选方案,所述极端值识别的方式包括:用决策树发现包含预设数量观测值的持续结点;用聚类算法将数据分为若干子集,将含有预设数量的簇视为极端值。

所述极端值处理的方式包括:当极端值数量少于预设数量时,对极端值进行删除处理;当极端值数量达到预设数量时,对极端值进行均值替换处理。

作为中小企业商业价值信用贷款评价方法的优选方案,所述关键变量发现利用数据挖掘算法对所有融资定量数据挖掘和分析,得到各个变量在模型识别和分类预测中的被重视程度,所述被重视程度通过对企业被准确预测的重要性频次表现。

作为中小企业商业价值信用贷款评价方法的优选方案,所述商业价值信用贷款评价模型构建中,使用one-hot编码,将离散特征的取值扩展到欧式空间。

作为中小企业商业价值信用贷款评价方法的优选方案,对所述商业价值信用贷款评价模型采用ROC曲线、AUC值以及P-R方法进行检验评估;

通过开发主标尺的形式对企业融资撮合服务工作进行分级分类管理。

本发明具有如下优点:通过选取有融资申贷历史记录的企业数据作为原始样本数据,根据授信反馈信息状态,将同意授信的定义为正样本,将拒绝授信的定义为负样本;对原始样本数据进行梳理判断,将授信反馈信息不明确,反馈信息实际为正样本而授信业务状态反馈显示为负样本状态的样本清洗梳理出来;获取原始样本数据中有明确融资申请行为且已获得银行明确是否授信的反馈信息数据作为总体有效样本数据集,将总体有效样本数据集的数据根据正样本和负样本定义进行标注;从总体有效样本数据集中分层随机抽取样本集和测试集;选取总体有效样本数据集中起始与截止的授信时间周期为时间窗口期,通过时间窗口确定企业违约频率或者趋势稳定的时间水平区间;根据企业融资申请的业务指标建立一个数据库表,对比拒绝授信和实际放款企业在业务指标上的差异表现,利用数据挖掘算法给出区分企业是否可以获得银行授信的商业价值信用贷款评价模型,通过商业价值信用贷款评价模型对融资申请企业是否符合银行授信要求进行有效识别。本发明基于历史数据实现中小企业商业价值信用贷款评价需求,可以有效识别出大概率可以获得目前合作银行贷款的企业对象,从而将那些大概率可以获得银行信贷的信用好企业及时推送至合作银行,提高平台融资申请企业的获贷率,解决中小企业融资难、融资贵和融资慢的问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

图1为本发明实施例中提供的一种中小企业商业价值信用贷款评价方法示意图;

图2为本发明实施例中提供的一种中小企业商业价值信用贷款评价中时间窗口确定统计图;

图3为本发明实施例中提供的一种中小企业商业价值信用贷款评价中极端值识别及处理图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,提供一种中小企业商业价值信用贷款评价方法,包括以下步骤:

S1、数据准备:选取有融资申贷历史记录的企业数据作为原始样本数据,根据授信反馈信息状态,将同意授信的定义为正样本,将拒绝授信的定义为负样本;

S2、正负样本集梳理:对所述原始样本数据进行梳理判断,将授信反馈信息不明确,反馈信息实际为正样本而授信业务状态反馈显示为负样本状态的样本清洗梳理出来;

S3、企业正负样本集判定:获取所述原始样本数据中有明确融资申请行为且已获得银行明确是否授信的反馈信息数据作为总体有效样本数据集,将所述总体有效样本数据集的数据根据正样本和负样本定义进行标注;

S4、样本抽取:从所述总体有效样本数据集中分层随机抽取样本集和测试集;

S5、时间窗口确定统计:选取所述总体有效样本数据集中起始与截止的授信时间周期为时间窗口期,通过所述时间窗口确定企业违约频率或者趋势稳定的时间水平区间;

S6、商业价值信用贷款评价模型构建:根据企业融资申请的业务指标建立一个数据库表,对比拒绝授信和实际放款企业在所述业务指标上的差异表现,利用数据挖掘算法给出区分企业是否可以获得银行授信的商业价值信用贷款评价模型,通过所述商业价值信用贷款评价模型对融资申请企业是否符合银行授信要求进行有效识别。

本发明实施例的数据来源于重庆市商业价值信用贷款管理平台,选取管理平台有相关融资申贷历史记录的企业数据作为原始样本数据9178家,截止2020年8月,经过梳理和人工判断,最终获得原始样本数据中的4850家有明确融资申请行为且已获得银行明确是否授信的反馈信息数据作为总体有效样本数据集。

针对银行有实际授信反馈的融资样本集9178家企业授信历史数据,人工逐条判定部分授信反馈信息不明确,部分反馈信息实际为正样本而平台授信业务状态反馈显示为负样本状态(拒绝授信)的特殊样本全部清洗梳理出来,这样可以最大化保证最后有效样本的准确正负样本的定义归属以及模型构建中机器学习的准确性。

原始授信样本数据中授信状态不明确的种类经梳理主要包括以下几类:

经过全面梳理和人工判定,得到了准确可信的4850家正负样本集(去掉重复申请记录的数据),1定义为正样本,0定义为负样本。整理输出相关数据表,这4850家有效正负样本集的相关原始数据将作为模型训练和机器学习的入模数据。

注:此处只展示4850家有效样本的前20家正负样本集企业名单说明问题。

设定银行反馈信息为“实际放款”状态的为正样本,由于目前平台暂无实际违约样本数据,为了严格控制融资评价模型的风险控制级别,技术性假定银行反馈信息为“拒绝放款”和“拒绝预授信”的样本数据为负样本,同时为了保证样本数据的质量,经过人工逐条判定部分银行反馈状态中被标记为NO(负样本)实际为YES(正样本)的样本数据归并进正样本集,最终确定正负样本集,设定样本集和测试集比例分别为80%、20%进行分层随机抽取,然后实施数据挖掘和模型训练。

整体样本数据质量基本满足数据建模的基本要求,细分行业样本数据较差,其中电子细分行业有效样本只有26条,汽车细分行业有效样本71条,医药细分行业有效样本只有13条,这对于训练学习极易出现“有偏”情况的发生,训练出的模型并不具有完全的代表性。

新增的海关数据在模型训练和机器学习中显现出显著的作用,建议在后期定期升级模型时,更多地利用该类时序性、连续性都较好的高质量数据单元,该类数据对于判断企业分类问题有显著的好处。

电力数据虽然由于行业、规模、生产经营周期、淡旺季、断缴等因素浮动较大,但是数据较为真实、直观判断应该对模型效果有提升,但是在本次模型训练和学习中,与银行的实际授信关联分析的结果显示电力数据对于有效识别和判断企业是否可以获得银行信用贷款的权重影响较低,这个训练学习结果很大程度上和电力数据的归集周期结构、电力数据在样本量的覆盖程度以及金融产品结构属性有关系,银行对于电力数据的参考程度显著低于税务数据和财务数据的参考程度。

参见图2,为确定最优表现时间窗口的时间窗口确定统计,最优表现时间窗口的确定需要选择企业违约处于稳定状态的时间点,由于目前没有实质性违约样本的存在,但是对于被银行反馈有明确原因的拒绝放款或者拒绝预授信的企业数据可以技术性假定其在未来某个时间点存在偿债能力严重不足进而有较大违约概率的风险事件发生。由图2可以得知该最优表现时间窗口的确定只能从侧面反映在某个时间段各个合作银行的风险敞口在商业价值信用贷款管理平台的趋势变化,不能有效确定实质性企业违约频率或者趋势稳定在某个水平区间内,故选取平台自有融资申贷数据起始至今所有的授信时间周期为时间窗口的设定。

管理平台有记录的融资类企业授信记录中的“拒绝授信”和“拒绝预授信”企业的界定数据可以技术性假定为信用风险高的坏企业,严格意义上,这类企业对应的是在商业价值信用贷款管理平台融资申请业务中“某个时间段内这类企业是被银行判断为信用风险较高,偿债能力差,进而无法顺利获取平台合作银行授信的负例企业”,而非现实商业活动中的极高信用风险、偿债能力和偿债意愿都极低的典型负例企业。从商业价值信用贷款平台企业可获取的相关数据指标列表如下:

具体的,在模型建立之前对数据做整体的检验,保证数据质量可以满足模型建立的要求,其中最为普遍的是缺失值插补、重复值处理。在进行模型构建之前的样本数据涉及的变量众多,需要进行重要变量发现环节来完成入模变量的选择。

衍生变量生成包括总房屋面积汇总、抵押房屋面积汇总、总土地面积汇总、抵押土地面积汇总、专利数量汇总、软著数量汇总、商标数量汇总、季度用电量和季度缴纳电费额。

一些企业的相关数据信息如纳税金额等缺失,这些数据的缺失本身就有一定的现实意义特性体现,例如正常经营的企业是不会没有任何税务信息的,正常经营的企业一般都会有税务相关数据,只是在实际缴纳税务层面可能没有达到应交税额计提基础的范围,又因为XGBOOST把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计层损失,选择较优的那一个。如果训练中没有数据缺失,预测时出现了数据缺失,那么默认被分类到右子树,对缺失值有较好的反馈,为了得到更贴近现实的模型,所以没有对缺失值进行0、均值、中位数或众数等填补。

参见图3,对于样本中变量的极端值识别,主要采用了以下两种方法进行有效识别:

(1)用决策树发现包含少量观测值的持续结点。

(2)用聚类算法将数据分为若干子集,只含有很小数量的簇(理想情况只包含一个样本/观测值),视为极端值。具体采用哪种方式识别极端值由建模人员根据各类数据类型特征选取合适方法。在本案例中我们采用聚类分析结合专家经验相结合的方法识别极端值。

例如以2018年税务数据为例,利用聚类算法将数据分为8个子集(分几个子集依据专家经验而定),然后将包含很小数量的簇或者显著离群的数据组别视为极端值进行剔除处理(数据量较少时,数据量较多时采取均值替换的策略处理)。

图3为我们采用聚类算法对营业收入这个变量的数据进行聚类分析,发现极端值以及处理极端值的方法。从以上对营业收入变量的数据进行聚类分析的结果看,8个组别里组别1(8e+07,1e+08)显著离群其他组别,且极端值较多,有大约400多个,如图3所示的第一组簇,返回到聚类分析数组集里,即为标方框的数组1所对应的数据簇,针对这样的情况我们采取了均值替换的形式对这组极端值进行处理。极端值很少时(1-3个),我们采取直接删除的方式处理。极端值较多时,(大于等于3个以上),我们采取利用该变量的均值进行替换的方式处理。

影响企业能不能成为银行认可的好企业进而获得授信的因素很多,且每个银行的重点关注因素也有所差异,如果把每个银行关注的因素都一一作为解释变量引进分析模型中去,则建立起来的模型将十分庞杂,对于实际落地效果和可操作层面都是不经济和不现实的,必须借助数据挖掘方法将影响银行授信决策的重要变量寻找出来,以重要变量作为入模变量进行数据建模,这样可以最大化的体现各个银行对于好企业,即可以在平台获得实际放款企业界定特征的捕捉和刻画,进而通过无数次的模型训练,收敛到一个概率达到最大化可以识别出好企业和坏企业的重要变量参数,即权重影响程度排列。通过利用XGBOOST、LightGBM、BiLSTM等模型算法对平台所有融资相关定量数据的深度数据挖掘和分析,得到各个变量在模型识别和分类预测中的被重视程度,即重要程度的排序情况,如下,只截取了前10个变量。

基于商业价值信用贷款管理平台业务需求层面的实际情况,选取XGBOOST、LR、GBDT、LightGBM、BiLSTM算法,实现对平台融资申请企业是否符合银行授信要求的有效识别。具体来说就是先围绕企业融资申请的一些业务指标建立一个宽表,再对比拒绝(预)授信和实际放款企业在这些业务指标上的差异表现,利用数据挖掘工程,最后得出一个能够区分分类企业是否可以获得银行授信的业务规则,即被分类为实际放款或者拒绝(预)授信企业的特征变量的重要程度的识别。

具体的,XGBOOST、LR、GBDT、LightGBM、BiLSTM等机器学习算法本质上都是基于决策树算法而来,而XGBOOST是一个树集成模型,他将K(树的个数)个树的结果进行求和,作为最终的预测值,优势是其借鉴随机森林算法,支持列抽样和行抽样,这样即能降低过拟合风险,又能降低计算量,同时其支持线性分类器,此时相当于带有L1和L2正则项的逻辑回归(分类问题)和线性回归(回归问题)。其类似于在各个树形节点分割出最优分割点,不断学习训练直到达到精确度和查全率达到最优平衡时的模型参数,使得模型对于准确分类企业的概率分布和灵敏性达到最优。

具体的,在新的融资申贷数据进入新的商业价值融资评价模型的时候,训练得到的新的商业价值行业细分集群模型会自动根据判断规则识别企业的基本数据、税务数据、社保、海关数据、电力数据和知识产权数据等,其中也包括企业的行业类型代码、企业的规模数据等情况,每一个数据的识别都会进入相应的下一个决策节点,无数个决策节点最终会得到该企业的分类结果。

为了训练出更好的商业价值信用评价模型,在以下6个参数上反复测试。

max_depth:树的最大深度。这个值也是用来避免过拟合的。预选出了6个数值;

lambda:权重的L2正则化项。加强泛化能力。预选出了10个数值;

subsample:随机采样的比例。控制拟合程度。预选出了8个数值;

colsample_bytree:用来控制每棵随机采样的列数的占比。预选出了8个数值;

min_child_weight:决定最小叶子节点样本权重和。使模型整体优化,避免局部最优。预选出了8个数值;

num:模型的学习时间,控制拟合程度,预选出了5个数值;

除去上述参数的极值,共训练了6*10*8*8*8*5=153600个模型,按P-R曲线和AOC值选取其中最好的模型。

商业价值信用贷款评价模型的目标值是0或1(0是拒绝,1是贷款),输出0-100%的一个银行同意贷款的概率模型。

具体的,XGBOOST算法优势识别和处理细分行业和企业规模这2种类别特征。无论是XGBOOST还是其他的BOOSTing Tree,使用的Tree都是cart回归树,这也就意味着该类提升树算法只接受数值特征输入,不直接支持类别特征,默认情况下,XGBOOST会把类别型的特征当成数值型。很显然,行业和企业规模都不是数值型类别,这2个类别的特征也不是一个连续的值,所以必须要有一种相应的方法解决这个问题,这些行业特征和企业规模等无序非数值型特征才可以进行机器学习任务中。

解决以上难题的方法是“one-hot encoding”,能使用One-Hot Encoding的主要原因如下:

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,也是基于的欧式空间。

将离散型特征使用one-hot编码,可以让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,计算出来的特征的距离是不合理。那如果使用one-hot编码,显得更合理。

举个本案例中的实际例子,比如有如下三个特征属性:

企业规模:【大、中、小】

行业类别:【汽车整车制造、电子和电工机械专用设备制造、化学药品原料药制】

区县:【渝北区、万州区、北培区、江北区】

对于某一个样本,如[“小”,“汽车整车制造”,“渝北区”],我们需要将这个分类型值的特征数字化,最直接的方法,我们可以采用序列化的方式:[0,1,3]。但是,即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。因为,分类器往往默认数据是连续的,并且是有序的。按照上述的表示,数字并不是有序的,而是随机分配的。这样的特征处理并不能直接放入机器学习算法中。

为了解决细分行业特征、企业规模大小变量非数值非连续型的问题,我们采用独热编码(One-Hot Encoding)的形式处理,又称为一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。

对于解决变量数据线性可分问题,我们可以采用One-Hot编码的方式对上述的样本“[“小”,“汽车整车制造”,“渝北区”]编码,“小”则对应着[1,0],同理“汽车行业”对应着[0,1,0],“渝北区”对应着[0,0,0,1]。则完整的特征数字化的结果为:[1,0,0,1,0,0,0,0,1]。至此,我们通过这样的方法就解决了无序分类型特征进入相关分类器算法进行学习和训练的目标,在本案例中其实就是把行业类别型特征和企业规模类别型特征都科学地纳入到模型算法中实现了学习和训练,最终得到的模型其实已经完全体现了企业规模和行业类别特征的学习和训练。

本发明实施例中,采用ROC曲线、AUC值以及P-R方法检验评估模型的区分能力和实际性能,在进行模型开发和训练学习之前,我们将有效样本根据随机分层的形式以80%和20%的切割比例分为训练集和测试集,训练集主要用于模型的训练和学习来构建预测模型,测试集主要是用来检验训练得到的预测模型的性能和区分能力。

具体的,ROC曲线是衡量违约概率模型区分能力最常用的指标,是通过利用测试集数据检验基于样本集数据构建的模型对于识别正负样本的准确性,测试得到的预测模型在其他数据集里的扩展能力、区分能力以及准确性。我们利用测试集构建模型预测结果混合矩阵的形式绘制ROC曲线来检验模型的准确性。

AUC值是一种衡量机器学习模型分类性能的重要且非常常用的指标,其只能用于二分类的情况。在本例中适用于区分好企业(可以获得银行授信)和差企业(拒绝(预)授信)的实际问题,本质含义反映的是对于任意一对正负例样本,模型将正样本预测为正例的可能性大于将负例预测为正例的可能性的概率,更直观地反应了ROC曲线向我们表达的模型分类能力.其中AUC数值大小(越大越好)代表了模型的性能优劣。一般情况下AUC值的大小反应的模型优劣性可参考以下数值范围。

AUC=1,代表完美分类器

0.5

AUC=0.5,随机分类,没有价值

0

在不含企业填报数据的通用版模型检验中AUC值为0.91,表明基于样本集数据构建的新模型区分能力处于优秀的区间,新模型满足部署应用在实际业务场景中的初步要求。

具体的,P-R曲线是从另一个角度检验模型的性能,通过把已知结果的测试数据都用新模型计算一下,检验新模型能把多少负样本找出来,又会漏掉多少,这样就知道上面说的真阳性率即召回率和准确率。阈值每个百分点就是一个点,遍历所有阈值就会形成一条曲线。从P-R曲线得出,Recall在0.4阈值附近的时候,模型的Precision值开始下降,但查全率recall可以实现模型结果找的全。这显示出新的预测概率模型具有良好的区分和分类能力,P-R曲线在负样本显著大于正样本的时候相比ROC曲线更能区分模型的好坏,在本例中正负样本没有很大的数量差异,所以新模型满足部署应用在实际业务场景中的初步要求。

为了与行业惯例保持一致,基于本发明技术方案,可以开发主标尺的形式实现对企业融资撮合服务工作的分级分类管理,主标尺设计是一个将违约概率映射到风险等级的过程,通常看到的风险等级符号对应的是平均违约概率,主标尺设计的目标是在企业进行商业价值信用贷款融资申请时,商业价值信用评价完成后,可以直观呈现展示一个明确的信用等级和对应的指导授信额度信息。主标尺的特点是可以实现商业价值信用贷款评价结果更规范,同时企业明确细分的信用等级也更容易应用在其他融资应用场景,细分的等级设计完整性地表达了每个企业获取银行贷款的概率区间,对于精细化管理和较为复杂的奖补政策的落地实施都有着显著的好处。

主标尺的设计遵循如下原则:

(1)主标尺应具有风险区分能力,不同级别能代表不同的违约风险。(2)主标尺应该将违约概率连续且没有重叠地映射到风险等级。

(3)风险等级的划分应足够精细以分辨不同类型的风险等级,相邻等级的违约概率值不能变化过大,各个违约概率区间跨度应该是单调且最好是按几何级数方式增加的。

(4)客户不能过于集中在单个风险等级,每个风险等级的客户数不能超过总体客户数的30%。

(5)违约概率映射要考虑主体的行业分布,不能显著偏离。

主标尺的开发基于多年违约概率的违约中心趋势,确定每个信用等级的上下限,限于没有多年违约概率的统计数据,我们只能采取简单的对应方法,暂时确定违约概率与信用等级的对应关系,来作为简易的主标尺。回到本发明上我们可以利用全部企业的违约概率分布设计符合平台实际情况的主标尺。

根据模型训练结果数据梳理,将主标尺设计为22个级别,每个级别都对应一个主体的实际违约概率。要实现企业违约概率映射相应信用等级,就必须对整体违约概率做分箱切割处理,在本实施例中,将企业的违约概率按照四级二十二等划分,每个等级区间对应一个相应的企业违约概率,回到本案例中,其实就是企业无法获得银行(预)授信的概率。通过整理概率分布结构图及分箱结果,可以整理出对应的信用等级映射主标尺,至此,模型升级中的主标尺设计工作得以实现。

本发明通过对于商业价值信用贷款评价模型的实际业务问题的理解,选定适合商业价值信用评价模型训练的相关算法(XGBOOST、LR、GBDT、LightGBM、BiLSTM等五种算法),考虑了商业价值信用贷款目前无实际违约样本,利用技术性假定违约的方法定义了正负样本集,并对所有对接数据字段进行了训练和学习。本发明通过选取有融资申贷历史记录的企业数据作为原始样本数据,根据授信反馈信息状态,将同意授信的定义为正样本,将拒绝授信的定义为负样本;对原始样本数据进行梳理判断,将授信反馈信息不明确,反馈信息实际为正样本而授信业务状态反馈显示为负样本状态的样本清洗梳理出来;获取原始样本数据中有明确融资申请行为且已获得银行明确是否授信的反馈信息数据作为总体有效样本数据集,将总体有效样本数据集的数据根据正样本和负样本定义进行标注;从总体有效样本数据集中分层随机抽取样本集和测试集;选取总体有效样本数据集中起始与截止的授信时间周期为时间窗口期,通过时间窗口确定企业违约频率或者趋势稳定的时间水平区间;根据企业融资申请的业务指标建立一个数据库表,对比拒绝授信和实际放款企业在业务指标上的差异表现,利用数据挖掘算法给出区分企业是否可以获得银行授信的商业价值信用贷款评价模型,通过商业价值信用贷款评价模型对融资申请企业是否符合银行授信要求进行有效识别。本发明基于历史数据实现中小企业商业价值信用贷款评价需求,可以有效识别出大概率可以获得目前合作银行贷款的企业对象,从而将那些大概率可以获得银行信贷的信用好企业及时推送至合作银行,提高平台融资申请企业的获贷率,解决中小企业融资难、融资贵和融资慢的问题。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号