首页> 中国专利> 一种中小企业商业价值信用贷款额度判定方法

一种中小企业商业价值信用贷款额度判定方法

摘要

一种中小企业商业价值信用贷款额度判定方法,选取总体有效样本数据集中具有融资申请记录至当前有实际放款样本数据的时间点作为商业价值信用贷款额度模型的时间窗口期;对企业进行初步资信质量筛查后,利用数据挖掘算法训练学习企业违约概率与实际放款额度之间的关系,获得一个最大化贴近合作银行的授信额度偏好的商业价值信用贷款额度模型,使用均方根误差获得观测值与真实值之间的偏差程度来检验商业价值信用贷款额度模型的有效性,通过商业价值信用贷款额度模型确定企业商业价值信用贷款授信额度信息。本发明最大化反应企业的资信质量以及指导银行给出授信额度,解决中小企业融资难、融资贵和融资慢的问题。

著录项

  • 公开/公告号CN112365339A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 北京宸信征信有限公司;

    申请/专利号CN202011264128.0

  • 发明设计人 金昊;

    申请日2020-11-12

  • 分类号G06Q40/02(20120101);G06N20/00(20190101);G06K9/62(20060101);

  • 代理机构11577 北京知呱呱知识产权代理有限公司;

  • 代理人彭伶俐

  • 地址 100190 北京市海淀区中关村北二条13号46幢104房间

  • 入库时间 2023-06-19 09:54:18

说明书

技术领域

本发明涉及数据处理技术领域,具体涉及一种中小企业商业价值信用贷款额度判定方法。

背景技术

现阶段,针对中小企业融资难,中小企业商业价值信用贷款随之兴起。中小企业商业价值信用贷款,是以借款人的信誉发放的贷款,借款人无需提供抵押品或第三方担保仅凭自己的信誉就能取得贷款,并以借款人信用程度作为还款保证的。由于这种贷款方式风险较大,一般要对借款方的经济效益、经营管理水平、发展前景等情况进行详细的考察,以降低风险。

现阶段,针对中小企业商业价值信用贷款出现了对应的管理平台,如,重庆市经信委启动中小企业商业价值信用贷款改革试点,实现不需要抵押、质押、担保的信用贷款。作为首批试点合作银行之一,中国银行重庆市分行和光大银行重庆分行出台多项措施,推动政策落地,为民营企业带来了实实在在的获得感。

中小企业商业价值信用贷款对企业信用风险控制必不可少,管理平台前期主要基于专家经验构建的企业融资评价模型,随着管理平台积累的融资信贷数据愈加丰富,如何利用历史数据更好地训练学习出新的能给出企业最大授信额度是管理平台发展新阶段一个重要目标,为此,如何基于历史数据给与中小企业商业价值信用贷款授信额度成为一个亟待解决的技术问题。

发明内容

为此,本发明提供一种中小企业商业价值信用贷款额度判定方法,基于历史数据给出中小企业商业价值信用贷款授信额度,最大化反应企业的资信质量以及指导银行给出授信额度,解决中小企业融资难、融资贵和融资慢的问题。

为了实现上述目的,本发明提供如下技术方案:一种中小企业商业价值信用贷款额度判定方法,包括以下步骤:

(1)数据准备:选取有融资申贷历史记录的企业数据作为原始样本数据,对所述原始样本数据进行梳理判断,选取有实际融资申请完整记录且已获得银行实际放款的企业数据作为总体有效样本数据集;

(2)样本抽取:从所述总体有效样本数据集中分层随机抽取样本集和测试集;

(3)时间窗口确定统计:选取所述总体有效样本数据集中具有融资申请记录至当前有实际放款样本数据的时间点作为商业价值信用贷款额度模型的时间窗口期;

(4)商业价值信用贷款额度模型构建:对企业进行初步资信质量筛查后,利用数据挖掘算法训练学习企业违约概率与实际放款额度之间的关系,获得一个最大化贴近合作银行的授信额度偏好的商业价值信用贷款额度模型,使用均方根误差获得观测值与真实值之间的偏差程度来检验商业价值信用贷款额度模型的有效性,通过所述商业价值信用贷款额度模型确定企业商业价值信用贷款授信额度信息。

作为中小企业商业价值信用贷款额度判定方法的优选方案,所述企业数据包括税务、财务数据、社保数据、专利数据、软著数据、著作权数据、商标数据、不动产数据、电力数据、海关数据和专项资金数据。

作为中小企业商业价值信用贷款额度判定方法的优选方案,将所述企业数据导入结构化数据分析工具中,通过所述结构化数据分析工具对企业数据进行数据结构分析,并给出统计意义上的描述性统计和基础数据探索输出。

作为中小企业商业价值信用贷款额度判定方法的优选方案,对所述总体有效样本数据集进行衍生变量生成、缺失值处理、极端值识别处理和关键变量发现。

作为中小企业商业价值信用贷款额度判定方法的优选方案,所述衍生变量生成包括总房屋面积汇总、抵押房屋面积汇总、总土地面积汇总、抵押土地面积汇总、专利数量汇总、软著数量汇总、商标数量汇总、季度用电量和季度缴纳电费额。

作为中小企业商业价值信用贷款额度判定方法的优选方案,所述缺失值处理对象为税务数据,对缺失值进行0、均值、中位数或众数填补。

作为中小企业商业价值信用贷款额度判定方法的优选方案,所述极端值识别的方式包括:用决策树发现包含预设数量观测值的持续结点;用聚类算法将数据分为若干子集,将含有预设数量的簇视为极端值。

所述极端值处理的方式包括:当极端值数量少于预设数量时,对极端值进行删除处理;当极端值数量达到预设数量时,对极端值进行均值替换处理。

作为中小企业商业价值信用贷款额度判定方法的优选方案,所述关键变量发现利用数据挖掘算法寻找影响银行授信决策的变量,得到各个变量在模型识别和分类预测中的被重视程度,所述被重视程度通过对企业被准确预测的重要性频次表现。

作为中小企业商业价值信用贷款额度判定方法的优选方案,所述商业价值信用贷款额度模型构建中,使用one-hot编码,将离散特征的取值扩展到欧式空间。

作为中小企业商业价值信用贷款额度判定方法的优选方案,通过开发主标尺的形式对企业融资撮合服务工作进行分级分类管理。

本发明具有如下优点:通过选取有融资申贷历史记录的企业数据作为原始样本数据,对原始样本数据进行梳理判断,选取有实际融资申请完整记录且已获得银行实际放款的企业数据作为总体有效样本数据集;从总体有效样本数据集中分层随机抽取样本集和测试集;选取总体有效样本数据集中具有融资申请记录至当前有实际放款样本数据的时间点作为商业价值信用贷款额度模型的时间窗口期;对企业进行初步资信质量筛查后,利用数据挖掘算法训练学习企业违约概率与实际放款额度之间的关系,获得一个最大化贴近合作银行的授信额度偏好的商业价值信用贷款额度模型,使用均方根误差获得观测值与真实值之间的偏差程度来检验商业价值信用贷款额度模型的有效性,通过商业价值信用贷款额度模型确定企业商业价值信用贷款授信额度信息。本发明基于历史数据给出中小企业商业价值信用贷款授信额度,最大化反应企业的资信质量以及指导银行给出授信额度,解决中小企业融资难、融资贵和融资慢的问题;还有利于加强合作银行对于平台融资撮合服务的粘性,也有利于指导授信额度信息回测平台指导授信额度模型对于拟合平台合作银行授信风险偏好的效果,对于不断沉淀银行授信风险偏好具有很大的现实意义。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的一种中小企业商业价值信用贷款额度判定方法示意图;

图2为本发明实施例中提供的一种中小企业商业价值信用贷款额度判定中极端值识别及处理图;

图3为本发明实施例中提供的一种中小企业商业价值信用贷款额度判定中预测额度与实际额度拟合效果示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参见图1,提供一种中小企业商业价值信用贷款额度判定方法,包括以下步骤:

S1、数据准备:选取有融资申贷历史记录的企业数据作为原始样本数据,对所述原始样本数据进行梳理判断,选取有实际融资申请完整记录且已获得银行实际放款的企业数据作为总体有效样本数据集;

S2、样本抽取:从所述总体有效样本数据集中分层随机抽取样本集和测试集;

S3、时间窗口确定统计:选取所述总体有效样本数据集中具有融资申请记录至当前有实际放款样本数据的时间点作为商业价值信用贷款额度模型的时间窗口期;

S4、商业价值信用贷款额度模型构建:对企业进行初步资信质量筛查后,利用数据挖掘算法训练学习企业违约概率与实际放款额度之间的关系,获得一个最大化贴近合作银行的授信额度偏好的商业价值信用贷款额度模型,使用均方根误差获得观测值与真实值之间的偏差程度来检验商业价值信用贷款额度模型的有效性,通过所述商业价值信用贷款额度模型确定企业商业价值信用贷款授信额度信息。

本发明实施例的数据来源于重庆市商业价值信用贷款管理平台,选取平台有实际融资申请完整记录且已获得银行实际放款的企业数据作为总体有效样本数据集。经过梳理和整理,截止2020年8月,一共有2379家有实际融资申请完整记录且已获得银行实际放款的企业。以该2379家的实际放款额度数据和对应企业的融资申贷对接数据为有效样本数据集。

商业价值信用贷款额度模型的样本抽取原则是设定样本集和测试集比例分别为80%、20%进行分层随机抽取,然后实施数据挖掘和模型训练。商业价值信用贷款额度模型获取的有效样本数据为2379家,是有明确申请融资行为且已实际获得银行放款的企业样本,已获得银行实际放款企业的数据质量较高,对于利用历史银行实际放款额度信息以及企业融资申请数据拟合训练出新的商业价值信用贷款额度模型是非常好的数据基础。

为确定最优表现时间窗口的时间窗口确定统计,商业价值信用贷款额度模型的时间窗口不依赖于需要寻找违约状态趋势趋于稳定的窗口期,只要是真实的融资申请行为且有银行实际放款记录的时间窗口都是额度模型有效的时间窗口,故额度模型的时间窗选取具有融资申请记录至当前有实际放款样本数据的时间点(2018年7月-2020年8月)作为额度模型的时间窗口期。

从商业价值信用贷款平台企业可获取的相关数据指标列表如下:

具体的,在商业价值信用贷款额度模型建立之前对数据做整体的检验,保证数据质量可以满足模型建立的要求,其中最为普遍的是缺失值插补、重复值处理。在进行模型构建之前的样本数据涉及的变量众多,需要进行重要变量发现环节来完成入模变量的选择。

衍生变量生成包括总房屋面积汇总、抵押房屋面积汇总、总土地面积汇总、抵押土地面积汇总、专利数量汇总、软著数量汇总、商标数量汇总、季度用电量和季度缴纳电费额。

一些企业的相关数据信息如纳税金额等缺失,这些数据的缺失本身就有一定的现实意义特性体现,例如正常经营的企业是不会没有任何税务信息的,正常经营的企业一般都会有税务相关数据,只是在实际缴纳税务层面可能没有达到应交税额计提基础的范围,又因为XGBOOST把缺失值当做稀疏矩阵来对待,本身的在节点分裂时不考虑的缺失值的数值。缺失值数据会被分到左子树和右子树分别计层损失,选择较优的那一个。如果训练中没有数据缺失,预测时出现了数据缺失,那么默认被分类到右子树,对缺失值有较好的反馈,为了得到更贴近现实的模型,所以没有对缺失值进行0、均值、中位数或众数等填补。

参见图2,对于样本中变量的极端值识别,主要采用了以下两种方法进行有效识别:

(1)用决策树发现包含少量观测值的持续结点。

(2)用聚类算法将数据分为若干子集,只含有很小数量的簇(理想情况只包含一个样本/观测值),视为极端值。具体采用哪种方式识别极端值由建模人员根据各类数据类型特征选取合适方法。在本案例中我们采用聚类分析结合专家经验相结合的方法识别极端值。

对实际放款额度数据进行聚类分析,识别极端值并进行相应处理,实际放款额度数据聚类分析结果如图2所示,我们可以清晰地发现实际放款金融的极端值处在第二个簇类,且有6个极端值,我们采取均值替换的形式处理该极端值。极端值很少时(1-3个),我们采取直接删除的方式处理;极端值较多时,(大于等于3个以上),我们采取利用该变量的均值进行替换的方式处理;额度模型涉及的极端值虽然只有6个但是基于专家经验判断,该数值对整体影响很敏感,我们用均值进行替换处理,不做删除处理。

影响企业能不能成为银行认可的好企业进而获得授信的因素很多,且每个银行的重点关注因素也有所差异,如果把每个银行关注的因素都一一作为解释变量引进分析模型中去,则建立起来的模型将十分庞杂,对于实际落地效果和可操作层面都是不经济和不现实的,必须借助数据挖掘方法将影响银行授信决策的重要变量寻找出来,以重要变量作为入模变量进行数据建模,这样可以最大化的体现各个银行对于好企业,即可以在平台获得实际放款企业界定特征的捕捉和刻画,进而通过无数次的模型训练,收敛到一个概率达到最大化可以识别出好企业和坏企业的重要变量参数,即权重影响程度排列。通过利用XGBOOST、LightGBM、BiLSTM等模型算法对平台所有融资相关定量数据的深度数据挖掘和分析,得到各个变量在模型识别和分类预测中的被重视程度,即重要程度的排序情况,如下,只截取了前10个变量。

基于商业价值信用贷款管理平台业务需求层面的实际情况,选取XGBOOST、LR、GBDT、LightGBM、BiLSTM算法,实现对平台融资申请企业是否符合银行授信要求的有效识别。具体来说就是先围绕企业融资申请的一些业务指标建立一个宽表,再对比拒绝(预)授信和实际放款企业在这些业务指标上的差异表现,利用数据挖掘工程,最后得出一个能够区分分类企业是否可以获得银行授信的业务规则,即被分类为实际放款或者拒绝(预)授信企业的特征变量的重要程度的识别。

具体的,XGBOOST、LR、GBDT、LightGBM、BiLSTM等机器学习算法本质上都是基于决策树算法而来,而XGBOOST是一个树集成模型,他将K(树的个数)个树的结果进行求和,作为最终的预测值,优势是其借鉴随机森林算法,支持列抽样和行抽样,这样即能降低过拟合风险,又能降低计算量,同时其支持线性分类器,此时相当于带有L1和L2正则项的逻辑回归(分类问题)和线性回归(回归问题)。其类似于在各个树形节点分割出最优分割点,不断学习训练直到达到精确度和查全率达到最优平衡时的模型参数,使得模型对于准确分类企业的概率分布和灵敏性达到最优。

具体的,在新的融资申贷数据进入新的商业价值信用贷款额度模型的时候,训练得到的新的商业价值行业细分集群模型会自动根据判断规则识别企业的基本数据、税务数据、社保、海关数据、电力数据和知识产权数据等,其中也包括企业的行业类型代码、企业的规模数据等情况,每一个数据的识别都会进入相应的下一个决策节点,无数个决策节点最终会得到该企业的分类结果。

具体的,XGBOOST算法优势识别和处理细分行业和企业规模这2种类别特征。无论是XGBOOST还是其他的BOOSTing Tree,使用的Tree都是cart回归树,这也就意味着该类提升树算法只接受数值特征输入,不直接支持类别特征,默认情况下,XGBOOST会把类别型的特征当成数值型。很显然,行业和企业规模都不是数值型类别,这2个类别的特征也不是一个连续的值,所以必须要有一种相应的方法解决这个问题,这些行业特征和企业规模等无序非数值型特征才可以进行机器学习任务中。

解决以上难题的方法是“one-hot encoding”,能使用One-Hot Encoding的主要原因如下:

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点。在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,也是基于的欧式空间。

将离散型特征使用one-hot编码,可以让特征之间的距离计算更加合理。比如,有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,计算出来的特征的距离是不合理。那如果使用one-hot编码,显得更合理。

举个本案例中的实际例子,比如有如下三个特征属性:

企业规模:【大、中、小】

行业类别:【汽车整车制造、电子和电工机械专用设备制造、化学药品原料药制】

区县:【渝北区、万州区、北培区、江北区】

对于某一个样本,如[“小”,“汽车整车制造”,“渝北区”],我们需要将这个分类型值的特征数字化,最直接的方法,我们可以采用序列化的方式:[0,1,3]。但是,即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。因为,分类器往往默认数据是连续的,并且是有序的。按照上述的表示,数字并不是有序的,而是随机分配的。这样的特征处理并不能直接放入机器学习算法中。

为了解决细分行业特征、企业规模大小变量非数值非连续型的问题,我们采用独热编码(One-Hot Encoding)的形式处理,又称为一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此,数据会变成稀疏的。

对于解决变量数据线性可分问题,我们可以采用One-Hot编码的方式对上述的样本“[“小”,“汽车整车制造”,“渝北区”]编码,“小”则对应着[1,0],同理“汽车行业”对应着[0,1,0],“渝北区”对应着[0,0,0,1]。则完整的特征数字化的结果为:[1,0,0,1,0,0,0,0,1]。至此,我们通过这样的方法就解决了无序分类型特征进入相关分类器算法进行学习和训练的目标,在本案例中其实就是把行业类别型特征和企业规模类别型特征都科学地纳入到模型算法中实现了学习和训练,最终得到的模型其实已经完全体现了企业规模和行业类别特征的学习和训练。

参见图3,为了检验额度模型是否最大化接近银行放款额度偏好,我们使用均方根误差来实现观测值与真实值之间的偏差程度来检验额度模型的有效性。均方根误差原理为:

本案例中均方根误差数据为:

[26995]train-rmse:24.96942

[26996]train-rmse:24.96731

[26997]train-rmse:24.96153

[26998]train-rmse:24.95380

[26999]train-rmse:24.94454

通过以上数据我们可以看出额度模型检验通过,额度模型可以作为商业价值信用贷款融资评价模型中额度算法模型的组成部分进行部署应用。通过额度模型测试预测额度和实际额度拟合情况就可以看出额度模型的大部分预测额度非常接近银行的实际放贷额度,模型拟合效果较好,具备部署应用的条件。

为了与行业惯例保持一致,基于本发明技术方案,可以开发主标尺的形式实现对企业融资撮合服务工作的分级分类管理,主标尺设计是一个将违约概率映射到风险等级的过程,通常看到的风险等级符号对应的是平均违约概率,主标尺设计的目标是在企业进行商业价值信用贷款融资申请时,商业价值信用评价完成后,可以直观呈现展示一个明确的信用等级和对应的指导授信额度信息。主标尺的特点是可以实现商业价值信用贷款评价结果更规范,同时企业明确细分的信用等级也更容易应用在其他融资应用场景,细分的等级设计完整性地表达了每个企业获取银行贷款的概率区间,对于精细化管理和较为复杂的奖补政策的落地实施都有着显著的好处。

主标尺的设计遵循如下原则:

(1)主标尺应具有风险区分能力,不同级别能代表不同的违约风险。(2)主标尺应该将违约概率连续且没有重叠地映射到风险等级。

(3)风险等级的划分应足够精细以分辨不同类型的风险等级,相邻等级的违约概率值不能变化过大,各个违约概率区间跨度应该是单调且最好是按几何级数方式增加的。

(4)客户不能过于集中在单个风险等级,每个风险等级的客户数不能超过总体客户数的30%。

(5)违约概率映射要考虑主体的行业分布,不能显著偏离。

主标尺的开发基于多年违约概率的违约中心趋势,确定每个信用等级的上下限,限于没有多年违约概率的统计数据,我们只能采取简单的对应方法,暂时确定违约概率与信用等级的对应关系,来作为简易的主标尺。回到本发明上我们可以利用全部企业的违约概率分布设计符合平台实际情况的主标尺。

根据模型训练结果数据梳理,将主标尺设计为22个级别,每个级别都对应一个主体的实际违约概率。要实现企业违约概率映射相应信用等级,就必须对整体违约概率做分箱切割处理,在本实施例中,将企业的违约概率按照四级二十二等划分,每个等级区间对应一个相应的企业违约概率,回到本案例中,其实就是企业无法获得银行(预)授信的概率。通过整理概率分布结构图及分箱结果,可以整理出对应的信用等级映射主标尺,如下表所示,至此,模型升级中的主标尺设计工作得以实现。

本发明通过选取有融资申贷历史记录的企业数据作为原始样本数据,对原始样本数据进行梳理判断,选取有实际融资申请完整记录且已获得银行实际放款的企业数据作为总体有效样本数据集;从总体有效样本数据集中分层随机抽取样本集和测试集;选取总体有效样本数据集中具有融资申请记录至当前有实际放款样本数据的时间点作为商业价值信用贷款额度模型的时间窗口期;对企业进行初步资信质量筛查后,利用数据挖掘算法训练学习企业违约概率与实际放款额度之间的关系,获得一个最大化贴近合作银行的授信额度偏好的商业价值信用贷款额度模型,使用均方根误差获得观测值与真实值之间的偏差程度来检验商业价值信用贷款额度模型的有效性,通过商业价值信用贷款额度模型确定企业商业价值信用贷款授信额度信息。本发明基于历史数据给出中小企业商业价值信用贷款授信额度,最大化反应企业的资信质量以及指导银行给出授信额度,解决中小企业融资难、融资贵和融资慢的问题;还有利于加强合作银行对于平台融资撮合服务的粘性,也有利于指导授信额度信息回测平台指导授信额度模型对于拟合平台合作银行授信风险偏好的效果,对于不断沉淀银行授信风险偏好具有很大的现实意义。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号