公开/公告号CN113282886A
专利类型发明专利
公开/公告日2021-08-20
原文格式PDF
申请/专利权人 北京大唐神州科技有限公司;
申请/专利号CN202110580456.X
发明设计人 不公告发明人;
申请日2021-05-26
分类号G06F17/18(20060101);G06Q10/06(20120101);G06Q40/02(20120101);
代理机构11470 北京精金石知识产权代理有限公司;
代理人杨兰兰
地址 100070 北京市丰台区科兴路7号606室
入库时间 2023-06-19 12:18:04
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于逻辑回归的银行对公贷款违约判别方法。
背景技术
随着近年来金融经济的高速发展,贷款成为企业筹资的一大重要支撑手段,不可避免的企业违约现象的发生与之而来,而且越来越频繁的发生。银行业务结构和经营环境的变化以及金融创新的迅速发展,促使越来越多的银行意识到需要构建更加全面和系统的信用风险管理系统来应对金融风险日趋复杂化的现实,所以贷款企业违约风险测度具有极大的现实意义。
目前国外学术界和金融界对违约概率的测度与评估的研究概括起来有:(1)巴塞尔委员会新资本协议与国际知名金融机构推出的高级信用风险模型,主要针对企业违约概率数值如何测算问题的研究,这些模型也是巴塞尔委员会推荐的在资本金及经济资本方面计算的依据。(2)学术界对违约率的评估研究,集中于影响违约率的关键变量探寻,并利用企业历史样本建立企业违约率分类判别模型来估计企业违约的可能性。这两个方法相互补充,相互促进,但也存在过于依靠人工经验等弊端。
在中国专利申请文献CN111192140A中,公开了一种客户违约概率预测的方法,根据待识别客户标识从预先保存的数据集中选取对应的指标数据;指标数据包括以下至少之一:企业基本信息、企业信贷数据、企业财务数据、企业工商数据、企业社保数据;将指标数据作为预先训练的违约概率预测模型的输入,预测待识别客户的违约概率。该方法还包括:利用模型训练算法对样本数据进行模型训练得到违约概率预测模型,包括对样本训练集中的样本数据进行预处理;利用特征相关性分析方法对预处理后的样本数据进行违约变量的相关性分析得到特征候选集;利用模型训练算法对特征候选集进行模型训练得到违约概率预测模型。根据违约业务定义对样本数据构造违约特征;利用特征相关性分析方法分析各个违约特征与违约变量的相关性程度,选择相关性高的违约特征;将选择的违约特征作为特征候选集。利用Xgboost算法对特征候选集进行模型训练得到违约概率预测模型。在得到违约概率预测模型之后,根据所述违约概率预测模型对预先准备好的样本测试集中的样本数据进行违约概率预测;利用ROC曲线、AUC或KS值对违约概率预测模型进行评估。该方法在预测违约概率时,没有考虑行业平均违约率,也未对行业平均违约率进行分布和结构的分析,特征分析选择与违约变量相关性高的违约特征进行分析,使得预测准确率、实时性、有效程度等无法满足实际工作需要。
现有技术至少存在以下不足:
1.对公贷款违约存在样本量小、考虑周期短和较少考虑地区因素等缺陷,使得违约概率预测不准,算法的不精确导致业务人员工作效率降低。
2.所使用的算法单一,无法满足业务部门实时、动态进行风险排查的需求。
3.模型与算法阈值的设定不合理,频繁预警导致风险排查频率过高,加重了金融行业客户在还款期间带来应对排查的负担。
发明内容
为解决现有技术中存在的问题,本发明提供了一种基于逻辑回归的银行对公贷款违约判别方法,采用灰色关联法计算各行业的违约倾向系数;采用单因素分析提取对被解释变量影响最大的几个解释变量,将从单因素分析中提取出来的原始变量,取方差累积贡献率L达到预设阈值的前m个指标为违约预测指标,每指标都是各原始变量的线性组合,各指标之间互不相关,并通过财务指标、工商登记信息指标、行业贷款计划指标等信息根据二项逻辑回归算法建立二项逻辑回归模型进行违约概率预测,实现了对金融客户还款期间所蕴含的经营风险、还款能力进行实时、动态分析和预警。
本发明提供了一种基于逻辑回归的银行对公贷款违约判别方法,包括如下步骤:
违约预测指标预提取步骤,
采用单因素方差分析法或多重共线性验证方法,根据数据库中的企业基本信息和企业财务指标,提取对违约率影响最大的N个指标;
所述企业基本信息包括:企业名称、数据年度、是否违约、成立日期、在职员工数、总资产和借款人组织机构代码;是否违约、成立日期和在职员工数参与到指标变量矩阵中;
所述企业财务指标:主营业务收入、流动比率、速动比率、现金比率、资产负债率、负债权益比率、利息保障倍数、存货周转率、应收账款周转率、营业周期、流动资产周转率、总资产周转率、固定资产周转率、总资产报酬率、成本费用利润率、销售净利率、净资产收益率、销售毛利率、盈余现金保障倍数、现金流动负债比、营业总成本、现金流动负债比、管理费用、销售费用、财务费用、无形资产、长期借款、短期借款、净利润和营业收入;
违约预测指标确定步骤,
根据预提取的N个指标,取方差累积贡献率达到预设阈值的指标作为违约预测的指标;
二项逻辑回归模型建立步骤,
将违约与否作为二项逻辑回归中的被解释变量,建立二项逻辑回归模型;
违约判断步骤,
根据二项逻辑回归模型及企业数据,得到违约概率;
根据违约概率和预设的违约概率阈值,判断该企业是否违约。
优选地,采用单因素方差分析法提取对违约率影响最大的N个指标具体包括如下步骤:
每个指标单独与违约与否进行单因素方差分析,取设定年份内的数据,根据如下公式得到检验统计量F的值:
其中,
k为设定年份数;
n为数据库中该企业同行业内所有公司的数量;
n
x
根据得到的检验统计量F的数值,查询F分布表,得到检验p值;
选择N个p值最小的指标,作为对违约率影响最大的N个指标。
优选地,通过多重共线性验证方法提取对违约率影响最大的N个指标具体包括如下步骤:
对各待检验指标进行多重共线性检验,检验公式为:c
其中,
X
c
c
计算各待检验指标的拟合优度:
其中,
R
Y
对各待检验指标的拟合优度进行F检验:
其中,
k为解释变量的个数;
n为样本量;
j为解释变量的序号;
j.个用于F检验的解释变量的序号;
F
F(k-1,n-k)是指自由度从k-1到n-k的F分布;
根据对各指标的拟合优度进行F检验得到的检验结果,查询F分布表,得到检验p值;
选择N个p值最大的指标,作为对违约率影响最大的N个指标。
优选地,违约预测指标确定步骤具体包括如下步骤:
由预提取的N个指标组成指标变量矩阵;
计算指标变量矩阵的协方差,得到指标变量协方差矩阵Σ;
计算指标变量协方差矩阵Σ的特征向量λ=(λ
计算指标变量协方差矩阵Σ的特征向量λ中各特征值λ
计算特征值λ
Y
其中,
Y
X为待判别公司的指标变量矩阵;
按N个预提取指标的违约率影响的由大到小的顺序,依次计算N个预提取指标的方差累加贡献率;
取方差累积贡献率L达到预设阈值的前m个指标为违约预测指标,各指标的累积贡献率按如下公式计算:
其中,
N为预提取的指标数;
m为指标方差累积贡献率L达到预设阈值时的指标数;
λ
优选地,所述二项逻辑回归模型为:
其中:
p
X
x
β
β
优选地,违约概率判断步骤中,还包括在得到违约概率后,结合待判别公司所属行业的违约倾向系数,对违约概率采用如下公式进行修正:
c
其中:
c
r
p
优选地,待判别公司所属行业的违约倾向系数采用灰度关联分析法确定。
优选地,确定行业的违约倾向系数的方法包括如下步骤:
选取数据库中所有行业的公司数据的指标变量,组成指标变量矩阵,其中选取的指标变量包括所述企业基本信息和企业财务指标;
分别计算各行业包括的各公司指标变量矩阵与参考序列对应指标取值的灰度关联系数,所述参考序列由该行业中各指标的均值数据组成;
分别计算各行业包括的各公司的各指标变量与参考序列对应元素的灰关联度;
提取各行业包括的各公司的灰关联度,取各行业包括的各公司灰关联度的均值为该行业的违约倾向系数。
优选地,各公司各个指标变量与参考序列对应元素的灰关联度的计算包括如下步骤:
对各公司各个指标变量矩阵进行灰色无量纲化处理,
其中,
X
X
计算差异信息序列Δ
Δ
其中,
x
x
确定环境参数:
其中,
Δ
Δ
分别采用如下公式计算各公司各指标变量与参考序列对应元素的灰关联系数ξ
其中,
ρ为分辨系数,0<ρ<1;
Δ
Δ
Δ
分别采用如下公式计算各公司各指标变量与参考序列对应元素的灰关联度r
其中,
ξ
m为企业数量信息表和所有行业违约数量信息表中包括的指标总数。
与现有技术相对比,本发明的有益效果如下:
(1)本发明采用单因素分析或多重共线性验证法提取对被解释变量影响最大的几个解释变量,从而达到在多个基础变量中筛选出有效解释变量,达到初步降维的作用,同时单因素分析选取出来的解释变量为对违约与否影响最大的变量。
(2)本发明取方差累积贡献率L达到预设阈值的前m个指标为违约预测指标,每一个指标都是各原始变量的线性组合,各指标之间互不相关,从而能有效利用大量统计数据进行定量分析。
(3)本发明通过二项逻辑回归算法建立违约概率识别模型进行违约概率预测,实现了对未来一个财务周期内发生违约行为概率的识别。
附图说明
图1是本发明的一个实施例的银行对公贷款违约判别方法流程图;
图2是本发明的又一个实施例的银行对公贷款违约判别方法流程图;
图3是本发明的一个实施例的单因素分析法预提取N个指标的流程图;
图4是本发明的一个实施例的多重共线性验证法预提取N个指标的流程图;
图5是本发明的一个实施例的各行业违约倾向系数计算步骤流程图。
具体实施方式
下面结合附图1-5,对本发明的具体实施方式作详细的说明。
本发明提供了一种基于二项逻辑回归的银行对公贷款违约判别方法,包括如下步骤:
违约预测指标预提取步骤,
采用单因素方差分析法或多重共线性验证方法,根据数据库中的企业基本信息和企业财务指标,提取对违约率影响最大的N个指标;
所述企业基本信息包括:企业名称、数据年度、是否违约、成立日期、在职员工数、总资产和借款人组织机构代码;其中是否违约、成立日期和在职员工数会在后续构成指标变量矩阵时进行考虑;
所述企业财务指标:主营业务收入、流动比率、速动比率、现金比率、资产负债率、负债权益比率、利息保障倍数、存货周转率、应收账款周转率、营业周期、流动资产周转率、总资产周转率、固定资产周转率、总资产报酬率、成本费用利润率、销售净利率、净资产收益率、销售毛利率、盈余现金保障倍数、现金流动负债比、营业总成本、现金流动负债比、管理费用、销售费用、财务费用、无形资产、长期借款、短期借款、净利润和营业收入;
违约预测指标确定步骤,
根据预提取的N个指标,取方差累积贡献率达到预设阈值的指标作为违约预测的指标;
二项逻辑回归模型建立步骤,
将违约与否作为二项逻辑回归中的被解释变量,建立二项逻辑回归模型;
违约判断步骤,
根据二项逻辑回归模型及企业数据,得到违约概率;
根据违约概率和预设的违约概率阈值,判断该企业是否违约。
作为优选实施方式,采用单因素方差分析法提取对违约率影响最大的N个指标具体包括如下步骤:
每个指标单独与违约与否进行单因素方差分析,取设定年份内的数据,根据如下公式得到检验统计量F的值:
其中,
k为设定年份数;
n为数据库中该企业同行业内所有公司的数量;
n
x
根据得到的检验统计量F的数值,查询F分布表,得到检验p值;
选择N个p值最小的指标,作为对违约率影响最大的N个指标,p值越小,表示对被解释变量违约率的影响越显著。
作为优选实施方式,通过多重共线性验证方法提取对违约率影响最大的N个指标具体包括如下步骤:
对各待检验指标进行多重共线性检验,检验公式为:c
其中,
X
c
c
计算各待检验指标的拟合优度:
其中,
R
Y
对各待检验指标的拟合优度进行F检验:
其中,
k为解释变量的个数;
n为样本量;
j为解释变量的序号;
j.个用于F检验的解释变量的序号;
F
F(k-1,n-k)是指自由度从k-1到n-k的F分布;
根据对各指标的拟合优度进行F检验得到的检验结果,查询F分布表,得到检验p值;
选择N个p值最大的指标,作为对违约率影响最大的N个指标。
为了得到准确的回归结果需要进行多重共线性检验(因为统计学认为有的指标存在相同的含义,因此需要去掉相同的指标),为了确保多重共线性检验的准确性需要进行拟合优度检验。检验p值小于给定显著性水平α,表示被解释变量与其他解释变量间存在显著的线性关系,且p值越小,这种线性关系越是显著,挑选出p值最大的N个指标变量。
多重共线性检验的任务是:(1)检验多重共线性是否存在;(2)判明存在多重共线性的范围。利用多重共线性,找出对被解释变量影响最大的前N个解释变量,并且经过多重共线性检验的解释变量之间已经不存在共线性,可以达到跟单因素分析算法同样的效果。
作为优选实施方式,违约预测指标确定步骤具体包括如下步骤:
由预提取的N个指标组成指标变量矩阵;
计算指标变量矩阵的协方差,得到指标变量协方差矩阵Σ;
计算指标变量协方差矩阵Σ的特征向量λ=(λ
计算指标变量协方差矩阵Σ的特征向量λ中各特征值λ
计算特征值λ
Y
其中,
Y
X为待判别公司的指标变量矩阵;
按N个预提取指标的违约率影响的由大到小的顺序,依次计算N个预提取指标的方差累加贡献率;
取方差累积贡献率L达到预设阈值的前m个指标为违约预测指标,各指标的累积贡献率按如下公式计算:
其中,
N为预提取的指标数;
m为指标方差累积贡献率L达到预设阈值时的指标数;
λ
作为优选实施方式,所述二项逻辑回归模型为:
其中:
p
X
x
β
β
上面二项逻辑回归模型的公式还可以变形为
作为优选实施方式,违约概率判断步骤中,还包括在得到违约概率后,结合待判别公司所属行业的违约倾向系数,对违约概率采用如下公式进行修正:
c
其中:
c
r
p
作为优选实施方式,待判别公司所属行业的违约倾向系数采用灰度关联分析法确定。
作为优选实施方式,确定行业的违约倾向系数的方法包括如下步骤:
选取数据库中所有行业的公司数据的指标变量,组成指标变量矩阵,其中选取的指标变量包括所述企业基本信息和企业财务指标;
分别计算各行业包括的各公司指标变量矩阵与参考序列对应指标取值的灰度关联系数,所述参考序列由该行业中各指标的均值数据组成;
分别计算各行业包括的各公司的各指标变量与参考序列对应元素的灰关联度;
提取各行业包括的各公司的灰关联度,取各行业包括的各公司灰关联度的均值为该行业的违约倾向系数。
作为优选实施方式,各公司各个指标变量与参考序列对应元素的灰关联度的计算包括如下步骤:
对各公司各个指标变量矩阵进行灰色无量纲化处理,
其中,
X
X
计算差异信息序列Δ
Δ
其中,
x
x
确定环境参数:
其中,
Δ
Δ
分别采用如下公式计算各公司各指标变量与参考序列对应元素的灰关联系数ξ
其中,
ρ为分辨系数,0<ρ<1,ρ越小,关联系数间差异越大,区分能力越强,通常取ρ=0.5;
Δ
Δ
Δ
分别采用如下公式计算各公司各指标变量与参考序列对应元素的灰关联度r
其中,
ξ
m为企业数量信息表和所有行业违约数量信息表中包括的指标总数。
实施例1
根据本发明的一个具体实施方案,下面对本发明的基于二项逻辑回归的银行对公贷款违约判别方法进行详细说明。
本发明提供了一种基于逻辑回归的银行对公贷款违约判别方法,包括如下步骤:
违约预测指标预提取步骤,
采用单因素方差分析法或多重共线性验证方法,根据数据库中的企业基本信息和企业财务指标,提取对违约率影响最大的N个指标;
所述企业基本信息包括:企业名称、数据年度、是否违约、成立日期、在职员工数、总资产和借款人组织机构代码;
所述企业财务指标:主营业务收入、流动比率、速动比率、现金比率、资产负债率、负债权益比率、利息保障倍数、存货周转率、应收账款周转率、营业周期、流动资产周转率、总资产周转率、固定资产周转率、总资产报酬率、成本费用利润率、销售净利率、净资产收益率、销售毛利率、盈余现金保障倍数、现金流动负债比、营业总成本、现金流动负债比、管理费用、销售费用、财务费用、无形资产、长期借款、短期借款、净利润和营业收入;
违约预测指标确定步骤,
根据预提取的N个指标,取方差累积贡献率达到预设阈值的指标作为违约预测的指标;
二项逻辑回归模型建立步骤,
将违约与否作为二项逻辑回归中的被解释变量,建立二项逻辑回归模型;
违约判断步骤,
根据二项逻辑回归模型及企业数据,得到违约概率;
根据违约概率和预设的违约概率阈值,判断该企业是否违约。
实施例2
根据本发明的一个具体实施方案,下面对本发明的基于二项逻辑回归的银行对公贷款违约判别方法进行详细说明。
本发明提供了一种基于逻辑回归的银行对公贷款违约判别方法,包括如下步骤:
违约预测指标预提取步骤,
采用单因素方差分析法或多重共线性验证方法,根据数据库中的企业基本信息和企业财务指标,提取对违约率影响最大的N个指标;
所述企业基本信息包括:企业名称、数据年度、是否违约、成立日期、在职员工数、总资产和借款人组织机构代码;
所述企业财务指标:主营业务收入、流动比率、速动比率、现金比率、资产负债率、负债权益比率、利息保障倍数、存货周转率、应收账款周转率、营业周期、流动资产周转率、总资产周转率、固定资产周转率、总资产报酬率、成本费用利润率、销售净利率、净资产收益率、销售毛利率、盈余现金保障倍数、现金流动负债比、营业总成本、现金流动负债比、管理费用、销售费用、财务费用、无形资产、长期借款、短期借款、净利润和营业收入;
违约预测指标确定步骤,
根据预提取的N个指标,取方差累积贡献率达到预设阈值的指标作为违约预测的指标;
二项逻辑回归模型建立步骤,
将违约与否作为二项逻辑回归中的被解释变量,建立二项逻辑回归模型;
违约判断步骤,
根据二项逻辑回归模型及企业数据,得到违约概率;
结合待判别公司所属行业的违约倾向系数,对违约概率采用如下公式进行修正;
c
其中:
c
r
p
根据违约概率和预设的违约概率阈值,判断该企业是否违约。
实施例3
根据本发明的一个具体实施方案,下面对本发明的单因素方差分析法提取对违约率影响最大的N个指标的过程进行详细说明。
采用单因素方差分析法提取对违约率影响最大的N个指标具体包括如下步骤:
每个指标单独与违约与否进行单因素方差分析,取设定年份内的数据,根据如下公式得到检验统计量F的值:
其中,
k为设定年份数;
n为数据库中该企业同行业内所有公司的数量;
n
x
根据得到的检验统计量F的数值,查询F分布表,得到检验p值;
选择N个p值最小的指标,作为对违约率影响最大的N个指标。
实施例4
根据本发明的一个具体实施方案,下面对本发明的通过多重共线性验证方法提取对违约率影响最大的N个指标的过程进行详细说明。
通过多重共线性验证方法提取对违约率影响最大的N个指标具体包括如下步骤:
对各待检验指标进行多重共线性检验,检验公式为:c
其中,
X
c
c
计算各待检验指标的拟合优度:
其中,
R
Y
对各待检验指标的拟合优度进行F检验:
其中,
k为解释变量的个数;
n为样本量;
j为解释变量的序号;
j.个用于F检验的解释变量的序号;
F
F(k-1,n-k)是指自由度从k-1到n-k的F分布;
根据对各指标的拟合优度进行F检验得到的检验结果,查询F分布表,得到检验p值;
选择N个p值最大的指标,作为对违约率影响最大的N个指标。
实施例5
根据本发明的一个具体实施方案,下面对本发明根据预提取的预测指标确定违约预测指标的过程进行详细说明。
违约预测指标确定步骤具体包括如下步骤:
由预提取的N个指标组成指标变量矩阵;
计算指标变量矩阵的协方差,得到指标变量协方差矩阵Σ;
计算指标变量协方差矩阵Σ的特征向量λ=(λ
计算指标变量协方差矩阵Σ的特征向量λ中各特征值λ
计算特征值λ
Y
其中,
Y
X为待判别公司的指标变量矩阵;
按N个预提取指标的违约率影响的由大到小的顺序,依次计算N个预提取指标的方差累加贡献率;
取方差累积贡献率L达到预设阈值的前m个指标为违约预测指标,各指标的累积贡献率按如下公式计算:
其中,
N为预提取的指标数;
m为指标方差累积贡献率L达到预设阈值时的指标数;
λ
实施例6
根据本发明的一个具体实施方案,下面对本发明确定行业的违约倾向系数的方法进行详细说明。
确定行业的违约倾向系数的方法包括如下步骤:
选取数据库中所有行业的公司数据的指标变量,组成指标变量矩阵,其中选取的指标变量包括所述企业基本信息和企业财务指标;
分别计算各行业包括的各公司指标变量矩阵与参考序列对应指标取值的灰度关联系数,所述参考序列由该行业中各指标的均值数据组成;
分别计算各行业包括的各公司的各指标变量与参考序列对应元素的灰关联度;
提取各行业包括的各公司的灰关联度,取各行业包括的各公司灰关联度的均值为该行业的违约倾向系数。
实施例7
根据本发明的一个具体实施方案,下面对本发明计算各公司各个指标变量与参考序列对应元素的灰关联度的过程进行详细说明。
各公司各个指标变量与参考序列对应元素的灰关联度的计算包括如下步骤:
对各公司各个指标变量矩阵进行灰色无量纲化处理,
其中,
X
X
计算差异信息序列Δ
Δ
其中,
x
x
确定环境参数:
其中,
Δ
Δ
分别采用如下公式计算各公司各指标变量与参考序列对应元素的灰关联系数ξ
其中,
ρ为分辨系数,0<ρ<1;
Δ
Δ
Δ
分别采用如下公式计算各公司各指标变量与参考序列对应元素的灰关联度r
其中,
ξ
m为企业数量信息表和所有行业违约数量信息表中包括的指标总数。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均包含在本发明的保护范围之内。
机译: 基于大数据挖掘的银行贷款违约行为预测方法
机译: 基于汇票信用证类型的韩元银行贷款贷款的方法和系统
机译: P2P P2P贷款服务器方法和计算机程序通过基于机器学习的关系银行