首页> 中文学位 >基于数据挖掘的P2P网贷获贷结果影响因素及放贷决策模型研究
【6h】

基于数据挖掘的P2P网贷获贷结果影响因素及放贷决策模型研究

代理获取

目录

摘要

第1章 绪论

1.1 研究背景

1.2 研究目的和意义

1.2.1 研究目的

1.2.2 研究意义

1.3.1 研究内容

1.3.2 研究方法

1.3.3 技术路线图

1.4 本文的主要贡献

第2章 文献综述与相关理论

2.1 文献综述

2.1.1 P2P网络贷款概况

2.1.2 获贷结果影响因素研究

2.1.3 放贷决策模型研究

2.1.3 文献评述

2.2 相关理论模型

2.2.1 信用评分

2.2.2 K-means聚类法

2.2.3 数据挖掘模型

第3章 实证背景描述和数据预处理

3.1 研究假设

3.2 数据预处理

3.1.1 个人贷款分析表构建

3.1.2 逻辑处理

3.1.3 缺失值处理

3.1.4 离群值处理

3.3 本章小结

第4章 获贷结果影响因素识别

4.1 Ⅳ值的变量选择

4.2 随机森林模型的重要性排序

4.3 影响因素具体分析

4.4 本章小结

第5章 放贷决策模型的构建

5.1 申请者分类

5.1.1 K-means聚类具体步骤

5.1.2 申请者类型

5.2 模型建立

5.2.1 统计模型

5.2.2 非统计模型

5.2.3 组合模型

5.3 模型评估

5.4 本章小结

第6章 结论与不足

6.1 结论

6.2 不足

致谢

参考文献

附录

声明

展开▼

摘要

P2P网络贷款指的是出借人与借款人之间通过网络借贷平台而不是金融机构产生的无抵押贷款。从2015年起我国的P2P网络贷款发展非常迅猛,《中国P2P网贷行业2015年年报简报》显示,2015年全国的P2P网贷平台数量从2918家增至5121家,年度累计成交量从2014年的2528亿元增加到2015年的9823.04亿元。然而,截止至2017年2月,全国累计成立的5882家P2P网络贷款平台中,已有3547家平台停业或者出现问题。由此可见,P2P网贷平台的风险控制问题刻不容缓。
  本文基于P2P网贷平台“好贷网”的真实贷款数据,从申请者的一系列特征变量中识别出影响其获贷结果的显著因素,并建立了有效的放贷决策模型判别申请者的获贷结果。文章具体内容如下:
  数据预处理部分,将原始数据的贷款申请表和申请者信息表用SQL.拼接成个人贷款分析表,通过逻辑处理删除无效数据,然后用KNN插值法对缺失值进行插补,再通过WOE分箱法处理离群值,最终得到3003条有效数据,20个申请者特征变量。
  获贷结果影响因素识别部分,首先通过计算20个变量的Ⅳ值筛选出对获贷结果显著的14个变量,接着用随机森林模型计算每个显著变量的Gini值平均减少量,平均减少量越大的变量对获贷结果的影响越大。结果发现,对获贷结果影响最大的因素是申请者以往信用记录,其次是其职业和资产情况,最后是贷款额度和贷款期限,而性别和婚姻状况等个人基本特征的影响非常小。通过成败比进一步识别各因素对获贷结果影响的具体方向和大小,发现有信用卡比没有信用卡的获贷的成功率高20倍,单卡最高额度、开卡时间、工资、工作年限、文化程度都与获贷成功率显著成正比。
  放贷决策模型建立部分,本文选用最常见的6种模型:统计模型中的Logistic回归模型、非统计模型中的SVM模型和神经网络模型、组合模型中的AdaBoost模型、GDBT模型、XGBoost模型。首先对申请者用K-means聚类法进行分类,总结每类申请者的特征,再对每类申请者单独建立模型并将每类申请者的模型预测结果汇总,将汇总结果与未分类前所建立的模型结果进行对比,发现聚类后的模型准确度、灵敏度、特异性分别有3.31%、17.39%、11.05%的显著提高,这意味着聚类后的模型与来聚类相比能为P2P网贷平台增加17.39%的业务,降低11.05%的错判风险。从而得到如下结论:不同申请者之间存在较大差异,对申请者整体建模会忽略这些差异信息,造成模型精度下降。先用K-means聚类法将申请者分类再在各类申请者中建立模型,能显著增强模型捕捉不同类申请者特征的能力,从而增加模型的风险控制能力。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号