首页> 中文学位 >基于组合模型的用户是否二次贷款预测应用研究
【6h】

基于组合模型的用户是否二次贷款预测应用研究

代理获取

目录

第1章 绪论

1.1研究背景

1.2 研究目的和意义

1.3 研究的主要内容

1.4 研究方法和技术路线图

1.5论文的主要贡献

第2章 文献综述与相关理论

2.1文献综述

2.2 相关理论

第3章 数据预处理

3.1数据描述

3.2特征工程

3.3缺失值处理

3.4变量离散化

3.5本章小节

第4章 用户是否二次贷款预测模型的建立

4.1 模型预测

4.2 模型评价

4.3 深入挖掘

第5章 总结与不足

5.1 总结

5.2不足

参考文献

附录

致谢

展开▼

摘要

P2P小额借贷是将额度非常小的资金聚集起来借贷给有资金需求人群的一种商业模式,一般需要借助电子商务专业网络平台帮助借贷双方确立借贷关系并完成相关交易手续[1]。随着互联网金融公司的发展,借款者征信环节也日趋完善,国内外研究学者在这方面做了充分的工作和研究预测。现在个人贷款预测领域已经不再停留在判断某个用户是否为好客户或坏客户,以及客户是否发生违约行为等方面。当用户规模上升,增加借款用户的粘性,提高用户产品体验,重复借款人的生命周期价值往往更高,能大幅增加公司的收入。为了进一步给公司创造价值,预测客户是否进行二次贷款是另外一个重要的研究问题,也是本文的研究重点。 本论文数据来源于融360金融数据分析大赛公开的真实贷款数据(包括26001条记录,432个变量)。通过利用数据挖掘技术和一整套流程对用户在未来是否二次贷款的原始行为数据进行挖掘,分析推测用户未来二次贷款的习惯和偏好,再基于最新的机器学习算法建立用户是否二次贷款的组合模型,对贷款用户进行识别,最后通过模型的重要特征来判断影响个人二次贷款的主要原因和依据,为企业量化识别二次贷款用户资质做出贡献。 数据准备部分,通过对数据的预处理、数据的整体分布、探索性分析以及特征工程的构建,包括对连续变量的最优分箱,缺失值的填充,异常值的检测与处理,都是经过经验与多次实验相结合,选择相对于此数据最优的方法,尽可能减少变量的信息丢失。在对业务背景理解基础上建立合理的特征框架且在进行变量筛选方面采用最大信息系数(MIC)和正则化(L1,L2)来处理无关变量,掌握与理解因变量与各自变量之间的相关关系,为数据建模提供一定的指导建议。 构建模型部分,在基于对业务背景的理解和模型原理理解基础上构建随机森林、LightGBM和gcForest三个基于决策树的集成学习框架,以AUC值作为评价准则。最终,三个模型的最优结果AUC值分别达到0.765(随机森林)、0.7677(LightGBM)、0.775(gcForest)。为了提高模型精度,本论文构建了基于三个模型的组合模型和auc融合模型,最终测试集的效果auc提高到0.78925552,是一个非常不错的结果。相比较之前单一的分类模型准确性有了显著的改善。 最后根据随机森林中的特征重要性,得出 salary, credit_lmt_amt, max_tm_encode,friends_count,current_bill_bal,expect_quota,missing_count, max_month_repay_missing,这8个变量是对目标变量影响重要的几个因素,并从下面三个角度出发进行深入挖掘:1用户的网络购物行为,2用户的个体信息状况,3用户的社交网络。然后,再对这几个变量分别进行探索性分析,进一步进行挖掘。

著录项

  • 作者

    赵花;

  • 作者单位

    上海师范大学;

  • 授予单位 上海师范大学;
  • 学科 应用统计
  • 授予学位 硕士
  • 导师姓名 赵红军;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    组合模型; 贷款; 预测;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号