首页> 中文学位 >信用违约预测的特征工程与模型泛化性研究--基于2016--2019Lending Club P2P数据
【6h】

信用违约预测的特征工程与模型泛化性研究--基于2016--2019Lending Club P2P数据

代理获取

目录

声明

第 1 章 绪 论

1.1 研究背景

1.2 研究意义

1.3 文献综述

1.3.1 P2P相关问题研究

1.3.2 国内外相关研究

1.4 研究的主要内容

1.5 创新点与不足之处

1.5.1 创新点

1.5.2 不足之处

第 2 章 特征工程与机器学习理论

2.1 特征筛选

2.1.1 WOE 变量与 IV值

2.1.2 基于决策树信息增益最大化分箱

2.2 逻辑回归

2.3 LightGBM算法

2.3.1 Xgboost模型

2.3.2 Histgram算法

2.3.3 按叶子生长(leaf-wise)策略

2.4 Catboost算法

2.4.1 分类特征处理

2.5 Stacking 融合模型

2.6 模型评估

第 3 章 描述性统计分析

3.1 数据选择

3.2 目标变量分析

3.3 借款人等级分析

3.4 借款期限分析

第 4 章 数据预处理与特征工程

4.1 数据预处理与特征工程

4.1.1 目标变量的处理

4.1.2 数据清洗

4.1.3 缺失值填补

4.1.4 特征工程

4.1.5 计算 IV值-基于信息最大化实现变量最优分箱

4.2 本章小结

第 5 章 实证分析

5.1 模型对比实验

5.1.1 基于 Catboost 模型的二分类算法

5.1.2 基于 LightGBM 模型的二分类算法

5.1.3 基于 Stacking 融合的二分类算法

5.1.4 不同模型之间的对比

5.2 模型的泛化性研究

5.2.1 LightGBM 算法泛化性表现

5.2.2 基于 LightGBM 算法滚动预测研究

5.3 本章小结

结 论

附 录

参考文献

致 谢

展开▼

摘要

P2P网络借贷是一种创新的金融形式,它可以满足中小企业以及个人的借款需求。然而在实际的运行中,P2P借贷是存在较大的风险,P2P借贷平台面临着信用分险、技术风险以及合规风险等问题,其中信用风险是最突出的风险之一。  本文研究是基于美国P2P借贷平台Lending Club2016年至2019年的数据集来研究P2P网络借贷中违约风险的问题。一直以来,统计学家有着普遍的共识就是数据和特征决定了机器学习的上限,而模型和算法只能逼近这个上限,因此,本文在进行模型建立前,也是将主要精力用在特征工程处理方面。首先,由于原始数据存在大量缺失的特征,并且大部分变量都与目标变量无关,所以本文采用人工分析与IV值的大小共同对预测变量进行筛选,并且利用决策树信息最大化来处理进行IV值计算时数值型变量的分箱处理。其次,为了探究不同模型的预测效果,并且考虑到所使用的数据集中有部分字符型变量(离散特征),因此本文在模型方面上选择可以处理离散特征的模型Catboost与LightGBM算法,并最终对不同的Catboost模型与LightGBM模型进行Sta cking融合进行对比实验。最后,由于在实验中,考虑到模型可能表现出一定的近期效应,即拟合的模型对于近期测试集的预测效果明显好于远期的预测效果,因此本文通过尝试建立滚动预测来对该假设进行验证的同时,也尝试寻找最佳的训练集所需要的月份。  实证过程中,本文对比了Catboost、LightGBM算法以及Stacking融合的模型在同一训练集与测试集的效果,发现LightGBM算法不仅在预测精度上表现较好,模型的泛化效果不错、同时对于处理大量数据下运行速度也很快,因此综合表现较为良好。基于以上的研究,P2P网络借贷可通过建立LightGB M等相关机器学习模型,正确评价借款人信用,实现对借款人违约概率的有效预警,进而有效防范或降低P2P借贷交易中存在的违约风险,避免逆向选择和道德风险问题;同时,本文研究也对我国P2P行业的发展起到借鉴作用,为国家宏观调控、把握政策导向提供了素材。

著录项

  • 作者

    曲鹏;

  • 作者单位

    西南财经大学;

  • 授予单位 西南财经大学;
  • 学科 应用统计
  • 授予学位 硕士
  • 导师姓名 陈娟;
  • 年度 2020
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    P2P网络借贷,违约风险,机器学习;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号