首页> 中文学位 >高维非平衡数据的集成分类方法及其在个人信用风险评估中的应用
【6h】

高维非平衡数据的集成分类方法及其在个人信用风险评估中的应用

代理获取

目录

声明

摘要

第1章 引言

1.1 研究背景

1.2 国内外研究现状

1.3 本文主要工作和结构安排

第2章 统计学习基本理论

2.1 理论框架

2.2 逻辑回归模型(Logistic Regression)

2.3 决策树

第3章 集成学习和随机森林

3.1 Bagging

3.2 Boosting

3.3 RandomForest

3.4 分类器性能评估

第4章 基于高维非平衡数据分类的随机森林模型

4.1 代价矩阵

4.2 代价敏感随机森林模型

第5章 实证研究

5.1 数据来源及说明

5.2 数据预处理

5.3 描述性分析

5.4 建模方法及结果分析

5.5 进一步研究

第6章 总结与改进

参考文献

致谢

展开▼

摘要

在当前国家大力发展“普惠金融”,推动建设社会信用体系的背景下,大数据征信越来越成为学术界和金融界关注的热点问题。相比于数据的体量而言,大数据征信中更为关键的问题在于处理征信数据本身维度的多样性和结构的复杂性。例如大部分征信样本数据从结构上说都是类别非平衡的,其中的违约样本在整体中往往只占到很小的比例。而目前现行的关于个人信用风险评估的多数方法和模型都没有重视数据的这些特征。如果忽略数据本身带有的特点,直接套用现有的模型和方法,自然而然其结果和可靠性都会受到一定程度上的影响。
  从统计学习的角度而言,可以将个人信用风险评估转化成一个分类问题,通过将贷款申请人分为信用好客户和信用差的客户,提供贷款或增加额度给还款概率大的信用好客户,拒绝或降低贷款额度给违约概率大的信用差客户。因此本文首先从分类学习的角度出发,进行数学抽象成无约束的最优化问题,从而构建了统计学习的理论框架。并在此理论框架下梳理总结了当前处理分类问题的单分类器方法和集成分类方法。其次从数据的高维不平衡特点出发,建立了与之相适应的分类性能评估指标。然后结合集成分类方法,在随机森林模型的基础上引入代价因子,建立了基于高维非平衡数据的随机森林模型。并将新建立的随机森林模型应用到个人信用风险评估的实证研究上,实证结果表明新建立的随机森林模型在处理不平衡数据的分类问题上有很好的效果,尤其是在对占少数的违约客户的分类准确率上远远高于逻辑回归,单棵决策树,以及普通随机森林模型。并且随着不平衡程度的加深,其效果越明显。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号