首页> 中文学位 >银行信用评级中的不平衡分类问题研究
【6h】

银行信用评级中的不平衡分类问题研究

代理获取

目录

第一章 绪论

1.1研究背景及意义

1.2研究现状

1.3面临的挑战

1.4主要工作与研究内容

1.5创新点

1.6论文结构安排

1.7本章小结

第二章 数据挖掘及银行信用评级

2.1数据挖掘概述

2.2信用评级概述

2.3基于数据挖掘的银行信用评级

2.4本章小结

第三章 不平衡分类问题

3.1不平衡分类问题概述

3.2基于数据层面的应用

3.3基于算法层面的应用

3.4基于数据层面和算法层面的混合应用

3.5基分类器

3.6基于RHSBoost算法的模型

3.7本章小结

第四章 仿真实验及性能分析

4.1实验数据

4.2实验设计

4.3分类模型评价指标

4.4采样方法有效性验证

4.5集成学习算法有效性验证

4.6本章小结

第五章 RHSBoost算法在银行信用评级中的应用

5.1数据集的描述

5.2数据集的预处理

5.3模型构建和实验说明

5.4实验结果与分析

5.5本章小结

结论与展望

参考文献

攻读硕士期间取得的研究成果

声明

致谢

展开▼

摘要

信用评级是一项银行信用风险管理的重要内容,是一种银行评价客户信誉状况、归还贷款能力和未来前景的方法,是一个通过挖掘客户信息来指导业务的过程。在当前大数据时代的背景下,银行所能获得的客户信用数据越来越多,如何通过挖掘数据隐藏的信息从而判断客户信用等级是银行面临的至关重要的问题。在实际的银行信用数据集中,信用良好的客户往往比信用不良的客户多很多,这导致银行信用评级问题实质上是一种不平衡分类问题。在不平衡分类问题中,小类样本往往是关注的重点,如信用评级领域,银行更关注那些信用不良的客户。因此,如何有效地区分和识别小类样本是解决不平衡分类问题的关键。
  机器学习算法在处理不平衡分类问题时往往不能有效地识别小类样本,因此如何有效地解决不平衡分类问题是重点研究的工作。目前,不平衡分类问题主要从数据层面和算法层面进行研究。数据层面上主要采用重采样方法来平衡数据类别分布,如随机欠采样方法、ROSE方法、SMOTE方法等都是典型的重采样方法;算法层面上集成学习算法经常被用来解决不平衡分类问题。为了验证重采样方法和集成学习算法在处理不平衡分类问题时的有效性,本文采用四组分别来自于UCI数据库和KEEL数据库的不平衡率各不相同的数据集进行仿真实验,实验结果表明重采样方法和集成学习算法的确能够有效提升分类模型对小类样本的识别率。
  ROSE方法是一种人工合成数据的方法,将其权重系数进行改进之后与随机欠采样方法组合,得到随机混合采样(RHS,Random HybridSampling)方法,之后采用经典的AdaBoost算法作为集成学习算法,这样就得到了RHSBoost(Random Hybrid Sampling Boosting)算法。该算法的基本思想是:首先通过随机欠采样方法来获得平衡的数据集,之后借助改进的ROSE方法来合成更多的人工数据,AdaBoost算法可以更改错误分类的小类样本权重,这样就可以达到增强分类器的目的。
  本文利用银行信用数据集进行实验,在采用决策树作为基分类算法的前提下,将RHSBoost算法与RUSBoost算法、SMOTEBoost算法、重采样方法和集成学习算法进行对比,证明了RHSBoost算法的可行性和优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号