首页> 中文学位 >多种分类模型在个人信用评估中的应用
【6h】

多种分类模型在个人信用评估中的应用

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 研究意义

1. 2国内外研究文献综述

1.3 研究思路与研究内容

2 分类模型介绍

2.1logistic回归模型

2.2 决策树模型

2.3 随机森林模型

3 几种分类模型的实证分析

3.1 数据预处理

3.2 logistic回归模型

3.3 决策树C5.0模型

3.4 随机森林模型

4 分类模型性能评估

4.1 评价指标简介

4.2 模型性能比较分析

5.总结与展望

5.1 总结

5.2 展望

致谢

参考文献

附录

A. logistic模型在Clementine 12.0中的数据流:

B.决策树C5.0模型在Clementine 12.0中的数据流:

C.随机森林R程序:

展开▼

摘要

随着信息科技高速发展,互联网与传统行业相继结合,类似于互联网金融等新兴概念正在颠覆传统金融业。在个人信用评估领域,由于数据挖掘技术的快速发展,已具有完全不同的信用分析方式,如机器学习、数据挖掘等。论文研究了其中的三种分类模型:logistic模型、决策树模型、随机森林模型在个人信用评估中的应用。
  Logistic回归模型是个人信用评级中应用最广泛的方法,也是其他方法的分类能力基准。论文选用UCL数据库中德国某银行个人信用数据,采用logistic模型对其进行客户分类,分类过程中采用变量筛选前后对比、筛选变量时采用Enter法、Backwards法来得出分类结果。
  决策树模型是机器学习中最具有影响力的方法,具有易于解释、识别效率高、产生判别规则等优势。论文将决策树模型用于银行客户分类,采用C5.0算法进行分类,分类过程中引入树的后剪枝、误判成本矩阵、boosting算法提高模型适用性,同时进行变量筛选对比来得出分类结果。
  随机森林模型是多颗决策树的集成,论文使用随机森林分类银行客户,主要在于对比决策树及随机森林的分类效果,通过调整各类参数,引入代价敏感学习建立加权随机森林模型,并对各变量重要性进行排序。
  最后,论文对以上三种分类模型进行评价,通过ROC曲线、AUC值、Lift曲线等标准以及各模型的泛化误差估计,基于论文数据得出结论:随机森林模型具有最低的总错误率;决策树C5.0具有最低的A类错误率,但其B类错误率较高;没有一种模型在各类错误率均低于其他模型。
  论文在建立三种模型的过程中,将数据分为训练数据、测试数据、验证数据,每一个参数均通过不断测试以便取得最优结果,先对每个模型进行分析对比,再对三个模型进行对比,分类评价采用准确率和ROC曲线等指标综合评价。这种方式更大限度确保模型对于实际数据的可应用性,因此对于实际分类需求上具有一定的实践参考价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号