首页> 中文学位 >基于随机森林算法的高维不平衡数据分类研究及应用
【6h】

基于随机森林算法的高维不平衡数据分类研究及应用

代理获取

目录

声明

1 绪论

1.1 研究背景及目的

1.2 国内外研究现状

1.3 本文主要研究工作

1.4 本文目录结构

2 基本理论

2.1 决策树

2.2 随机森林算法

2.3 分类器性能评价指标

2.4 本章总结

3 DESMOTE数据平衡算法

3.1 问题分析

3.2 基于SMOTE算法的数据平衡处理方法

3.3 基于DESMOTE的随机森林算法

3.4 实验及结果分析

3.5 本章小结

4 基于随机森林算法的高维不平衡数据分类

4.1 问题分析

4.2 基于LPP的随机森林算法

4.3 基于SR的随机森林算法

4.4 实验结果及分析

4.5 本章小结

5 D-SR-RF和D-LPP-RF算法在癌症识别中的应用

5.1 背景介绍

5.2 实验结果及分析

5.3 本章总结

6 总结与展望

6.1 总结

6.2 展望

参考文献

个人信息简介

致谢

展开▼

摘要

高维不平衡数据广泛存在于现实生活中,如垃圾邮件识别、故障诊断、人脸识别和医疗诊断等领域。如何对高维不平衡数据分类,提升少数类的识别率是当今机器学习领域重点研究课题之一。随机森林算法是Breman提出的一种集成学习算法,该算法通过组合多棵决策树对数据进行预测。随机森林算法提出后凭借良好的性能在很多领域得到了广泛应用。但是随机森林算法对高维不平衡数据分类时,会产生分类性能下降,决策树规模大等问题。本文针对随机森林算法在高维不平衡数据分类中存在的问题,从数据层面和算法层面分别对随机森林算法进行研究与改进,本文的主要研究工作包括:
  (1)针对高维不平衡数据的类间不平衡问题提出DESMOTE算法。该算法是数据层面上的数据平衡方法,改善了传统SMOTE算法易造成边界模糊的问题。并在此基础上提出了DESMOTE-RF算法,以AUC值作为随机森林算法最后投票决策时的权值,使算法在分类预测时将原有的多数投票法改为加权投票法,以此来提高随机森林算法在不平衡数据分类中的性能。
  (2)针对高维不平衡数据分类,在DESMOTE-RF算法的基础上提出了D-LPP-RF算法和D-SR-RF算法。在这两个算法中决策树的每个节点分裂之前,通过LPP或SR映射的方法将该节点数据映射到其它属性空间中,在该属性空间中能快速寻找到最优分裂特征及最佳分裂点,得到原始属性空间中近似最优的决策树分类器。这两个算法大幅缩短了随机森林算法中决策树的构建时间,减少决策树的构建规模,增加决策树之间的差异性以及明显提高了随机森林算法的AUC值、G-means值和F-measure值。
  (3)最后将本文提出的D-LPP-RF和D-SR-RF算法用于癌症诊断中。基因表达数据的兴起为癌症诊断提供了新的诊断方式,基因表达数据具有高维、不平衡以及样本数量少等特点。将本文提出的算法应用在基因表达数据分类中,并与原始随机森林算法和三个在基因表达数据分类上性能表现良好的算法进行对比,验证D-LPP-RF和D-SR-RF算法在基因表达数据上的分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号