基于随机森林算法的高维不平衡数据分类研究及应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

高维不平衡数据广泛存在于现实生活中，如垃圾邮件识别、故障诊断、人脸识别和医疗诊断等领域。如何对高维不平衡数据分类，提升少数类的识别率是当今机器学习领域重点研究课题之一。随机森林算法是Breman提出的一种集成学习算法，该算法通过组合多棵决策树对数据进行预测。随机森林算法提出后凭借良好的性能在很多领域得到了广泛应用。但是随机森林算法对高维不平衡数据分类时，会产生分类性能下降，决策树规模大等问题。本文针对随机森林算法在高维不平衡数据分类中存在的问题，从数据层面和算法层面分别对随机森林算法进行研究与改进，本文的主要研究工作包括：
　　（1）针对高维不平衡数据的类间不平衡问题提出DESMOTE算法。该算法是数据层面上的数据平衡方法，改善了传统SMOTE算法易造成边界模糊的问题。并在此基础上提出了DESMOTE-RF算法，以AUC值作为随机森林算法最后投票决策时的权值，使算法在分类预测时将原有的多数投票法改为加权投票法，以此来提高随机森林算法在不平衡数据分类中的性能。
　　（2）针对高维不平衡数据分类，在DESMOTE-RF算法的基础上提出了D-LPP-RF算法和D-SR-RF算法。在这两个算法中决策树的每个节点分裂之前，通过LPP或SR映射的方法将该节点数据映射到其它属性空间中，在该属性空间中能快速寻找到最优分裂特征及最佳分裂点，得到原始属性空间中近似最优的决策树分类器。这两个算法大幅缩短了随机森林算法中决策树的构建时间，减少决策树的构建规模，增加决策树之间的差异性以及明显提高了随机森林算法的AUC值、G-means值和F-measure值。
　　（3）最后将本文提出的D-LPP-RF和D-SR-RF算法用于癌症诊断中。基因表达数据的兴起为癌症诊断提供了新的诊断方式，基因表达数据具有高维、不平衡以及样本数量少等特点。将本文提出的算法应用在基因表达数据分类中，并与原始随机森林算法和三个在基因表达数据分类上性能表现良好的算法进行对比，验证D-LPP-RF和D-SR-RF算法在基因表达数据上的分类性能。

著录项

作者
杨浩宇;
展开▼
作者单位

郑州大学;

展开▼
授予单位郑州大学;
学科软件工程
授予学位硕士
导师姓名柴玉梅;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类肿瘤诊断学;
关键词
高维不平衡数据; 随机森林算法; 决策树; 癌症诊断; 基因表达;

相似文献

中文文献
外文文献
专利

1. 基于SVM的高维不平衡数据集分类算法 [J] . 赵小强 ,张露 . 南京大学学报：自然科学版 . 2018,第2期
2. 基于随机森林算法的高维模糊分类研究 [J] . 张修远 ,刘修国 . 国土资源遥感 . 2014,第002期
3. 面向不平衡数据分类的高维超球体过采样方法 [J] . 林静怀 ,刘治宇 ,李军良 . 微电子学与计算机 . 2021,第5期
4. 面向不平衡数据集分类的离散高维空间距离采样和极端随机树算法 [J] . 袁帅 ,余伟 ,余放 . 计算机应用与软件 . 2020,第007期
5. 基于不平衡数据集的改进随机森林算法研究 [J] . 刘耀杰 ,刘独玉 . 计算机技术与发展 . 2019,第006期
6. boosting在多分类高维组学不平衡数据中的应用 [C] . 张圆圆 ,侯艳 ,李康 . 2017年中国卫生统计学学术年会 . -1
7. 基于hubness与集成学习的高维不平衡数据分类算法 [A] . 吴琴 . 2020

基于随机森林算法的高维不平衡数据分类研究及应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅