首页> 中文期刊> 《西北工业大学学报》 >一种基于最优集成随机森林的小样本数据特征提取方法

一种基于最优集成随机森林的小样本数据特征提取方法

         

摘要

高维小样本数据作为数据挖掘的难点,用传统的随机森林算法进行特征选择时极易出现分类结果过拟合而导致的特征重要度排序稳定性差、精度低等问题。针对随机森林在小样本数据降维过程中出现的难点,提出了一种基于小样本数据特征提取算法OTE-GWRFFS。基于生成对抗网络GAN进行样本扩充,避免传统随机森林在小样本分类过程中的过拟合现象;在数据扩充的基础上采用基于权重的最优树集合算法,减小生成数据分布误差对特征提取精度的影响,提升决策树集合的整体稳定性;采用单棵决策树的权重与特征重要性度量值加权平均得到特征重要性排序,从而解决了小样本数据特征选择过程中精度低稳定性差的问题。通过UCI数据集将所提算法与传统随机森林以及基于权重的随机森林算法进行实验对比,OTE-GWRFFS算法在处理高维小样本数据时具有更高的稳定性和精度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号