首页> 中文期刊> 《小型微型计算机系统》 >大数据环境下的投票特征选择算法

大数据环境下的投票特征选择算法

     

摘要

随着数据的爆炸式增长,大数据问题越来越受到关注,然而由于大数据具有维度较高、数据复杂且变化迅速的特性,导致传统的机器学习算法不再适用,故解决大数据特征选择问题迫在眉睫.本文基于投票机制和决策树算法提出了大数据环境下的投票特征选择算法.具体步骤为,随机划分大数据集U为L个子集,将划分后的L个子集发送到L个map节点,在每个map节点上使用决策树算法进行特征选择.在reduce节点,用每个map节点选择出来的特征进行投票,将得票数大于阙值的特征选择出来.将提出的算法在Hadoop和Spark两个开源大数据平台进行了实验,发现两个大数据平台的运行机制有诸多异同.此外,将提出的大数据投票特征选择算法和单变量特征选择算法与基于遗传算法的特征选择算法在5个高维数据集上进行了实验比对.经过对实验结果的分析,发现提出的算法相较于两个相关算法分类精度和执行效率都有更优的表现.证明了提出的算法优于这两个算法,可以有效地解决高维数据的特征选择问题.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号