首页> 中文期刊>计算机应用 >基于随机森林和投票机制的大数据样例选择算法

基于随机森林和投票机制的大数据样例选择算法

     

摘要

针对大数据样例选择问题,提出了一种基于随机森林(RF)和投票机制的大数据样例选择算法.首先,将大数据集划分成两个子集,要求第一个子集是大型的,第二个子集是中小型的.然后,将第一个大型子集划分成q个规模较小的子集,并将这些子集部署到q个云计算节点,并将第二个中小型子集广播到q个云计算节点.接下来,在各个节点用本地数据子集训练随机森林,并用随机森林从第二个中小型子集中选择样例,之后合并在各个节点选择的样例以得到这一次所选样例的子集.重复上述过程p次,得到p个样例子集.最后,用这p个子集进行投票,得到最终选择的样例子集.在Hadoop和Spark两种大数据平台上实现了提出的算法,比较了两种大数据平台的实现机制.此外,在6个大数据集上将所提算法与压缩最近邻(CNN)算法和约简最近邻(RNN)算法进行了比较,实验结果显示数据集的规模越大时,与这两个算法相比,提出的算法测试精度更高且时间消耗更短.证明了提出的算法在大数据处理上具有良好的泛化能力和较高的运行效率,可以有效地解决大数据的样例选择问题.

著录项

  • 来源
    《计算机应用》|2021年第1期|74-80|共7页
  • 作者单位

    河北大学数学与信息科学学院 河北保定071002;

    河北省机器学习与计算智能重点实验室(河北大学) 河北保定071002;

    河北大学数学与信息科学学院 河北保定071002;

    河北省机器学习与计算智能重点实验室(河北大学) 河北保定071002;

    河北大学数学与信息科学学院 河北保定071002;

    河北省机器学习与计算智能重点实验室(河北大学) 河北保定071002;

    河北大学数学与信息科学学院 河北保定071002;

    河北省机器学习与计算智能重点实验室(河北大学) 河北保定071002;

    河北大学数学与信息科学学院 河北保定071002;

    河北省机器学习与计算智能重点实验室(河北大学) 河北保定071002;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 自动推理、机器学习;
  • 关键词

    大数据; 样例选择; 决策树; 随机森林; 投票机制;

  • 入库时间 2022-08-19 23:33:14

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号