首页> 中文期刊> 《西华师范大学学报(自然科学版)》 >大数据平台上的并行CART决策树算法

大数据平台上的并行CART决策树算法

         

摘要

决策树是机器学习中最流行、应用最广泛的分类模型之一.针对Spark-MLlib决策树算法(MLDT)训练树模型效率较低的问题,提出了一种基于Spark平台的并行CART决策树算法(SPC-DT).首先从数据并行优化的角度出发,采用数据垂直划分,该方法使每次参与基尼值计算的都是一个完整的属性列,以减少数据节点之间信息交流造成的网络资源占用;其次采用Fayyad算法对连续属性进行离散化,以降低决策树训练过程中基尼值的计算频次;最后使用基尼指数来训练决策树模型以降低计算复杂度.实验结果表明,在分类精度方面,SPC-DT和MLDT差距不大,在树的训练效率上优于MLDT算法.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号