首页> 中文期刊>计算机研究与发展 >一种基于线索化二叉排序树的数据流挖掘的决策树分类新算法

一种基于线索化二叉排序树的数据流挖掘的决策树分类新算法

     

摘要

数据流具有数据持续到达、到达速度快、数据规模巨大等特点,这些都给数据流挖掘领域研究工作带来了新挑战,而其中分类算法更是当前的研究热点. Domingos等人在VFDT中利用Hoeffding不等式很好地解决了在数据流上进行单遍扫描获取高精度决策树的问题. Gama等人对VFDT进行扩展并实现了VFDTc,使系统能够处理连续属性,并在叶节点采用了贝叶斯分类算法使分类精度更高.基于VFDT和VFDTc,设计并实现了一种基于线索化二叉排序树的决策树分类新算法VFDTt,其主要贡献有如下3点:1)第1次设计并实现了数据流上的基于线索化二叉排序树(TBST)的连续属性处理方法.相比VFDT,VFDTt的样本插入时间复杂度由O(n2)降低到O(nlogn).当新样本到达时,VFDTc需要更新O(logn)个属性节点,而VFDTt只需要更新相应的一个节点即可. 2)改进了VFDTc连续属性的最佳划分节点选取的计算方法,使其时间复杂度由O(nlogn)降低到O(n). 3)相比VFDTc,VFDTt只需从更少的备选划分节点中选取最佳节点,备选划分节点数由O(n)降低到O(logn).

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号