数据流聚类的特点是数据量随时间逐渐增加,聚类模式会发生概念漂移.针对数据流聚类的特征,为数据点及其集合设计时间衰减函数,既减小数据量又反映出概念漂移;同时为数据点集合设计特征变量组合,根据特征变量组合将相近的数据点集合并为聚类,实现识别非球形聚类.基于时间衰减和特征变量,提出一种数据流聚类算法——基于时间衰减和特征变量的数据流聚类(clustering algorithmbased on time attenuation and feature variables,TAFVC)算法,既减轻数据量增长对聚类算法的限制,反映出聚类模式的变化,又实现挖掘任意形状聚类的功能,并具有很好的性能.最后,将该算法应用于合成数据及实际数据,并与经典算法CluStream和HPStream进行比较,结果表明TAFVC在聚类效果和性能方面具有明显的优势.
展开▼