首页> 中文学位 >数据流分类中概念漂移及噪声处理研究
【6h】

数据流分类中概念漂移及噪声处理研究

代理获取

摘要

随着计算机网络和信息技术的快速发展,股票交易市场、气象监控、网络安全、电子商务等众多应用领域都产生了大量的数据,其中这些数据以流的形式存在,通常称之为数据流。这些数据中蕴含着大量的有价值的知识亟待挖掘,作为数据挖掘的重要分支,分类具有重要的应用价值,因此数据流分类技术已成为数据挖掘的热点之一。由于数据流的快速性、连续性和不可重复性三个特点,使之传统的数据挖掘算法难以有效地对其数据进行处理。而且,数据流中数据隐含的目标概念可能会随着时间或者环境的变化而改变,即概念漂移。另一方面,在现实环境中噪声数据不可避免,噪声数据的存在同样影响了数据流分类模型的分类精度。因此如何有效地检测概念漂移和处理噪声数据给数据流分类挖掘技术带来了极大的挑战。   本文针对数据流分类挖掘中概念漂移和噪声处理的问题展开了下面工作的研究:   (1)概述并分析了已有的数据流分类挖掘算法在处理概念漂移和噪声数据问题上的优缺点。   (2)针对数据流分类中概念漂移的处理存在的问题,基于LDA(1inear discriminantanalysis)思想,提出了一种数据流分类算法IUDE(Incremental Updated Discriminanteigenspace)。该算法通过分析数据的特征空间,建立数据特征空间的模型,使用最近邻分类技术对新的数据进行分类。算法中使用增量的LDA方法来更新数据的特征空间来处理渐进式的概念漂移,同时使用错误率方差MSE(Mean Square Error)模型来处理突变式的概念漂移。实验表明,该算法可以很好解决渐进式和突变式两种类型概念漂移同时发生的数据流分类精度不高的问题。   (3)当隐含概念漂移的数据流中存在噪声数据时,现有的数据流分类算法的分类精度明显下降。针对该问题,提出了一种处理数据流中噪声数据的方法FDBSCAN(Fast-DBSCAN),它是DBSCAN(Density Based Spatial Clustering of Applicationwith Noise)聚类算法的改进算法,并基于此设计了新的数据流分类算法NDSC(NoiseData Streams Classification)。同典型的数据流分类算法相比,实验结果表明了该方法对噪声数据处理的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号