首页> 中文学位 >数据流上的变化的挖掘算法研究
【6h】

数据流上的变化的挖掘算法研究

代理获取

目录

文摘

英文文摘

前言

第一章数据流管理和挖掘技术概述

第二章一种挖掘和监测数据流上的变化的方法

第三章NBCC算法

第四章基于支持度和新颖度连续挖掘数据流上的变化

第五章数据流挖掘的降载策略研究

结论

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

有关数据流上的变化的挖掘算法研究是近期数据流研究领域的核心内容之一。 该文挖掘算法研究的第一部分:已有的研究工作大多数是针对模式、分类等的变化进行探索,其方法以及得到的结果的概念层次都比较高。该文提出了一种在相对较低的概念层次上挖掘“变化”的方法,对连续到达的数据流进行水库抽样以构建当前窗口,并利用基于熵的方法对当前窗口中元组的属性进行归约,参照窗口中的元组由用户或专家指定和更新,然后利用城区距离分别计算当前窗口中每个元组与参照窗口中特定元组之间的相异度,并根据获得的结果描述变化,最后,利用多个区间监测“变化”的变化趋势。经分析知该方法具有灵敏性和实时性,且挖掘的结果以及变化的趋势的描述形式比较简明。 该文挖掘算法研究的的第二部分:提出了NBCC算法,首先利用精确抽样方法构建数据流的概要数据结构,然后借鉴经典朴素贝叶斯分类方法的思想,将数据流训练样本集分成Ci类,i=1,2,...,m,对数据流测试样本集设定一个阈值α,当P(X|Ci)*P(Ci)<α时,即当测试样本X属于任何已知类别Ci的概率都小于设定的α时,表明数据流上有变化发生,且保留该变化,记为新类Cm+1。重复使用该方法挖掘数据流上的变化。 该文挖掘算法研究的的第三部分:研究的重点是基于频繁项集的支持度和关联规则的新颖度连续挖掘数据流上的变化。主要贡献是:(1)在利用抽样技术所获得的以元组为单位的数据流上进行概要数据结构的构建,该方法可以进一步减小问题的求解规模;(2)通过计算和比较数据流上的当前窗口与参照窗口中频繁模式支持度以及关联规则新颖度来度量和连续挖掘数据流上的变化。分析表明,提出的数据流连续挖掘方法是合理的、可行的。 该文挖掘方法研究的的第四部分:初步研究了最小描述长度原理在数据流问题上的应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号