基于矩阵的数据流滑动窗口频繁项集挖掘算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，出现了一种与传统静态数据库不同的新型数据模式——数据流，在电子商务网络交易、股市交易、通话日志分析、传感器网络及计算机网络安全监控等许多领域都存在着广泛的应用。由于数据流具有连续性、无限性、实时性等特点，因而传统的静态数据挖掘技术不能满足处理和分析数据流这种新型数据的要求，因此数据流挖掘技术已成为当前研究的一个热点问题。
　　数据流频繁项集挖掘是关联规则挖掘的基础与核心。首先介绍了课题的研究背景以及国内外的研究现状，阐述了数据流频繁项集挖掘目前存在的一些问题，然后介绍了数据流挖掘相关的基本概念与理论。
　　针对现有的宽度优先频繁项集挖掘算法存在的需要多次连接，产生大量冗余项集等问题，本文提出了一种基于矩阵的数据流滑动窗口频繁项集挖掘算法TMFI。该算法采用事务矩阵来存储数据流中的事务信息，此矩阵即为一个滑动窗口，对滑动窗口中的数据进行更新时，采用直接覆盖的方法，这样能够减少数据的存储和更新时间，并减少窗口滑动的时间。在挖掘频繁项集时，采用二项集矩阵存储二项集的信息，并且没有采用经典的Apriori性质，而是采用了一种利用频繁k-项集扩展(k+1)-项集的思想，这样能够有效的避免冗余项集的产生，提高挖掘的效率。实验结果表明了算法稳定行、快速性、准确性。
　　频繁项集挖掘算法需要用户预先设定阈值，而阈值的设定关系到挖掘结果的好坏，为了避免用户设置不恰当的阈值，本文又提出了基于滑动窗口的top-k频繁项集挖掘算法TKFM。top-k频繁项集的挖掘不需要用户事先定义最小支持度阈值，而是根据用户的需要挖掘最频繁的k个项集，只需要用户指定一个k值即可。TKFM算法用滑动窗口对数据流进行逐条采样，并用事务矩阵存储事务的相关信息，用二项集矩阵存储top-k二项集的信息。利用k-项集扩展为(k+1)-项集的思想及事务矩阵和二项集矩阵的相关信息，来挖掘当前滑动窗口中的频繁项集。之后，把得到的频繁项集存储到数据字典Dictionary中，并且按支持度计数降序排列。在挖掘出新的频繁项集时，加入到Dictionary中，同时更新border-sup的值。最后输出Dictionary中的频繁项集。实验结果表明，该算法在挖掘的过程中避免了冗余项集的产生，在保证正确率的前提下，具有较高的时间效率。

著录项

作者
范桂丹;
展开▼
作者单位

天津工业大学;

展开▼
授予单位天津工业大学;
学科计算机技术
授予学位硕士
导师姓名尹绍宏,孙峰;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
数据流; 滑动窗口; 频繁项集; 挖掘算法; 事务矩阵;

相似文献

中文文献
外文文献
专利

1. 滑动窗口中数据流最大频繁项集挖掘算法研究 [J] . 尹绍宏 ,单坤玉 ,范桂丹 . 计算机工程与应用 . 2015,第022期
2. 基于滑动窗口数据流频繁项集挖掘模型综述 [J] . 王红梅 ,李芬田 ,王泽儒 . 长春工业大学学报（自然科学版） . 2017,第005期
3. 基于加权滑动窗口的数据流频繁项集挖掘算法 [J] . 白川平 ,杨志翀 . 宁夏师范学院学报 . 2017,第006期
4. 基于滑动窗口的不确定性数据流频繁项集挖掘算法 [J] . 刘慧婷 ,周开申 ,赵鹏 . 计算机应用与软件 . 2015,第012期
5. 一种基于滑动窗口的数据流频繁项集挖掘算法 [J] . 寇香霞 ,任永功 ,宋奎勇 . 计算机应用与软件 . 2013,第001期
6. 数据流上基于时间滑动窗口的连接算法研究 [C] . 王伟平 ,李建中 ,张冬冬 . 第二十届全国数据库学术会议 . 2003
7. 滑动窗口中数据流频繁项集挖掘算法研究 [A] . 单坤玉 . 2014

基于矩阵的数据流滑动窗口频繁项集挖掘算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅