基于SPARK的海量数据频繁模式挖掘算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

频繁模式挖掘的目的是从数据中找出出现频率较高的内容，它是数据挖掘领域众多研究方向中最重要的其中一个。按照数据集的不同，频繁模式分为频繁项集和频繁子序列。由于挖掘频繁模式是一个很消耗计算资源的过程，随着数据量的增加，人们必须借助于分布式的计算框架来保证处理的效率。本文第一部分专注于挖掘事务数据集上的频繁项集，研究基于分布式计算框架Spark的频繁项集挖掘算法。本文首先设计实现了与经典频繁项集挖掘算法Apriori和FP-Growth相对应的基于Spark的分布式版本，然后又提出了一个基于Spark的具有FP-Growth和Apriori两个算法特点的两阶段频繁项集挖掘算法。通过实验我们发现了每个算法的优缺点，并找到不同算法的适用范围。这些算法能够充分应用集群的计算资源，快速解决大规模数据集上挖掘频繁项集的需求。除此之外，这一部分还介绍了如何使用挖掘频繁项集的思路在Spark上挖掘序列数据集上的频繁模式。
　　除了研究在Spark上挖掘频繁模式的算法，为了能够在数值型的时间序列数据集上挖掘频繁模式，本文第二部分的主要内容是时间序列的压缩。时间序列的压缩不仅能够有效减少数据量，还能够减少序列里的噪音。噪音的减少能够凸显出时间序列的趋势，从而有利于挖掘出有意义的频繁模式。本文从感知重要点的概念出发，通过对以往工作的扩展，设计并实现了两种基于感知重要点的时间序列压缩算法,基于全局感知重要点的压缩算法和基于局部感知重要点的压缩算法。这两种算法适用于不同类型的时间序列，并且通过实验对比了它们的运行效率和压缩的失真度。可视化是运用时间序列时一个很重要的需求，基于感知重要点的压缩算法能够很好的保留序列的趋势，具有非常好的可视化效果。

著录项

作者
赵焱德;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名张炜;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
海量数据; 信息挖掘; 频繁模式; 时间序列; 压缩算法;

相似文献

中文文献
外文文献
专利

1. 一种基于Spark的高效增量频繁模式挖掘算法 [J] . 荀亚玲 ,孙娇娇 ,毕慧敏 . 太原科技大学学报 . 2020,第006期
2. 基于Spark的并行频繁模式挖掘算法 [J] . 曹博 ,倪建成 ,李淋淋 . 计算机工程与应用 . 2016,第020期
3. 基于位编码链表的快速频繁模式挖掘算法研究 [J] . 顾军华 ,苏鸣 ,张亚娟 . 计算机工程与应用 . 2020,第019期
4. 基于数据流的大图中频繁模式挖掘算法研究 [J] . 汤小春 ,樊雪枫 ,周佳文 . 计算机学报 . 2020,第007期
5. 基于RFID的电动车运行轨迹频繁模式挖掘算法研究 [J] . 鄢团军 ,吕军 ,齐国强 . 新电脑 . 2018,第003期
6. 高效隐私保护频繁模式挖掘算法研究 [C] . CHENG Shu-tong ,程舒通 ,XU Cong-fu . 2014湖北省计算机学会学术年会 . 2014
7. 海量数据下基于层级树的频繁序列模式挖掘 [A] . 张皓 . 2018

基于SPARK的海量数据频繁模式挖掘算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅