首页> 中文学位 >基于Hadoop多维时态数据挖掘模型的研究与应用
【6h】

基于Hadoop多维时态数据挖掘模型的研究与应用

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1 选题背景与意义

1.2 研究现状

1.3 本文主要研究内容

1.4 论文组织结构

第二章 多维时态数据模型构造

2.1 时间相关的概念与时间特征提取

2.2 时态数据的多维性

2.3 多维时态数据模型研究

2.4 建立多维时态数据SDTE模型

2.5 本章小结

第三章 基于Hadoop技术框架的大规模多维时态数据挖掘模型研究

3.1 基于Hadoop技术框架的研究

3.2 大规模数据挖掘过程研究

3.3基于Hadoop技术框架的大规模多维时态数据挖掘模型总体架构

3.4 大规模多维时态数据管理优化

3.5 MapReduce并行编程模型研究

3.6本章小结

第四章 多维时态关联规则算法的并行化改进

4.1 关联规则挖掘技术

4.2 基于多维时态数据的关联规则算法改进

4.3多维时态关联规则算法的并行化改进

4.4 本章小结

第五章 实验与分析

5.1实验平台的搭建

5.2数据与数据预处理

5.3多维时态关联规则算法改进算法FPCpb-Growth实验

5.4 基于Hadoop多维时态数据挖掘模型的并行FPCpb-Growth算法实验

5.4本章小结

第六章 总结与展望

6.1论文总结

6.2进一步工作展望

参考文献

致谢

攻读学位期间的研究成果

展开▼

摘要

随着信息技术与互联网技术的深入发展,全球数据量呈现出爆炸式增长。大规模数据集不仅具有时间特性,随着社会生活资料和生产资料日益繁杂,还具有明显的多维属性。如何真实的反应出现实世界中事物和事物之间、事物的不同属性之间以及不同事物的不同属性之间的联系,从而挖掘出有效的、新颖的、潜在可用的模式和规则,具有重要的研究意义。
  数据挖掘是从规模庞大的、有噪声的数据中提取出数据内部规律的表现特征的方法和技术。面对海量的多维时态数据,传统的存储系统以及数据挖掘模式已经不能胜任其所面临的在效率、扩展性和成本等方面的挑战。云计算技术,特别是Hadoop平台以其扩展性强、性价比高、容错性好等优势给出了解决大数据挖掘的方案。结合Hadoop云计算平台,实现大规模多维时态数据的挖掘是本论文要进行研究的。
  首先,从时态数据入手,构造出多维时态数据SDTE模型。总结归纳了时间相关的概念,以时间特性为中心,讨论了时态数据的多维性。从现实世界和数据库系统角度出发,结合时态数据的数值型序列、事务型序列以及事件性序列挖掘的研究,提出了并建立了统一规范的多维时态数据SDTE模型。
  其次,结合大规模数据挖掘和Hadoop技术平台,架构出基于Hadoop技术框架的大规模多维时态数据挖掘模型。模型采用分布式文件系统实现超大文件数据的存储和容错,同时使用MapReduce的编程模式进行并行计算。自顶向下分层分为动态交互层、业务应用层、数据挖掘层和分布式平台层。着重对数据挖掘层的数据管理模块和并行化编程模块进行了整合和优化。提出了Hive-HBase集成模型对HDFS进行操作,构建了通用性的并行化编程模型。
  然后,基于模型改进了关联规则FP-Growth算法并进行实验。基于对多维关联规则概念的研究,在FP-Growth算法的基础上对影响算法效率较大的求子条件模式基的算法进行改进,提出了FPCpb算法。并对FPCpb算法进行并行化。
  最后,搭建实验环境进行实验,依据评估标准对数据进行分析,验证了Hadoop多维时态数据挖掘模型的可行性以及FPCpb-Growth算法的高效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号