首页> 中文学位 >基于Spark的频繁浏览模式挖掘系统的设计与实现
【6h】

基于Spark的频繁浏览模式挖掘系统的设计与实现

代理获取

目录

第一个书签之前

摘要

Abstract

第一章 绪论

1.1研究背景

1.2研究现状

1.2.1频繁模式挖掘算法的研究现状

1.2.2分布式环境下频繁模式挖掘算法研究现状

1.3研究目标与内容

1.4论文组织结构

第二章 相关技术与研究

2.1 Web日志挖掘

2.1.1 Web挖掘分类

2.1.2 Web使用挖掘

2.2分布式平台相关技术基础

2.2.1 Hadoop分布式计算平台

2.3.2 Spark分布式计算平台

2.3.3 Hadoop与Spark的关系和特性

2.3 本章小结

第三章 浏览行为的集合频繁模式分布式挖掘

3.1 引言

3.2 浏览行为的集合频繁模式挖掘的挑战

3.3 负载均衡的可扩展FP-Growth分布式算法

3.3.1 负载量估计和均衡分组

3.3.2 基于负载均衡分组的会话序列数据库切分

3.4 基于Spark的FP-Growth负载均衡分布式算法的实现

3.5 本章小结

第四章 浏览行为的序列频繁模式分布式挖掘

4.1 引言

4.2 浏览行为的序列频繁模式挖掘的挑战

4.3 AprioriAll算法的候选序列的生成方式

4.3.1 基于频繁k序列自连接的候选序列生成方式

4.3.2 基于PairWise的候选序列生成方式

4.3.3 两种候选序列生成方式的时空效率对比分析

4.4可扩展的AprioriAll分布式算法

4.4.1 AprioriAll分布式算法分析

4.4.2 基于Spark的可扩展AprioriAll分布式算法

4.5浏览行为的正则频繁模式挖掘分布式挖掘

4.6 本章小结

第五章 系统原型设计与实验分析

5.1引言

5.2系统需求分析

5.3系统设计

5.3.1系统功能设计

5.3.2日志数据预处理

5.4系统性能测试

5.4.1实验测试方法

5.4.2算法准确性测试

5.4.3算法速度性能测试

5.4.4算法扩展性测试

5.5本章小结

第六章 总结和展望

致谢

作者简介

参考文献

展开▼

摘要

浏览行为的频繁模式描述用户浏览模式和偏好,其中集合频繁模式反映访问页面间的相关性,序列频繁模式描述用户频繁访问路径,正则频繁模式刻画用户访问行为的语义信息。浏览行为的频繁模式能够用于浏览行为预测、网站结构的优化以及浏览页面的推荐,具有提高用户的体验、增加系统的粘性的作用。本文主要研究可水平扩展的频繁模式挖掘算法,解决海量的日志数据的分析任务,并重点解决在分布式环境下基于模式增长算法的负载均衡和基于连接-剪枝策略算法的候选序列生成的问题,具体工作如下: 1.集合频繁模式分布式挖掘:研究基于模式增长的集合频繁模式挖掘算法(FP-Growth)的分布式设计,建立条件模式树与挖掘负载之间关系,并运用它们之间关系设计分布策略,从而实现原始数据集均衡切分,避免建立全局FP-Tree,解决分布式挖掘算法过程中单点存储瓶颈问题,并设计一种基于Spark的近似负载均衡的FP-Growth分布式算法,从而实现负载均衡的集合频繁模式挖掘。 2.序列频繁模式分布式挖掘:研究基于连接-剪枝策略的序列频繁模式挖掘算法AprioriAll的分布式设计,通过RDD的持久化缓存算子实现中间结果重用,减少磁盘I/O消耗。同时,改进AprioriAll算法频繁2序列的生成方式,使用PairWise方式代替频繁1序列自连接生成候选2序列的过程,解决了大规模的频繁1序列生成频繁2序列所造成的高额时空开销的问题,从而实现一种基于Spark平台下的可扩展的AprioriAll算法(Spark-AprioriAll)。 3.正则频繁模式分布式挖掘:通过父-子类层次语义体系标注网页的类,将浏览网页序列转化为网页类型序列,从而定义正则频繁模式,描述用户访问行为的语义信息,并通过Spark-AprioriAll算法实现。 4.系统原型设计和算法性能测试:首先,针对基于Spark的频繁浏览模式挖掘系统进行系统原型设计。然后,实施对照实验,验证本文提出的频繁浏览模式分布式挖掘算法的准确性、速度性能和扩展性。

著录项

  • 作者

    王森;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 崇志宏,汪洋;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 汽车工程;
  • 关键词

    Spark; 浏览模式; 挖掘系统;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号