第一个书签之前
摘要
Abstract
第一章 绪论
1.1研究背景
1.2研究现状
1.2.1频繁模式挖掘算法的研究现状
1.2.2分布式环境下频繁模式挖掘算法研究现状
1.3研究目标与内容
1.4论文组织结构
第二章 相关技术与研究
2.1 Web日志挖掘
2.1.1 Web挖掘分类
2.1.2 Web使用挖掘
2.2分布式平台相关技术基础
2.2.1 Hadoop分布式计算平台
2.3.2 Spark分布式计算平台
2.3.3 Hadoop与Spark的关系和特性
2.3 本章小结
第三章 浏览行为的集合频繁模式分布式挖掘
3.1 引言
3.2 浏览行为的集合频繁模式挖掘的挑战
3.3 负载均衡的可扩展FP-Growth分布式算法
3.3.1 负载量估计和均衡分组
3.3.2 基于负载均衡分组的会话序列数据库切分
3.4 基于Spark的FP-Growth负载均衡分布式算法的实现
3.5 本章小结
第四章 浏览行为的序列频繁模式分布式挖掘
4.1 引言
4.2 浏览行为的序列频繁模式挖掘的挑战
4.3 AprioriAll算法的候选序列的生成方式
4.3.1 基于频繁k序列自连接的候选序列生成方式
4.3.2 基于PairWise的候选序列生成方式
4.3.3 两种候选序列生成方式的时空效率对比分析
4.4可扩展的AprioriAll分布式算法
4.4.1 AprioriAll分布式算法分析
4.4.2 基于Spark的可扩展AprioriAll分布式算法
4.5浏览行为的正则频繁模式挖掘分布式挖掘
4.6 本章小结
第五章 系统原型设计与实验分析
5.1引言
5.2系统需求分析
5.3系统设计
5.3.1系统功能设计
5.3.2日志数据预处理
5.4系统性能测试
5.4.1实验测试方法
5.4.2算法准确性测试
5.4.3算法速度性能测试
5.4.4算法扩展性测试
5.5本章小结
第六章 总结和展望
致谢
作者简介
参考文献