基于Spark的频繁浏览模式挖掘系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

浏览行为的频繁模式描述用户浏览模式和偏好，其中集合频繁模式反映访问页面间的相关性，序列频繁模式描述用户频繁访问路径，正则频繁模式刻画用户访问行为的语义信息。浏览行为的频繁模式能够用于浏览行为预测、网站结构的优化以及浏览页面的推荐，具有提高用户的体验、增加系统的粘性的作用。本文主要研究可水平扩展的频繁模式挖掘算法，解决海量的日志数据的分析任务，并重点解决在分布式环境下基于模式增长算法的负载均衡和基于连接-剪枝策略算法的候选序列生成的问题，具体工作如下： 1.集合频繁模式分布式挖掘：研究基于模式增长的集合频繁模式挖掘算法(FP-Growth)的分布式设计，建立条件模式树与挖掘负载之间关系，并运用它们之间关系设计分布策略，从而实现原始数据集均衡切分，避免建立全局FP-Tree，解决分布式挖掘算法过程中单点存储瓶颈问题，并设计一种基于Spark的近似负载均衡的FP-Growth分布式算法，从而实现负载均衡的集合频繁模式挖掘。 2.序列频繁模式分布式挖掘：研究基于连接-剪枝策略的序列频繁模式挖掘算法AprioriAll的分布式设计，通过RDD的持久化缓存算子实现中间结果重用，减少磁盘I/O消耗。同时，改进AprioriAll算法频繁2序列的生成方式，使用PairWise方式代替频繁1序列自连接生成候选2序列的过程，解决了大规模的频繁1序列生成频繁2序列所造成的高额时空开销的问题，从而实现一种基于Spark平台下的可扩展的AprioriAll算法(Spark-AprioriAll)。 3.正则频繁模式分布式挖掘：通过父-子类层次语义体系标注网页的类，将浏览网页序列转化为网页类型序列，从而定义正则频繁模式，描述用户访问行为的语义信息，并通过Spark-AprioriAll算法实现。 4.系统原型设计和算法性能测试：首先，针对基于Spark的频繁浏览模式挖掘系统进行系统原型设计。然后，实施对照实验，验证本文提出的频繁浏览模式分布式挖掘算法的准确性、速度性能和扩展性。

著录项

作者
王森;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机技术
授予学位硕士
导师姓名崇志宏,汪洋;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类汽车工程;
关键词
Spark; 浏览模式; 挖掘系统;

相似文献

中文文献
外文文献
专利

1. 一种基于Spark的高效增量频繁模式挖掘算法 [J] . 荀亚玲 ,孙娇娇 ,毕慧敏 . 太原科技大学学报 . 2020,第006期
2. 基于Spark的并行频繁模式挖掘算法 [J] . 曹博 ,倪建成 ,李淋淋 . 计算机工程与应用 . 2016,第020期
3. 基于频繁链表-存取树的Web用户浏览模式挖掘算法 [J] . 邱奕飞 ,马力 . 电子设计工程 . 2014,第023期
4. 基于不同客户群的Web频繁浏览模式挖掘算法 [J] . 陈旭辉 ,陆军 ,王志 . 兰州理工大学学报 . 2007,第006期
5. 基于Hadoop和Spark的雷达数据序列模式挖掘系统 [J] . 罗祖兵 ,杨晓敏 ,严斌宇 . 计算机应用 . 2019,第0z2期
6. 一种基于中医方剂数据库的Top-Rank-k频繁模式挖掘算法 [C] . . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 基于SPARK的海量数据频繁模式挖掘算法研究 [A] . 赵焱德 . 2016

基于Spark的频繁浏览模式挖掘系统的设计与实现

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅