首页> 中文学位 >基于Spark平台大数据推荐系统的研究
【6h】

基于Spark平台大数据推荐系统的研究

代理获取

目录

声明

插图索引

表格索引

符号对照表

缩略语对照表

第一章 绪论

1.1研究背景

1.2研究目的

1.3研究现状

1.4研究内容及论文结构

第二章 理论技术介绍

2.1 Spark分布式计算框架

2.2关联规则介绍

2.3推荐系统综述

2.4本章小结

第三章 基于Spark平台Apriori算法研究与实现

3.1 Apriori算法原理与分析

3.2 Apriori算法基于Spark平台实现

3.3本章小结

第四章 基于Spark平台推荐算法研究与实现

4.1数据探索

4.2基于用户协同过滤算法Spark实现

4.3基于物品协同过滤算法Spark实现

4.4基于ALS模型推荐算法Spark实现

4.5本章小结

第五章 实验设计与分析

5.1实验环境

5.2 Spark平台Apriori算法实验与分析

5.3 Spark平台推荐算法实验与分析

第六章 总结与展望

6.1工作总结

6.2未来工作展望

参考文献

致谢

作者简介

展开▼

摘要

随着互联网技术的快速发展,大数据时代己经到来。面对互联网庞大而丰富的数据资源,如何从中挖掘出数据蕴含的价值是具有重大意义的课题。推荐系统是一种从海量用户行为数据中挖掘有用信息并提供给用户的应用,推荐系统中推荐算法的实现是数据挖掘的重要部分。但随着数据量呈指数性增长,基于传统单机环境的推荐算法需要耗费大量时间,不能满足当今的商业需求,将单机算法并行化能有效解决这一问题。Spark是一个基于内存的分布式计算框架,特别擅长迭代式的机器学习运算,把需要迭代运算的推荐算法在Spark平台上并行化实现,将带来远超单机平台的效率和扩展性。
  本文基于Spark平台对大数据推荐算法相关技术进行研究,主要包括以下三个方面:
  (1)在Spark平台上实现关联规则推荐Apriori算法,并对算法进行优化。Apriori算法需要多次迭代,会产生大量中间结果,Spark基于内存的运算模式及擅长迭代计算的特性能有效提高算法执行效率。首先详细介绍算法实现细节,然后通过Broadcast及持久化存储对Apriori算法进行优化。Broadcast能加速集群对数据块的读取,持久化存储能将中间结果存入内存减少重复计算。实验结果表明,在保证正确性的前提下,本文基于Spark平台的优化Apriori算法能有效减少算法执行时间,且具有良好的并行性,适应于大数据推荐场景。
  (2)在 Spark平台上通过分布式矩阵实现基于用户协同过滤算法及基于物品协同过滤算法,使传统推荐算法适用于海量数据。首先对基于用户及基于物品的协同过滤算法做了详细的分析与设计,然后给出数据预处理、相似度计算、寻找相似用户、预测评分四个过程的具体实现细节。本文通过分布式矩阵存储用户物品评分矩阵,使数据能分块或分行存储,以及能够分布式计算。在实验中,将算法应用在MovieLens数据集上,计算推荐系统性能指标。实验结果表明,本文实现的基于用户及基于物品协同过滤算法能良好模拟用户评分,且具有良好的并行性。
  (3)在Spark平台上实现基于ALS模型推荐算法。本文详细介绍ALS交替过程及基于ALS模型推荐算法的实现细节。在实验中,将算法应用在MovieLens数据集上,训练模型得到RMSE最小模型。实验结果表明,本文实现的基于ALS模型推荐算法能良好模拟用户评分,且能提高预测准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号