基于Spark平台大数据推荐系统的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的快速发展，大数据时代己经到来。面对互联网庞大而丰富的数据资源，如何从中挖掘出数据蕴含的价值是具有重大意义的课题。推荐系统是一种从海量用户行为数据中挖掘有用信息并提供给用户的应用，推荐系统中推荐算法的实现是数据挖掘的重要部分。但随着数据量呈指数性增长，基于传统单机环境的推荐算法需要耗费大量时间，不能满足当今的商业需求，将单机算法并行化能有效解决这一问题。Spark是一个基于内存的分布式计算框架，特别擅长迭代式的机器学习运算，把需要迭代运算的推荐算法在Spark平台上并行化实现，将带来远超单机平台的效率和扩展性。
　　本文基于Spark平台对大数据推荐算法相关技术进行研究，主要包括以下三个方面：
　　（1）在Spark平台上实现关联规则推荐Apriori算法，并对算法进行优化。Apriori算法需要多次迭代，会产生大量中间结果，Spark基于内存的运算模式及擅长迭代计算的特性能有效提高算法执行效率。首先详细介绍算法实现细节，然后通过Broadcast及持久化存储对Apriori算法进行优化。Broadcast能加速集群对数据块的读取，持久化存储能将中间结果存入内存减少重复计算。实验结果表明，在保证正确性的前提下，本文基于Spark平台的优化Apriori算法能有效减少算法执行时间，且具有良好的并行性，适应于大数据推荐场景。
　　（2）在 Spark平台上通过分布式矩阵实现基于用户协同过滤算法及基于物品协同过滤算法，使传统推荐算法适用于海量数据。首先对基于用户及基于物品的协同过滤算法做了详细的分析与设计，然后给出数据预处理、相似度计算、寻找相似用户、预测评分四个过程的具体实现细节。本文通过分布式矩阵存储用户物品评分矩阵，使数据能分块或分行存储，以及能够分布式计算。在实验中，将算法应用在MovieLens数据集上，计算推荐系统性能指标。实验结果表明，本文实现的基于用户及基于物品协同过滤算法能良好模拟用户评分，且具有良好的并行性。
　　（3）在Spark平台上实现基于ALS模型推荐算法。本文详细介绍ALS交替过程及基于ALS模型推荐算法的实现细节。在实验中，将算法应用在MovieLens数据集上，训练模型得到RMSE最小模型。实验结果表明，本文实现的基于ALS模型推荐算法能良好模拟用户评分，且能提高预测准确率。

著录项

作者
孟雅格;
展开▼
作者单位

西安电子科技大学;

展开▼
授予单位西安电子科技大学;
学科计算机技术
授予学位硕士
导师姓名王保保,张广州;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
大数据; 推荐系统; 协同过滤; 运算模式; 机器学习; Spark框架;

相似文献

中文文献
外文文献
专利

1. 基于Spark平台的混合推荐系统研究 [J] . 孙成 . 电脑编程技巧与维护 . 2020,第004期
2. 基于Spark大数据处理的电影推荐系统设计与实现 [J] . 朱炳旭 ,叶传奇 ,王君洋 . 无线互联科技 . 2021,第011期
3. 大数据下基于Spark的电商实时推荐系统的设计与实现 [J] . 岑凯伦 ,于红岩 ,杨腾霄 . 现代计算机（专业版） . 2016,第024期
4. 基于Hadoop平台的Spark快数据推荐算法解析——以其在图书推荐系统中的应用为例 [J] . 吴荣 ,段宏涛 . 数字技术与应用 . 2020,第006期
5. 基于Spark平台的电子商务实时推荐系统建设和应用 [J] . 蒋丛萃 ,陈巧灵 . 电子商务 . 2020,第011期
6. 基于Spark可视化大数据挖掘平台 [C] . Li Wen ,李文 ,Cheng Hua-liang . 第15届中国系统仿真技术及其应用学术会议 . 2014
7. 基于Spark大数据处理的协同过滤推荐系统研究与实现 [A] . 王娜 . 2017

基于Spark平台大数据推荐系统的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅