首页> 中文学位 >大数据环境下面向邻域粗糙计算流式并行化研究与应用
【6h】

大数据环境下面向邻域粗糙计算流式并行化研究与应用

代理获取

目录

声明

第一章 绪论

1.1 研究工作的背景与意义

1.2.1 粗糙集研究

1.2.2 邻域粗糙集研究

1.2.3 并行粗糙集研究

1.2.4 流式计算研究

1.3 本文的主要工作

1.4 本论文的结构安排

第二章 相关技术与理论基础

2.1 Pawlak粗糙集理论

2.2.1 邻域粗糙集模型

2.2.2 双论域域粗糙集模型

2.3 偏好挖掘的主要方法

2.4 流式计算平台

2.4.1 Storm

2.4.2 Spark Streaming

2.4.3 Flink

2.5 实时大数据处理架构

2.5.1 Lambda架构

2.5.2 Kappa架构

2.6 本章小结

第三章 推荐系统中模型应用与改进

3.1 算法模型的应用

3.1.1 基于双论域邻域粗糙集模型的偏好挖掘

3.1.2 基础评分线

3.2 分布式参数数服务器流式架构

3.3 本章小结

第四章 基于流平台邻域粗糙计算的评分推荐系统需求分析

4.1 总体需求概述

4.1.1 需求背景

4.1.2 用户描述

4.2 功能需求概述

4.2.1 用户管理模块功能描述

4.2.2 评分推荐功能描述

4.2.3 后台管理模块功能描述

4.2.4 推荐引擎功能描述

4.3 非功能需求概述

(1)低成本

(2)高容错、高可靠

(3)高拓展性

4.4 本章小结

第五章 系统设计与实现

5.1 系统分层

5.2 系统架构图

5.3 业务处理系统设计与实现

5.3.1 用户管理

5.3.2 数据采集

5.4 推荐引擎设计与实现

5.4.1 数据预处理模块

5.4.2 推荐引擎模型训练设计与实现

5.4.3 评分推荐设计与实现

5.5 本章小结

第六章 系统测试

6.1 测试环境

6.1.1 软件环境

6.1.2 硬件环境

6.2系统实验验设计

6.2.1 系统模块测试

6.2.2 系统非功能测试

6.3 本章小结

第七章 总结与展望

7.1 全文总结

7.2 后续工作展望

致谢

参考文献

攻读硕士学位期间取得的成果

展开▼

摘要

随着技术和科技的发展,数据量有了爆炸式的增长,在海量数据中用户无法及时获得自己感兴趣的信息,推荐系统能有效解决这个问题。它根据用户的历史数据,将用户感兴趣的信息推荐给用户。但是传统推荐系统中大部分使用的是离线数据集,它按照一定时间(一般是以天为周期)来对数据进行分析,无法保证推荐系统的实时有效性。现今实时数据流越来越多,这也造成在推荐系统中需要处理的实时数据需求越来越多。同时传统的推荐系统还存在冷启动问题,提供给新用户的推荐内容准确性较低,导致用户的体验较差。 本文将双论域邻域粗糙集理论运用在推荐系统中,提高推荐系统冷启动准确性;通过构建实时推荐系统,实时处理数据,来解决传统推荐系统实时性低的问题。论文具体的研究工作情况如下: (1)论文为了解决推荐系统的冷启动问题,采用双论域邻域粗糙模型进行偏好挖掘,提高推荐准确性。在双论域邻域粗糙集模型中,推荐系统的数据集是由用户和商品两个数据域所构成的,而通过用户对商品的评分这种映射关系来提高冷启动问题的准确性。 (2)论文在面对评分映射具有不同含义的情况,运用矩阵分解模型构建基础评分线,通过基础评分线来表达实际情况中喜欢和不喜欢两种情绪。同时将评分映射关系进一步区分为积极映射和消极映射,并在偏好规则提取过程中过滤掉消极映射,进一步提高推荐系统冷启动的准确性。 (3)论文在面对推荐系统的实时性问题上,设计基于Flink框架的实时推荐系统。为了实时计算基础评分线,在分布式流式架构中提出分布式的自适应权重随机梯度下降算法。该算法在分布式环境中收敛性和收敛速度都有很好的表现。 (4)论文从软件工程角度,分别通过系统需求,系统设计和模块设计等方面对基于流平台邻域粗糙计算评分推荐系统进行详细阐述,并对系统进行包含功能测试、性能测试在内的系统测试,以保障系统的可靠性及稳定性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号