首页> 中文学位 >Spark下基于多特征混合的协同过滤算法推荐系统的设计与实现
【6h】

Spark下基于多特征混合的协同过滤算法推荐系统的设计与实现

代理获取

目录

第一个书签之前

展开▼

摘要

在互联网技术和大数据技术迅速发展的背景下,推荐系统已经成为人们获取信息过程中一种重要的信息过滤机制。协同过滤推荐算法(CollaborativeFiltering,CF)是推荐系统领域运用最广泛最成功的技术之一,但是在大数据场景下存在用户评分数据稀疏、扩展性差的问题,造成推荐精度低及实时性差等缺陷。为此,本文以协同过滤思想为基础,通过深入挖掘用户行为和项目中的多种特征信息,提出两种推荐方案,并基于Spark平台设计实现推荐系统。主要的研究工作包括下几方面: (1)提出一种融合用户信任度的协同过滤算法。该方法基于社交网络中信任模型相关理论引入用户活跃度、可靠度等特征构建用户信任模型,采用自适应权重的方式综合用户间信任关系和相似关系作为推荐的权重来寻找最近邻居集,缓解数据稀疏性问题,并在此基础上设计一种基于树型结构的用户行为特征聚类方案,提升查询效率,从而降低在线运算数据的规模,改善算法扩展性。 (2)提出一种基于项目兴趣点特征的协同过滤算法。该方法将项目划分至不同的兴趣点下,引入项目流行度、评分信息等特征动态挖掘并构建用户、兴趣点和项目三者之间的关系,该方法的主要特征是基于用户间对兴趣点的偏好特征而不是用户间共同评分的项目来寻找最近邻居集,可有效缓解数据稀疏性的问题,并且结合隐语义模型给出的预测评分,综合考虑共性和个性两方面对项目的评价给出最终推荐结果,提高推荐精度。 (3)在上述工作的基础上,基于分布式并行框架Spark设计实现一个完整的、灵活可配置的、适合在大数据场景下使用的推荐系统。该系统中主要包含了五个模块,分别是数据仓库模块、离线计算模块、推荐引擎模块、配置解析模块和配置模块,各个模块内高内聚,模块间低耦合,保证系统的可扩展性和可维护性,便于进一步开发。 最后,实验论证本文设计实现的推荐系统在推荐准确度和扩展性方面都取得了良好的效果。在MovieLens数据集上的实验结果表明,相较于传统协同过滤算法,上述(1)和(2)中提出的两种协同过滤算法的准确率分别提高了18.7%和9.5%,召回率分别提高了11.3%和6.2%。计算性能方面,(1)和(2)两组算法的平均耗时分别为1.78秒和0.828秒,远低于传统协同过滤算法平均所需的9.52秒,并且通过增加计算节点的方式可以获得更高的加速比,进一步提升计算效率,有效的缓解了扩展性差的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号