首页> 中文学位 >协同过滤中数据稀疏问题与推荐实时性的研究
【6h】

协同过滤中数据稀疏问题与推荐实时性的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 引言

1.1 研究背景及意义

1.2 研究现状

1.3 本文的研究内容

1.4 本文的组织结构

第二章 相关理论及技术综述

2.1 推荐系统

2.2 聚类

2.3 Mahout

第三章 协同过滤数据稀疏问题的研究

3.1 数据稀疏问题及解决方法的选择

3.2 基于相似度加权融合的数据填充(DPFS)

3.3 实验过程及结果

3.4 本章小结

第四章 协同过滤推荐实时性问题的研究

4.1 推荐实时性问题及解决方法的选择

4.2 基于聚类簇代表点的协同过滤(CFRC)

4.3 实验过程

4.4 实验结果与讨论

4.5 基于模糊聚类簇代表点的协同过滤(CFRFC)

4.6 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

在学期间的研究成果

致谢

展开▼

摘要

数据爆炸的现今使得推荐系统技术变得越来越热门,越来越重要,几乎所有的电子商务网站以及部分门户网站,甚至是搜索引擎都有推荐系统相关技术的身影。总结其中的原因,一是在唾手可得的海量信息里,人们所期望获得的却是其中极小的一部分;二是人们期望获得的信息里有一些潜在的偏好,利用这些偏好可以做更多的事情。推荐系统的发展非常迅速,它分为协同过滤,基于知识的推荐,混合推荐等等,而各种类别的推荐算法下又有很多成熟的技术。协同过滤一直是这其中的研究最多的技术,同时也是在电子商务有着广泛应用的技术之一。典型的协同过滤,通过维护一个评分者—物品评分矩阵,计算相似度确定近邻来产生推荐。
  不幸的是,这种算法的性能随着用户和商品的增加会产生很多问题:高维度,高稀疏度。此二者对于该技术在电子商务网站的应用产生巨大挑战。本文着眼于此,提出或改进了若干方法,以解决数据稀疏问题和推荐实时性。
  对于数据稀疏问题,主要对外部信息做适当提取,计算其Jaccard相似度产生预测值,并将预测值有节制地填充至测试集,以此来提高传统推荐技术的准确性。具体的,评分外的信息,如:用户的年龄、职业,物品的类别等,通过Jaccard相似度做初步调整,再与经典协同过滤得到的最近邻相似性进行加权,通过多组具体的实验,确定了较为理想的权重系数。在这样权重下,我们得到的结果相对基准实验有了一些提高。
  对于实时性的解决,我们引入聚类中的簇代表点技术(CURE,Clustering Using Representatives),主要是将搜寻所有用户空间问题转变为搜索簇代表点的集合中的近邻问题,从而减少了近邻搜寻空间的规模,以提高实时性。解决这一问题的关键,亦或是本文的核心工作,在于簇代表点的计算上。通过对前人所提算法的研究,我们进行了适当的修改,通过平行实验对比,我们修改的算法得到的最终结果相对较好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号