首页> 中文学位 >协同过滤技术中的数据预处理研究
【6h】

协同过滤技术中的数据预处理研究

代理获取

目录

第一个书签之前

摘 要

Research on Data Preprocessing in Collaborative Fi

1 绪论

1.1 研究背景与意义

1.2 研究现状

1.3 论文研究工作

1.4 论文的组织结构

2 相关工作

2.1 协同过滤的基本原理

2.2.2 基于项目的协同过滤技术

2.3 Slope One算法

2.4 聚类算法

2.4.1 K-Means聚类算法

2.4.2 Fuzzy C-Means聚类算法

2.5 Winnow 算法

2.6 相似度计算方法

2.6.1 余弦相似度

2.6.2 皮尔森相关系数

2.6.3 杰卡德相关系数

2.6.4 欧式距离

2.6.5 其他类型

2.7 推荐系统评价标准

2.7.1 预测准确性

2.7.2 推荐覆盖率(CR)

2.7.3 查准率(Precision)和召回率(Recall)

3 协同过滤技术中的数据预处理算法

3.1 基于模糊聚类和Weighted Slope One算法的数据清洗算法

3.1.1 问题的提出

3.1.2 算法设计

3.1.3 算法流程

3.2 基于Winnow算法的数据填充算法

3.2.1 问题的提出

3.2.2 算法设计

3.2.3 算法流程

4 仿真实验与结果分析

4.1 实验数据

4.2 实验方案

4.3 实验结果与分析

4.4 小结

结 论

参 考 文 献

攻读硕士学位期间发表学术论文情况

致 谢

展开▼

摘要

随着互联网时代的到来,网络上信息的规模急剧扩大,伴随而来的“信息过载”问题也越来越严重。基于信息检索的信息推荐服务,无法满足用户不断提高的信息服务需求。这也催生了个性化推荐系统的产生。个性化推荐系统能够帮助用户从海量、无序的信息中抓取到用户需要的信息,一定程度上缓解了“信息过载”问题。其中协同过滤技术是个性化推荐领域最为成功的技术之一,在互联网各个领域大规模的应用。然而随着数据规模的剧增、用户需求的不断提高,协同过滤技术也暴露了很多问题,例如数据噪声、数据稀疏、冷启动、扩展性等问题,严重影响了信息推荐服务的质量。 数据噪声是本文所要研究的第一个问题。用户在评分时可能会因为一些环境因素影响下意识给出不正当评分或者存在一些恶意刷评分的行为从而导致评分数据存在一些数据噪声。评分数据对协同过滤技术中核心过程之一的计算邻居群体有很大影响,所以如果不消除原始评分数据的评分噪声可能会影响后续信息推荐服务的质量。研究的第二个问题是数据稀疏性问题。由于在偏好数据中往往数据的稀疏程度非常高,偏好信息的缺乏会导致后续计算相似群体的准确度严重降低,而且极端情况下还会导致冷启动问题,进而影响后续信息推荐服务的质量。本文具体工作如下: 针对数据噪声问题,本文将使用基于模糊聚类和Weighted Slope One算法的数据清洗算法,针对传统Slope One算法只考虑了项目流行度差异,而未考虑用户之间相似程度信息与项目评价数量信息。本文算法会先根据用户偏好信息对用户进行模糊聚类,然后结合用户对每个簇的从属度和每个簇内项目之间的流行度偏差值计算最终的项目之间流行度差异,最后通过Weighted Slope One算法计算最终调整后的评分数据。经过实验,基于模糊聚类和Weighted Slope One算法的数据清洗算法显著提高了噪声消除的效果。 针对数据稀疏问题,本文将使用基于Winnow算法的数据填充算法。算法中先结合项目标签信息与评分数据来初始化用户特征矩阵,然后通过Winnow算法优化用户特征矩阵,再判断填充可信度,将满足条件的通过用户特征矩阵进行评分填充。经过实验,经过本文算法填充的评分矩阵在推荐上具有更高的准确度和覆盖率。

著录项

  • 作者

    刘杰;

  • 作者单位

    大连理工大学;

  • 授予单位 大连理工大学;
  • 学科 计算机技术
  • 授予学位 硕士
  • 导师姓名 陈炳才;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 自动化技术及设备;
  • 关键词

    协同过滤技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号