首页> 中文学位 >基于Spark平台的分布式检索及推荐系统的研究与实现
【6h】

基于Spark平台的分布式检索及推荐系统的研究与实现

代理获取

目录

声明

摘要

第1童绪论

1.1.1论文研究背景

1.1.2本文工作意义

1.2国内外研究现状

1.3论文工作内容

1.4论文结构安排

第2章相关技术

2.1 HDFS、SPARK和EIASTICSEARCH

2.1.1 HDFS

2.1.2 Spark

2.1.3 ElasticSearch

2.2相关推荐方案

2.2.1相似度

2.2.2相关推荐方案

2.3因子分解机预测模型

2.4本章小结

第3章分布式索引及检索方案

3.1基于分类策略的分布式索引

3.1.1分类策略-树状倒排索引

3.1.2分布式索引方案及复杂度分析

3.2基于切片策略的分布式检索

3.2.1切片策略-哈希及冗余存储

3.2.2分布式检索方案及复杂度分析

3.3本章小结

第4章无评分业务场景下的分布式推荐方案

4.1无评分业务场景和共现模型

4.1.1无评分业务场景

4.1.2共现模型

4.2改进的协同过滤推荐

4.2.1基于点击历史的协同过滤推荐

4.2.2基于用户的协同过滤推荐

4.3因子分解机模型预测及推荐示例

4.4本章小结

第5章测试结果与分析

5.1测试环境

5.2相关测试及分析

5.2.1索引测试及分析

5.2.2检索方案的测试及分析

5.2.3推荐方案的测试及分析

5.3本章小结

第6章总结与展望

6.1工作总结

6.2工作展望

参考文献

致谢

展开▼

摘要

随着互联网技术的飞速发展,进入了信息爆炸的时代。近年来,关于信息过滤的研究越受到人们的关注。一方面用户需要通过条件和关键字主动进行检索信息,另一方面推荐算法向用户推送感兴趣的信息。检索是用户主动对信息进行过滤的一种方式。个性化推荐算法将用户和信息进行二维关联,利用某种方式发掘用户感兴趣的信息,其本质也是信息过滤,是对信息检索的一种有力补充。 本文从课题的研究背景与意义出发,介绍了相关领域的研究现状,阐述了目前工业界主流使用的检索技术、协同过滤推荐技术和分布式集群等相关技术。以此为基础,分析单机全文检索技术以及基于Map/Reduce编程模型检索技术的不足,为了解决分布式索引刨建效率和检索负载均衡存在的问题,提出了基于树状的倒排索引方案和基于哈希冗余切片策略的分布式检索方案。进而通过分析用户的历史检索行为属于无评分业务场景,提出了一种基于共现模型的协同过滤推荐方案,并利用因子分解机模型对推荐序列进行预测,从而优化推荐结果。 在测试阶段,相比传统Lucene单机检索和基于Map/Reduce实现的分布式检索,提出的方案在多项式时间内完成了对富文本大数据全文索引的创建,索引创建速度大幅提升。就元素据检索而言,检索时间与检索文档数成线性关系。就全文检索而言,检索时间与检索文档成近似线性关系。就高并发查询而言,通过索引备份机制,采取分而治之的策略,近乎实现负载均衡。对比业界传统的协同过滤推荐,提出的方案提高了曝光点击转化率。

著录项

  • 作者

    胡阳;

  • 作者单位

    东北大学;

  • 授予单位 东北大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 陈东明,柴正;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 汽车工程 ;
  • 关键词

    Spark; 平台; 分布式检索;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号