首页> 中国专利> 一种海量数字信息的分布式推荐方法

一种海量数字信息的分布式推荐方法

摘要

本发明公开了一种海量数字信息的分布式推荐方法,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果。本发明的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,且海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确。

著录项

  • 公开/公告号CN106547919A

    专利类型发明专利

  • 公开/公告日2017-03-29

    原文格式PDF

  • 申请/专利权人 广东工业大学;东莞华南设计创新院;

    申请/专利号CN201611110429.1

  • 发明设计人 王勇;王瑛;

    申请日2016-12-06

  • 分类号G06F17/30;

  • 代理机构深圳市智圈知识产权代理事务所(普通合伙);

  • 代理人韩绍君

  • 地址 510000 广东省广州市越秀区东风东路729号

  • 入库时间 2023-06-19 01:51:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-24

    授权

    授权

  • 2017-04-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20161206

    实质审查的生效

  • 2017-03-29

    公开

    公开

说明书

技术领域

本发明涉及海量信息处理技术领域,尤其涉及一种海量数字信息的分布式推荐方法。

背景技术

21世纪的科技与信息技术高速发展,尤其随着互联网技术的发展与普及,网络信息资源迅速增长,如今已经进入了一个数字信息爆炸的时代。所谓数字信息是指在互联网中发布的文章、图片,声音、影像等资讯内容。随着Web 2.0取代Web 1.0,Web 2.0已经成为数字信息分享的平台。由于Web 2.0更注重用户的交互作用,用户既是网站内容的浏览者,也是网站内容的制造者,因而在海量的数字信息中,人们要找到确切需要的信息将变得越来越难。获取数字信息最普遍的方式有三种:第一种是常规的网页信息链接,例如门户网站的热门帖子推荐、新闻链接等;第二种是用户通过搜索引擎搜索想要的信息;第三种是通过朋友的介绍,发链接或信息关键词的方式向用户推荐信息。上述三种方式中,搜索引擎是快速找到目标信息的最好途径。在用户对自己需求的信息相对明确的时候,用搜索引擎可以很方便地通过关键字搜索找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求,因此推荐系统便应运而生,与搜索引擎对应,人们也习惯称之为推荐引擎。现有的推荐引擎有一些相关的算法,但现有推荐引擎向用户推荐数字信息的准确度不高,而且在用户历史数据量较大的情况下反应速度较慢。

发明内容

基于背景技术存在的技术问题,本发明提出了一种海量数字信息的分布式推荐方法。

本发明提出的一种海量数字信息的分布式推荐方法,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果;S4:运行并行的Map阶段运算,且Map阶段运算的输入数据源为步骤S3中的Reduce阶段输出结果,进而来构建数字信息之间的相似度矩阵;S5:将步骤S4得到的相似度矩阵按照相关程度,可以将相似度矩阵划分为相似度完全一致的相似度矩阵、相似度较大的相似度矩阵和相似度较小的相似度矩阵;S6:根据步骤S5得到的相似度完全一致的相似度矩阵,直接提取该相似度矩阵中的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较大的相似度矩阵,提取该相似度矩阵中的出现次数最多的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较小的相似度矩阵,首先剔除该相似度矩阵中出现较少的数字信息,然后再从该相似度矩阵中提取出现次数较多的数字信息作为最优的数字信息;S7:根据步骤S6的到的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,最后将所获取的数字信息的详细内容返回给当前用户。

优选地,所述分布式局域网络是通过通过TCP/IP协议进行建立的。

优选地,所述Hadoop包括Map和Reduce两个阶段,所述Map阶段指Hadoop中MapReduce模式中分割数据,所述Reduce阶段指Hadoop中MapReduce模式中合并数据。

优选地,所述当前用户有关系的数字信息是指用户看过的新闻网

站的新闻或者用户购买过的商品的信息。

本发明的有益效果:

1、海量数字信息的分布式推荐方法在现有的协同过滤推荐算法的基础上采用多个计算机进行并行运算,海量数字信息的分布式推荐方法可以更加快速的向用户推荐数字信息的进行推荐;

2、数据存储根据相似度矩阵的相似度对用户行为的数字信息进行分类,并从相似度矩阵中提取最优数字信息,进而把提取的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,使得海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确;

本发明的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,且海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

实施例

本实施例中提出了一种海量数字信息的分布式推荐方法,包括以下步骤:S1:建设对等的分布式局域网络,该分布式局域网络中至少包括20台计算机,两个计算机之间均可以进行相互通讯;S2:在对等分布式局域网络中部署Hadoop集群;S3:收集当前用户有关系的数字信息的集合,该数字信息的集合通过Hadoop的Map和Reduce两个阶段并行统计与当前用户有关系的数字信息,当前用户有关系的数字信息作为Map阶段的信息输入数据源,Reduce阶段的信息输入数据源为Map阶段的输出结果;S4:运行并行的Map阶段运算,且Map阶段运算的输入数据源为步骤S3中的Reduce阶段输出结果,进而来构建数字信息之间的相似度矩阵;S5:将步骤S4得到的相似度矩阵按照相关程度,可以将相似度矩阵划分为相似度完全一致的相似度矩阵、相似度较大的相似度矩阵和相似度较小的相似度矩阵;S6:根据步骤S5得到的相似度完全一致的相似度矩阵,直接提取该相似度矩阵中的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较大的相似度矩阵,提取该相似度矩阵中的出现次数最多的数字信息作为最优的数字信息;或者根据步骤S5得到的相似度较小的相似度矩阵,首先剔除该相似度矩阵中出现较少的数字信息,然后再从该相似度矩阵中提取出现次数较多的数字信息作为最优的数字信息;S7:根据步骤S6的到的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,最后将所获取的数字信息的详细内容返回给当前用户。

本实施例中,分布式局域网络是通过通过TCP/IP协议进行建立的,Hadoop包括Map和Reduce两个阶段,Map阶段指Hadoop中MapReduce模式中分割数据,Reduce阶段指Hadoop中MapReduce模式中合并数据,所述当前用户有关系的数字信息是指用户看过的新闻网站的新闻或者用户购买过的商品的信息,海量数字信息的分布式推荐方法在现有的协同过滤推荐算法的基础上采用多个计算机进行并行运算,海量数字信息的分布式推荐方法可以更加快速的向用户推荐数字信息的进行推荐,数据存储根据相似度矩阵的相似度对用户行为的数字信息进行分类,并从相似度矩阵中提取最优数字信息,进而把提取的最优数字信息组合成数字信息项集合,数字信息项集合进入mongodb数字信息库中获取作为推荐结果的数字信息的详细内容,使得海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确,本发明的分布式推荐方法在海量数字信息的情况下向用户推荐数字信息的速度更快,且海量数字信息的分布式推荐方法向用户推荐的数字信息更加准确。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号