首页> 中国专利> 一种基于用户阅读时间行为的新闻推荐方法及系统

一种基于用户阅读时间行为的新闻推荐方法及系统

摘要

本发明公开了一种基于用户阅读时间行为的新闻推荐方法及系统,通过分析用户阅读新闻时的时间信息,为每一位用户生成个性化阅读速度,然后再结合候选新闻的时效性做出推荐。而对于曝光未阅读过的新闻,该方法采用间谍算法来区分其中用户真正不感兴趣的新闻和有潜在兴趣的新闻,从而保证推荐新闻的质量和多样化。本发明解决个性化新闻推荐系统的时效性、标题误导性和推荐内容单一性问题。将每一位用户的阅读时间行为抽象为个性化阅读速度,并引入注意力机制,衡量用户历史点击新闻对候选新闻的不同影响程度;对于曝光过的用户未点击的新闻,引入间谍算法来区分其中用户真正不感兴趣的新闻和用户有潜在兴趣的新闻,从而保证推荐新闻的质量和多样化。

著录项

  • 公开/公告号CN113065062A

    专利类型发明专利

  • 公开/公告日2021-07-02

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110258628.1

  • 发明设计人 杨宏;

    申请日2021-03-09

  • 分类号G06F16/9535(20190101);G06K9/62(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 11:42:32

说明书

技术领域

本发明涉及个性化新闻推荐技术领域,具体涉及一种基于用户阅读时间进行个性化新闻推荐的推荐系统。

背景技术

随着信息技术和互联网的不断发展,人们逐渐从信息匮乏的时代走入了信息过载时代。在这个时代,无论是信息消费者还是信息生产者都面临着很大的挑战。对于信息消费者来说,如何从大量信息中获取自己有价值的信息是一件十分困难的事情;对于信息生产者,如何使自己的信息脱颖而出,将信息呈现给信息消费者也是一件十分困难的事情。为了解决信息过载问题,催生了搜索引擎和推荐系统两大工具。如今,推荐系统已经逐渐应用在互联网的各个领域,它们主要是通过用户历史行为记录对用户的兴趣爱好进行分析,为用户进行推荐,包括电商推荐、个性化的广告推荐和新闻推荐等,比如在淘宝、今日头条、抖音短视频等产品中就大量应用了推荐系统。

当推荐的数据量和用户大规模增长后,推荐系统的复杂度也会同步增长。目前主流的推荐算法有协同过滤推荐算法、基于内容的推荐算法等。其中协同过滤推荐方法主要分为两种:基于物品的协同过滤和基于用户的协同过滤。基于物品的协同过滤基本思想是基于用户对项目的评价,发现项目之间的相似度,然后根据用户的历史偏好信息将类似的物品推荐给该用户。基于用户的协同过滤基本思想是发现与目标用户兴趣相似的邻居用户,并将邻居用户感兴趣且目标用户没有过行为的项目推荐给目标用户。协同过滤算法不需要预先获得物品或者用户的特征数据,仅依赖用户的历史行为给用户进行推荐,但对新用户来说,会存在由于没有历史数据产生的冷启动问题,这会对推荐效果产生一定的影响。而基于内容的推荐算法,是直接为用户推荐与他感兴趣的内容相似的物品,比如用户喜欢运动,系统就会推荐运动装备等,这个过程不需要用户的历史行为数据,因此可以很好的解决推荐的冷启动问题,但基于内容的推荐需要在预处理过程中对物品的分类进行准确的描述,这部分工作的准确性会对推荐系统的准确性造成很大的影响,并且基于内容的推荐算法经常会给出相似的推荐结果,推荐结果的流行度很低且缺乏新颖性。

本发明主要研究新闻的个性化推荐系统,与其他的推荐系统如电商推荐、广告推荐等不同,新闻推荐有如下几点挑战:(1)新闻对时间高度敏感,具有很强的时效性,更新较快。研究表明,大约85%的新闻文章自首次出现算起,在两天后将不再显示在新闻主页上,因此对于新闻推荐来说,新闻产生的时间是一项很重要的影响因素;(2)新闻的标题高度浓缩,而正文的篇幅较长。统计结果表明,新闻的标题长度一般为5到15个单词,而内容的篇幅一般都在200词以上,通过高度凝练的新闻标题来预测用户对于新闻正文的感兴趣程度在一些情况下是不准确的,尤其是对于一些有误导性标题的新闻,如比较常见的标题党等,用户点击此类新闻后,可能会对其内容感到失望;(3)人们在新闻阅读中只对多个特定的新闻类别感兴趣,以往推荐系统利用用户在新闻客户端的使用数据或浏览痕迹信息进行分析整合,推送满足用户信息需求的新闻,具有一定的效果,但长此以往,用户接受相似的信息会出现信息疲乏,重要的新闻更会因为算法推荐的精准分发而被忽略,用户容易忽略掉潜在感兴趣的其他方面的新闻,因此对于用户未点击过的新闻,需要一定的算法来进行推荐。

发明内容

本发明的目的主要是为了在一定程度上解决现有的新闻推荐系统中存在的上述问题,本发明提供了一种基于用户阅读时间行为的个性化新闻推荐方法。该方法通过分析用户阅读新闻时的时间信息,为每一位用户生成一个“个性化阅读速度”,然后再结合候选新闻的时效性做出推荐。而对于曝光未阅读过的新闻,该方法采用“间谍算法”来区分其中用户真正不感兴趣的新闻和有潜在兴趣的新闻,从而保证推荐新闻的质量和多样化。本发明用于解决个性化新闻推荐系统的时效性、标题误导性和推荐内容单一性等问题。

本发明的创新点是:

(1)将每一位用户的阅读时间行为抽象为“个性化阅读速度”,并以此为依据引入注意力机制,衡量用户历史点击新闻对候选新闻的不同影响程度。

(2)对于曝光过的用户未点击的新闻,引入“间谍算法”来区分其中用户真正不感兴趣的新闻和用户有潜在兴趣的新闻,从而可以保证推荐新闻的质量和多样化。

为实现上述目的,本发明提供了一种基于用户阅读时间行为的新闻推荐方法,

具体步骤为:

(1)从用户的行为日志中提取用户所阅读新闻的各项信息,如新闻标题、阅读时长、新闻发布时间等;

(2)为每一条提取到的新闻,采用卷积神经网络构建该新闻的个性化表示方式;

(3)由于用户对每一条浏览过的新闻感兴趣程度并不相同,通过注意力机制,将不同的新闻赋予不同的权重;

(4)将用户在一段时间范围内阅读过的所有新闻加权后聚合,可以用来表示该用户的兴趣方向,以此作为该用户的特征表示;

(5)对于已曝光但用户没有点击的新闻,采用“间谍算法”查找出用户潜在感兴趣的新闻,和新产生的没有推荐过的新闻一起加入到待推荐的候选新闻中进行处理;

(6)计算候选待推荐新闻与用户特征之间的相似性,对其中相似度较高的新闻进行推荐。

该推荐方法主要通过对用户每篇新闻的阅读时间信息来衡量用户对该新闻的感兴趣程度,主要包括三个方面:第一是新闻的发布时间,由于新闻具有很强的时效性,通常情况下,发布时间越近的新闻越适合推荐给用户;第二是用户阅读某新闻过程所消耗的时间长度,该指标可以较为准确的体现用户对该新闻的感兴趣程度,如果用户是受到标题的诱惑点击了新闻,浏览内容后发现不感兴趣,阅读时间一般会很短,这在一些“标题党”新闻中是很常见的,阅读时间越长,说明新闻推荐的准确性越高,但由于阅读时长同时也会受到新闻篇幅的影响,因此应该采用单位字数的阅读时间来衡量用户的阅读时长,消除新闻篇幅对阅读时长的影响,然而进一步考虑,每位用户的阅读速度也有一定的差异,同样一篇新闻,不同的用户读完所需要的时间也是不相同的,因此本发明提出了一个“个性化阅读速度”的概念,先通过用户的历史阅读行为,计算出该用户读过所有新闻的单位时间阅读字数作为平均阅读速度v,对于特定的某篇新闻,计算其单位时间阅读字数作为阅读速度v

本发明主要解决两个方面的问题,第一方面是通过个性化阅读速度等指标来过滤掉用户由于误点击造成的兴趣嵌入偏差,对于其中阅读速度明显较快,匆匆略过的新闻赋予较低的权重,以此来修正用户的兴趣模型;第二方面是对于推荐系统曝光但用户未点击的新闻,采用间谍算法对其重新划分类别,而不是一律将其划为负样本中,该方法可以增加此类新闻在之后的推荐概率,有利于提高推荐系统的多样性。

附图说明

图1为本发明提供的一种基于用户阅读时间行为的新闻推荐系统的流程示意图。

图2为用户的不同阅读时间行为示意图。

具体实施方式

本发明涉及一种基于用户阅读时间进行个性化新闻推荐的推荐系统。为了更清楚的展示本发明中的技术方案,下面结合附图对本发明中的技术方案进行进一步的详细说明。

如图1所示,该新闻推荐方法包括以下步骤:

在步骤(1)中,从用户的行为日志中提取用户所阅读新闻的各项信息,得到用户i的点击历史。每条日志主要包含时间戳,用户ID,新闻标题等信息,用户的点击历史表示为

在步骤(2)中,将步骤(1)的新闻标题t通过词向量模型转换为嵌入矩阵W,对W的子矩阵W

其中h为卷积核,l为卷积核的大小,f为一个非线性函数,通过使用多个不同大小的卷积核,可以获得多个特征,最后将这些特征串联在一起形成最终的新闻表示向量:

e(t)=[C

在步骤(3)中,由于用户对不同的新闻感兴趣程度不同,需要计算不同新闻占用户喜好的权重,本发明使用注意力机制进行计算。将步骤(2)中的历史新闻表示向量

该指标可以描述用户阅读的历史新闻对于待推荐新闻的影响程度大小。

在步骤(4)中,为表示用户对不同新闻的感兴趣程度,引入个性化阅读速度:

其中,

对于给定用户i的嵌入表示e(i)和候选新闻j的嵌入表示e(t

由于85%的新闻文章自首次出现算起,在两天后将不再显示在新闻主页上,因此对于新闻时效性系数α的取值范围为:

α

在步骤(5)中,对于阅读时长为0,即推荐给用户却没有点击的新闻,采用间谍算法,将用户i点击并仔细浏览过的新闻作为正样本集合P,从正样本集合P中随机选取一部分子集S,将S加入到未点击的新闻集合中一起作为负样本集合N,然后训练一个SVN分类模型,用训练之后的分类器给负样本集合N中的样本打分,打分之后计算间谍集合S的平均得分score,由于集合S是用户点击过的新闻,它可以代表用户的兴趣得分,因此将负样本集合N中得分低于score的样本划分为负样本,得分高于score的样本不划入负样本中,该步骤可以提高推荐系统的多样性。

本发明基于用户阅读新闻时的时间信息特征,首先降低阅读时间太短新闻的推荐权重,过滤掉一些用户误点击的新闻,使得用户偏好模型更加准确;其次通过新闻的发布时间来确定新闻时效性系数的取值,将过时的新闻推荐权重降低,最后对于用户没有点击过的新闻,采用间谍算法来判断用户对其的感兴趣程度,以防止推荐系统将其划分为负样本,在后续的推荐中发生只推荐部分热点的单一化现象,该过程可以提高推荐系统的多样性。

上述实施方式仅为本发明的一个优选实施方式,不能以此来限定本发明的保护范围,本领域的技术人员在本发明的基础上所做出的任何非实质性的变化和替换均属于本发明所要求保护的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号