首页> 中国专利> 一种内容个性化推荐系统的排序优化方法及系统

一种内容个性化推荐系统的排序优化方法及系统

摘要

本发明公开了一种内容个性化推荐系统的排序优化方法及系统,其中方法包括:(一)获取用户点击操作,召回并生成初筛待排序内容列表;(二)根据排序模型对所述初筛待排序内容列表进行打分,生成初始内容‑排序分数关联向量;(三)基于自适应策略,对所述初始内容‑排序分数关联向量进行二次排序,得到最终的排序结果。本方法解决用户‑内容间的粘度准确性问题,并且针对上游的多种召回策略的推送内容列表,进行了自适应采样和聚合,生成了品类更加丰富、个性更加精准的内容推送列表,从而实现了个性精准推荐的内容类别多样性。本发明提高了产品推荐系统的准确率。

著录项

  • 公开/公告号CN112801760A

    专利类型发明专利

  • 公开/公告日2021-05-14

    原文格式PDF

  • 申请/专利权人 南京蓝鲸人网络科技有限公司;

    申请/专利号CN202110338178.7

  • 发明设计人 崔成龙;

    申请日2021-03-30

  • 分类号G06Q30/06(20120101);G06Q10/04(20120101);G06Q10/06(20120101);G06F16/9535(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32204 南京苏高专利商标事务所(普通合伙);

  • 代理人柏尚春

  • 地址 210012 江苏省南京市雨花台区安德门大街57号7幢7层

  • 入库时间 2023-06-19 10:58:46

说明书

技术领域

本发明涉及一种推荐系统排序方法及系统,尤其涉及一种内容个性化推荐系统的排序优化方法及系统。

背景技术

目前,在互联网的内容社区平台产品中,个性化精准推荐系统是产品的技术核心。为提升产品在社区中老用户中的使用体验感,需要推送能得到用户正反馈的内容。而这个目标是由推荐系统中的召回、粗排、精排、重排等关键环节共同协作实现的。

其中,关于内容排序环节,需要起到的作用是,在用户没有显性行为的前提下,给每个用户推送真正感兴趣的内容列表。要做到用户个性化精准推送的效果,需要满足三种业务需求:第一,需要考虑该用户的历史点击行为的特性规律;第二,需要避免标题党内容或者单一品类的推送结果;第三,最重要的是确保推荐内容的多样性,让用户对于内容的推送感受到一种“熟悉又陌生”的新颖体验。

目前的排序方法中,大多数产品大多存在以下问题:1、仅仅考虑到用户行为数据(比如阅读时长、阅读完成率、点赞打赏等);2、用较单一的深度模型方式获取比较粗糙的用户-内容间关联向量;3、由于上游的召回策略过于单一无法在排序环节进行内容多样性的策略修改。

发明内容

发明目的:本发明提出一种用户-内容间粘度准确性高的推荐系统排序优化方法。本发明的另一目的在于提供基于上述排序优化方法的排序优化系统。

技术方案:本发明所述的内容个性化推荐系统的排序优化方法,包括步骤:

(一)获取用户点击操作,召回并生成初筛待排序内容列表;

(二)根据排序模型对所述初筛待排序内容列表进行打分,生成初始内容-排序分数关联向量;

(三)基于自适应策略,对所述初始内容-排序分数关联向量进行二次排序,得到最终的排序结果。

进一步地,所述步骤(一)中,所述初筛待排序内容列表为与用户历史点击数据相关的内容id列表。

进一步地,步骤(二)中,所述排序模型包括双塔模型。

优选地,所述步骤(二)包括:

(21)根据所述初筛待排序内容列表,提取用户特征信息和内容特征信息;

(22)根据不同的排序模型,对所述用户特征信息和内容特征信息合并后的元数据或分别进行评估,选取得分最高的排序模型作为实际排序模型;

(23)在推荐系统离线的训练阶段,所述用户特征信息和内容特征信息分别输入所述实际排序模型,得到维数相同的用户嵌入向量和内容嵌入向量;

(24)对所述用户嵌入向量和内容嵌入向量进行点积计算,将点积值与用户点击的样本标签值进行交叉熵损失的计算,进行后向传播优化实际排序模型的网络参数;

(25)将待排序的用户特征信息和内容特征信息输入优化后的实际排序模型,将模型输出向量的点积结果作为排序分数,得到初始内容-排序分数关联向量。

进一步地,所述用户特征信息包括:用户点击序列的内容特征向量、用户画像指标的内容特征向量、用户点赞序列的内容特征向量。

进一步地,所述内容嵌入向量通过持续调用所述实际排序模型的内容侧的深度网络进行计算,输出嵌入层,更新并保存实际排序模型,供线上预测的新内容序列查询使用。

进一步地,所述内容嵌入向量在线上预测时,通过调用所述实际排序模型的用户侧的深度网络进行计算。

进一步地,所述步骤(三)包括:

(31)获取所述初始内容-排序分数关联向量,并统计所有向量来源,将每个向量归类为对应召回分组;

(32)按照如下公式计算自适应的采样权重:

其中,

(33)按照如下公式生成Top-K推荐内容向量列表,其中第i个召回组的实际推荐内容向量列表个数为:

其中,

其中,m为召回的内容id的总数;

(34)根据召回分组的召回个数

(35)融合业务逻辑对所述Top-K推荐内容向量列表进行二次排序,得到最终的排序结果。

进一步地,所述样本平衡处理策略为:当某一召回分组数量不足

本发明所述的内容个性化推荐系统的排序优化系统包括:

粗筛模块,用于获取用户点击操作,召回并生成初筛待排序内容列表;

第一排序模块,用于排序模型对所述初筛待排序内容列表进行打分,生成初始内容-排序分数关联向量;

第二排序模块,用于基于自适应策略,对所述第一排序模块输出的初始内容-排序分数关联向量进行二次排序,得到最终的排序结果。

有益效果:本发明具有以下优点:

1、通过计算产品列表的每一个内容与用户之间的粘度进行初始化排序,准确实现了面向各个用户的个性化实时推荐;

2、基于召回分组的多样性,进行自适应采样,保证推荐给单一用户的产品来自不同品类,提升了推荐系统的智能化效果;

3、在用户行为数据中添加点赞序列,确保用户行为向量特征的鲁棒性;

4、引入用户画像信息增加特征的丰富性和代表性。

附图说明

图1是本发明的内容个性化推荐系统的排序优化方法流程图;

图2是本发明的内容个性化推荐系统的排序优化系统的第一排序模块框架示意图;

图3是本发明的内容个性化推荐系统的排序优化系统的第二排序模块框架示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

请参见图1,其示出了本发明所述的内容个性化推荐系统的排序优化方法流程图,该方法包括:

(一)获取用户点击操作,上游召回并生成初筛待排序内容列表,具体包括:

每次捕捉到用户点击的单次行为操作,获取召回系统提供的m条内容信息数据,将用户id和获取的所述内容信息数据对应的内容id组合成二元组,记作(用户id,内容id)。

(二)根据排序模型对所述初筛待排序内容列表进行打分,生成初始内容-排序分数关联向量。

根据所述初筛待排序内容列表,提取用户特征信息和内容特征信息;其中,

所述用户特征信息包含三类数据信息:1、用户点击序列的特征向量的预处理数据;2、用户的基础属性,包括性别、年龄、消费水平等多维用户画像指标;3、用户点赞序列的特征向量的预处理数据,处理方式同第1类数据一致。所述预处理数据为平均值或加权平均值。

所述内容特征信息包括基于内容的一级分类、二级分类、内容作者等信息。

如何评估推送内容是否精准,当前的其他推荐系统的特征工程中,通常是通过用户对推荐的内容的点击、点赞、评论、转发、收藏、浏览播放时长等数据来综合衡量用户对该内容的喜欢程度;或者是通过用户打开APP的次数、用户返回APP的时间间隔、用户一次停留时长等来衡量用户对APP的满意程度,这从某种程度上也可以反应用户对推荐内容的满意程度。

因此,结合以上工业界的经验做法,考虑到用户画像的因素。用户点击序列的特征向量包含了用户近期50个内容的点击序列,近期50个内容的点赞序列,以及用户的固定属性,如性别、年龄、消费水平。其中,在获取到近50个用户点击序列的内容特征向量后,需要将50*32维矩阵进行降维处理,经过平均计算后压缩为32维第一组用户向量。近期50个用户点赞序列也采用同样的方法做降维,生成32维第二组用户向量。用户的基础特征包括性别、年龄、消费水平等多维用户画像指标,采用独热编码方式处理离散特征,生成第三组用户向量。将三组用户向量组合,就可以作为用户侧的深度神经网络的拼接向量输入。同理,内容特征信息包括基于内容的一级分类和二级分类信息,组合成向量后和用户向量一样做平均计算生成一维的拼接向量送入内容侧的深度网络。

如图2所示,推荐系统的模型训练是在离线阶段进行的,用户组合特征和内容组合特征分别送入选择好的深度神经网络模型。本发明方法试验过双塔模型、谷歌宽深模型(Wide&Deep)、阿里的DIN模型和DIEN模型等经典排序模型。根据数据验证集的准确率,F1等指标,选取准确率和F1最高的模型,即双塔模型作为排序模型的基线。计算用户和内容给组合特征向量,计算得到用户嵌入向量和内容嵌入向量两个单元,即分别作为该用户和内容的低维语义表征。

这两者通过点积结果样本标签值计算交叉熵损失,进行后向传播优化网络参数。此外,内容嵌入向量会调用模型内容侧的深度塔网络进行计算,并将模型保存于线上环境中,供线上预测的新内容特征信息的序列查询使用。

同时,在线上预测阶段,新用户的用户特征信息和内容特征信息合并后的组合特征向量也需要通过调用模型用户侧深度网络进行计算,生成用户嵌入向量后,和模型中保存的每个内容的内容嵌入向量进行点击运算,最终拿到logit作为内容-排序分数关联向量的分数,该流程的输出格式为(用户id,内容id,排序分数)。

(三)如图3所示,该模块获取了排序双塔模型在线上预测后的(用户id,内容id,排序分数)向量集。统计所有三元组中内容来源,即确定内容是由哪一路召回策略推送的,根据统计结果将每个三元组分类,标明对应的召回策略组对应标识。

此处,召回分组一共有五个,如下表1所示。

表1

(四)根据每个分组最近30天的点击率指标,进行自适应的采样权重计算,得到每 个召回分组对应的采样系数

其中,

将计算出来每个召回分组的采样权重

其中,

其中,m为召回的内容id的总数。

虽然在理想情况下,按照以上策略可以准确提取到推送到下游的topk个内容序 列,但是实际上情况是,上游召回系统推送的内容列表大概率存在召回数量不平均的情况, 如某一召回组召回数不够。因此需要进行召回平衡性评估,进行相应的处理策略。当某一召 回分组数量不够时,推荐系统根据召回缺失的数量重新计算抽样系数

本发明所述的内容个性化推荐系统的排序优化系统包括:

粗筛模块,用于获取用户点击操作,召回并生成初筛待排序内容列表;

第一排序模块,用于排序模型对所述初筛待排序内容列表进行打分,生成初始内容-排序分数关联向量;

第二排序模块,用于基于自适应策略,对所述第一排序模块输出的初始内容-排序分数关联向量进行二次排序,得到最终的排序结果。

其中,所述初筛待排序内容列表为与用户历史点击数据相关的内容id列表。

所述第一排序模块还包括:

预处理子单元,用于根据所述初筛待排序内容列表,提取用户特征信息和内容特征信息;根据不同的排序模型,对所述用户特征信息和内容特征信息合并后的元数据或分别进行评估,选取得分最高的排序模型作为实际排序模型;

计算子单元,用于在推荐系统离线的训练阶段,所述用户特征信息和内容特征信息分别输入所述实际排序模型,得到维数相同的用户嵌入向量和内容嵌入向量;对所述用户嵌入向量和内容嵌入向量进行点积计算,将点积值与用户点击的样本标签值进行交叉熵损失的计算,进行后向传播优化实际排序模型的网络参数;将待排序的用户特征信息和内容特征信息输入优化后的实际排序模型,将模型输出向量的点积结果作为排序分数,得到初始内容-排序分数关联向量。

进一步地,所述用户特征信息包括:用户点击序列的内容特征向量、用户画像指标、用户点赞序列的内容特征向量。

进一步地,所述内容嵌入向量通过持续调用所述实际排序模型的内容侧的深度网络进行计算,输出嵌入层,更新并保存实际排序模型,供线上预测的新内容序列查询使用。

进一步地,所述内容嵌入向量在线上预测时,通过调用所述实际排序模型的用户侧的深度网络进行计算。

所述第二排序模块具体用于获取所述初始内容-排序分数关联向量,并统计所有向量来源,将每个向量归类为对应召回分组;按照如下公式计算自适应的采样权重:

其中,

按照如下公式生成Top-K推荐内容向量列表,其中第i个召回组的实际推荐内容向量列表个数为:

其中,

其中,m为召回的内容id的总数;

根据召回分组的召回个数

进一步地,所述样本平衡处理策略为:当某一召回分组数量不足

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号