首页> 中国专利> 一种面向青少年群体的个性化内容推荐方法

一种面向青少年群体的个性化内容推荐方法

摘要

本发明公会开了一种面向青少年群体的个性化内容推荐方法,包括如下步骤,S1、收集用户对每条推荐内容的历史浏览行为,并将其作为神经网络模型的训练集;S2、构建神经网络模型;S3、将训练集进行预处理,并将进行预处理后的训练集纳入神经网络模型中,获取纳入结果,得到的纳入结果做均方误差计算,并以最小化均方误差结果为优化目标对神经网络模型进行模型训练;S4、选择用户,并在向其推荐内容时对向其推荐的内容进行推荐打分。优点是:提高推荐内容与用户年龄的符合度;提高了除用户历史兴趣之外的、符合用户年龄特征的内容曝光度,扩宽青少年用户视野;在总体保证内容与用户兴趣的符合度前提下,避免过度拟合用户的历史喜好及形成信息茧房。

著录项

  • 公开/公告号CN110147497A

    专利类型发明专利

  • 公开/公告日2019-08-20

    原文格式PDF

  • 申请/专利权人 中国搜索信息科技股份有限公司;

    申请/专利号CN201910405862.5

  • 发明设计人 战科宇;

    申请日2019-05-15

  • 分类号

  • 代理机构北京市盛峰律师事务所;

  • 代理人于国栋

  • 地址 102600 北京市大兴区北兴路(东段)2号1幢一层120房间

  • 入库时间 2024-02-19 12:54:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-04

    授权

    授权

  • 2019-09-13

    实质审查的生效 IPC(主分类):G06F16/9535 申请日:20190515

    实质审查的生效

  • 2019-08-20

    公开

    公开

说明书

技术领域

本发明涉及个性化推荐算法领域,尤其涉及一种面向青少年群体的个性化内容推荐方法。

背景技术

随着信息技术及网络技术的快速发展,全球信息出现爆发性增长,海量数据呈现在人们眼前,让人们在享受丰富的信息资源的同时,也困扰于如何获取到对自己真正有用的那部分信息。面对这种“数据超载”问题,出现了搜索引擎与推荐引擎这两种工具,帮助理解用户的信息需求;其中搜索引擎面向用户的显性意图,即用户有明确的信息获取需求;而推荐引擎则面向用户的隐性意图,即用户不具有明确的信息获取需求。其中推荐引擎,尤其是具备个性化推荐功能的推荐引擎,能较好的解决用户的隐性信息需求,所以个性化推荐技术在近些年受到越来越多人的重视,也逐渐成为内容服务商的重要需求之一。

因推荐引擎面向用户的隐性意图,因而如何获取用户的隐性意图成为了个性化推荐技术研究的重点,通常的手段都是基于用户的历史行为分析用户特征,进而形成用户的隐性意图。传统的技术方案有三类协同过滤技术:1、基于内容的协同过滤,即把用户的隐性意图等价于他以前喜欢的东西的特征;2、基于用户的协同过滤,即把用户的隐性意图等价于与他相似的其它用户所以喜欢的东西;3、基于矩阵分解的协同过滤,即把用户的隐性意图与内容的隐性特征通过矩阵运算求解为一组隐向量。前两种协同过滤技术的主要缺点在于,它们无法应对高维稀疏的数据场景,而最后一种基于矩阵分解的协同过滤技术,又因为计算量巨大无法快速进行模型更新,并且它无法处理隐特征之间的非线性关联,无法利用用户画像特征。

受基于矩阵分解的协同过滤技术的影响,近些年很多新的个性化推荐技术都将思路集中在用户隐性意图的隐式向量表达上,即用一组隐向量表达用户的信息需求。另外受近些年机器学习技术的发展,出现一批基于神经网络模型的个性化推荐技术,例如因子分解机、Wide&Deep神经网络等;但是在算法设计上,并没有为青少年用户群体做特定的考虑,一味追求ctr的高涨反而造成视野的逐渐收窄,长期形成的信息茧房,会扼杀青少年的创造性。

发明内容

本发明的目的在于提供一种面向青少年群体的个性化内容推荐方法,从而解决现有技术中存在的前述问题。

为了实现上述目的,本发明采用的技术方案如下:

一种面向青少年群体的个性化内容推荐方法,包括如下步骤,

S1、收集用户对每条推荐内容的历史浏览行为,并将其作为神经网络模型的训练集;

S2、构建神经网络模型;

S3、将训练集进行预处理,并将进行预处理后的训练集纳入神经网络模型中,获取纳入结果,将得到的纳入结果做均方误差计算,并以最小化均方误差结果为优化目标对神经网络模型进行模型训练;

S4、选择用户,并在向其推荐内容时对向其推荐的内容进行推荐打分。

优选的,将所述训练集记为T,所述T表示如下,

T={<X1,y1>,<X2,y2>,...,<XN,yN>}

其中,i=1,2,...,N,N为训练集中行为数据的总数,Xi为训练集中第i个行为数据,yi为训练集中第i个行为数据的反馈结果。

优选的,根据用户对每条推荐内容对应的历史浏览行为,确定每条推荐内容对应的yi的值;如果用户对推荐内容的历史浏览行为是一次点击行为,则yi=1,如果用户对推荐内容的历史浏览行为是一次曝光未点击行为,则yi=0,如果用户对推荐内容的历史浏览行为一次用户标记不喜欢行为,则yi=-1。

优选的,所述Xi如下式所示,

Xi=(uidu,ageu,genderu,cated,typed,{tagd1,tagd2,...,tagdM});

其中,"uidu,ageu,genderu"为触发第i个行为数据的主体,即第u个用户的特征;"cated,typed,{tagd1,tagd2,...,tagdM}"为第i个行为数据的客体,即第d条内容的特征;uidu是第u个用户的编号,ageu是第u个用户的年龄,genderu是第u个用户的性别,cated是第d条内容的内容类别,typed是第d条内容的展现方式,tagdj是第d条内容的第j个标签,j=1,2,...,M,M为第d条内容的标签总数。

优选的,步骤S2包括如下内容,

S201、将用户编号作为一个单值离散特征,通过一个嵌入层,转换为32维的数值向量;

S202、将用户年龄作为一个单值离散特征,通过一个嵌入层,转换为64维的数值向量;

S203、将用户性别作为一个单值离散特征,通过一个嵌入层,转换为32维的数值向量;

S204、将步骤S201、S202和S203中所得到数值向量相连,通过第一全连接层,转换为128维的第一数值向量;

S205、将内容类别作为一个单值离散特征,通过一个嵌入层,转换为32维的数字向量;

S206、将内容展现方式作为一个单值离散特征,通过一个嵌入层,转换为32维的数值向量;

S207、将内容的标签集合,作为一个多值离散特征,通过一个稀疏嵌入层,并将多值离散特征的转换结果相加,转换为64维的数值向量;

S208、将步骤S205、S206和S207中得到的数值向量相连,通过第二全连接层,转换为128维的第二数值向量;

S209、将第一数值向量和第二数值向量进行内积运算,从而得到神经网络模型。

优选的,步骤S3包括如下内容,

S301、将全部的用户编号做成词典,取出训练集中的第一行为数据的用户编号在词典中的索引,得到该用户编号的单值离散特征,并将该单值离散特征作为步骤S201的输入;

S302、针对青少年用户群体,限定用户的年龄区间为0到18,对训练集中的第一个行为数据的用户年龄进行特异值处理,得到该用户年龄的单值离散特征,并将该单值离散特征作为步骤S202的输入;

S303、定义用户性别,包括0-未知、1-男性、2-女性,对训练集中的第一个行为数据的用户性别进行数值化,得到用户形变的单值离散特征,并将其作为步骤S203的输入;

S304、对训练集中的第一个行为数据的内容类别进行数值化,得到该内容类别的单值离散特征,并将该单值离散特征作为步骤S205的输入;

S305、对训练集中的第一个行为数据的内容展现方式进行数值化,得到该内容展现方式的单值离散特征,并将该单值离散特征作为步骤S206的输入;

S306、采用fnv32哈希算法对训练集中第一个行为数据的内容标签集合进行哈希化,得到该内容标签集合的多值离散特征,并将该多值离散特征作为步骤S207的输入;

S307、采用步骤S209中获取的神经网络模型对上述步骤中的离散特征进行计算,得到神经网络模型的计算结果;将获取的神经网络模型的计算结果与训练集中的第一个行为数据的反馈结果求差值,并将该差值作为第一个行为数据的训练误差;

S308、遍历训练集中所有的行为数据,以256条数据为一个批次进行训练,取一个批次的均方误差作为评判结果,并以最小化均方误差结果为优化目标进行优化,从而完成神经网络模型的训练。

优选的,步骤S4中向用户推荐内容时,对推荐内容进行打分的打分算法如下,

其中,Score为最终的得分;BaseScore为基础分;M是神经网络模型,X'i为第u个用户的特征与第d条内容的特征经预处理后组合成的行为特征;M(X'i)为将X'i作为步骤S209的输入所获取的神经网络模型的计算结果,Threshold为得分阈值;A是模型打分的除权因子;timed是第d条内容的时间;B是时间的除权因子;Shuffle随机打散算法。

优选的,当M(X'i)小于得分阈值,则认为第d条内容不被第u个用户所喜欢,该条内容的最终得分置0。

优选的,所述随机打散算法以1为中心,以C为随机幅度。

本发明的有益效果是:1、本发明中的个性化内容推荐方法,采用了对用户特征和内容特征构建多层神经网络的方法,且在建模过程中强化了年龄差异,可以提高推荐内容与用户年龄的符合度。2、本发明中的推荐方法采用了综合性的打分算法,排序时对模型分进行降权,加入随机因子,提高了除用户历史兴趣之外的、符合用户年龄特征的内容的曝光度,可以扩宽青少年用户的视野。3、在总体保证内容与用户兴趣的符合度前提下,避免过度拟合用户的历史喜好,避免形成信息茧房。

附图说明

图1是本发明实施例中推荐方法的流程图;

图2是本发明实施例中推荐内容打分算法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。

如图1至2所示,本发明提供了一种面向青少年群体的个性化内容推荐方法,包括如下步骤,

S1、收集用户对每条推荐内容的历史浏览行为,并将其作为神经网络模型的训练集T;

S2、构建神经网络模型M;

S3、将训练T进行预处理,并将进行预处理后的训练集纳入神经网络模型M中,获取纳入结果,将得到的纳入结果做均方误差计算,并以最小化均方误差结果为优化目标对神经网络模型进行模型训练;

S4、选择用户,并在向其推荐内容时对向其推荐的内容进行推荐打分。

如图1所示,本实施例中,所述训练集记为T,所述T表示如下,

T={<X1,y1>,<X2,y2>,...,<XN,yN>}

其中,i=1,2,...,N,N为训练集中行为数据的总数,Xi为训练集中第i个行为数据,yi为训练集中第i个行为数据的反馈结果。

本实施例中,根据用户对每条推荐内容对应的历史浏览行为,确定每条推荐内容对应的yi的值;如果用户对推荐内容的历史浏览行为是一次点击行为,则yi=1,如果用户对推荐内容的历史浏览行为是一次曝光未点击行为,则yi=0,如果用户对推荐内容的历史浏览行为一次用户标记不喜欢行为,则yi=-1。

本实施例中,所述Xi如下式所示,

Xi=(uidu,ageu,genderu,cated,typed,{tagd1,tagd2,...,tagdM});

行为数据Xi是由两部分特征组成,包括触发这条行为数据的主体,即第u个用户的特征(uidu,ageu,genderu),和这条行为数据的客体,即第d条内容的特征(cated,typed,{tagd1,tagd2,...,tagdM});uidu是第u个用户的编号,ageu是第u个用户的年龄,genderu是第u个用户的性别,cated是第d条内容的内容类别,typed是第d条内容的展现方式,tagdj是第d条内容的第j个标签,j=1,2,...,M,M为第d条内容的标签总数。

本实施例中,步骤S2包括如下内容,

S201、将用户编号作为一个单值离散特征,通过一个嵌入层,转换为32维的数值向量;

S202、将用户年龄作为一个单值离散特征,通过一个嵌入层,转换为64维的数值向量;

S203、将用户性别作为一个单值离散特征,通过一个嵌入层,转换为32维的数值向量;

S204、将步骤S201、S202和S203中所得到数值向量相连,通过第一全连接层,转换为128维的第一数值向量;

S205、将内容类别作为一个单值离散特征,通过一个嵌入层,转换为32维的数字向量;

S206、将内容展现方式作为一个单值离散特征,通过一个嵌入层,转换为32维的数值向量;

S207、将内容的标签集合,作为一个多值离散特征,通过一个稀疏嵌入层,并将多值离散特征的转换结果相加,转换为64维的数值向量;

S208、将步骤S205、S206和S207中得到的数值向量相连,通过第二全连接层,转换为128维的第二数值向量;

S209、将第一数值向量和第二数值向量进行内积运算,从而得到神经网络模型。

本实施例中,步骤S3包括如下内容,

S301、将全部的用户编号做成词典,取出训练集T中的第一行为数据X1的用户编号uid1在词典中的索引,得到该用户编号的单值离散特征uid'1,并将该单值离散特征作为步骤S201的输入;

S302、针对青少年用户群体,限定用户的年龄区间为0到18,对训练集T中的第一个行为数据X1的用户年龄age1进行特异值处理,得到该用户年龄的单值离散特征age'1,并将该单值离散特征作为步骤S202的输入;

S303、定义用户性别,包括0-未知、1-男性、2-女性,对训练集T中的第一个行为数据X1的用户性别gender1进行数值化,得到用户形变的单值离散特征gender'1,并将其作为步骤S203的输入;

S304、对训练集T中的第一个行为数据X1的内容类别cate1进行数值化,得到该内容类别的单值离散特征cate'1,并将该单值离散特征作为步骤S205的输入;

S305、对训练集T中的第一个行为数据的内容展现方式type1进行数值化,得到该内容展现方式的单值离散特征type'1,并将该单值离散特征作为步骤S206的输入;

S306、采用fnv32哈希算法对训练集T中第一个行为数据的内容标签集合{tag11,tag12,...,tag1M}进行哈希化,得到该内容标签集合的多值离散特征{fnv32(tag11),fnv32(tag12),...,fnv32(tag1M)},并将该多值离散特征作为步骤S207的输入;

S307、采用步骤S209中获取的神经网络模型对上述步骤中的离散特征进行计算,得到神经网络模型的计算结果;将获取的神经网络模型的计算结果与训练集T中的第一个行为数据的反馈结果y1求差值,并将该差值作为第一个行为数据的训练误差;

S308、遍历训练集T中所有的行为数据,以256条数据为一个批次进行训练,取一个批次的均方误差作为评判结果,并以最小化均方误差结果为优化目标进行优化,优化过程采用adam优化器,从而完成神经网络模型的训练。

本实施例中,如图2所示,步骤S4中向用户推荐内容时,对推荐内容进行打分的打分算法如下,

其中,Score为最终的得分;BaseScore为基础分;M是神经网络模型,X'i为第u个用户的特征与第d条内容的特征经预处理后组合成的行为特征;M(X'i)为将X'i作为步骤S209的输入所获取的神经网络模型的计算结果,Threshold为得分阈值;A是模型打分的除权因子,目的一是将M(X'i)缩减到(-1,1)的区间,二是削减模型打分的影响,避免过度拟合用户的历史喜好;timed是第d条内容的时间;B是时间的除权因子,目的是将时间的影响缩减到(-1,1)的区间;Shuffle随机打散算法。

本实施例中,当M(X'i)小于得分阈值,则认为第d条内容不被第u个用户所喜欢,该条内容的最终得分置0。所述随机打散算法以1为中心,以C为随机幅度,也就是随机扰动因子,以令得分有一个随机抖动,削减模型打分的影响。

通过采用本发明公开的上述技术方案,得到了如下有益的效果:

本发明提供了一种面向青少年群体的个性化内容推荐方法,采用了对用户特征和内容特征构建多层神经网络的方法,且在建模过程中强化了年龄差异,可以提高推荐内容与用户年龄的符合度;同时,本发明中的推荐方法采用了综合性的打分算法,排序时对模型分进行降权,加入随机因子,提高了除用户历史兴趣之外的、符合用户年龄特征的内容的曝光度,可以扩宽青少年用户的视野;在总体保证内容与用户兴趣的符合度前提下,避免过度拟合用户的历史喜好,避免形成信息茧房。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号