首页> 中国专利> 一种基于核的协同主题回归标签推荐方法

一种基于核的协同主题回归标签推荐方法

摘要

本发明涉及到一种新的面向物品的标签推荐混合方法。本发明将行为信息、文本信息以及社会关系信息整合到一个模型中。本发明将矩阵分解技术、主题模型还有核函数的方法有机结合组成混合模型。将上述三种信息集中处理,不仅可以有效的解决冷启动问题,同时保留了推荐目标之间实际存在的社会关系,而不是像传统协同过滤方法把推荐目标看做是相互独立的个体。通过实验,本发明得到了较传统协同过滤推荐方法更高的推荐精度。

著录项

  • 公开/公告号CN105045865A

    专利类型发明专利

  • 公开/公告日2015-11-11

    原文格式PDF

  • 申请/专利权人 电子科技大学;

    申请/专利号CN201510410231.4

  • 申请日2015-07-13

  • 分类号G06F17/30(20060101);

  • 代理机构

  • 代理人

  • 地址 611731 四川省成都市高新区(西区)西源大道2006号

  • 入库时间 2023-12-18 12:02:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-04-26

    授权

    授权

  • 2015-12-09

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150713

    实质审查的生效

  • 2015-11-11

    公开

    公开

说明书

技术领域

本发明是一种基于核的矩阵分解和主题模型相结合的混合方法做标签推荐的实现方 法。

背景技术

标签以及标签系统,作为web2.0时代的一种重要标志,是很多网站的必要组成部分。 标签系统的鼻祖Delicious,音乐网站Last.fm和电影评论网站豆瓣等,都是标签系统的代表 性网站。在这些网站中,标签作为一种重要的特征(featrue)表现,联系着用户和物品,反 映着它们之间的喜好关系。同时当用户浏览某个物品时,用户需要被提供高质量的标签来帮 助了解该物品,同时标签系统也非常希望用户能够打给这个物品高质量的标签,这样才能促 进标签系统的良性循环。因此,标签推荐应运而生,在很多标签系统中都有提供给用户标签 推荐。同时,标签推荐也作为近些年的研究热点,受到各个领域的关注。

标签推荐帮助用户节省了输入标签的时间,提高了用户的参与度。同时,在使用标 签推荐时,可以规范标签的书写,减少标签的规模,提高标签的质量。一个网站有了高质量 的标签,同时也反馈给了用户高质量的体验。

标签推荐中存在着{物品,标签}行为信息、物品的文本信息以及其他一些信息。如何 合理的利用这些信息是传统协同过滤标签推荐中面临的一个挑战。针对上述问题,本发明有 效地将行为信息、文本信息还有社会关系信息整合到一个模型中训练。同时,冷启动问题作 为传统协同过滤算法的研究的重点也是标签推荐中面临的一大挑战,本发明将文本信息经过 主题模型LDA(LatentDirichletAllocation)训练出来的主题分布作为物品的特征向量,有效 的解决了冷启动问题。

发明内容

本发明的目的是提供基于核的矩阵分解和主题模型组成的混合模型做面向物品的标 签推荐的实现方法。传统的标签推荐方法将物品之间看做是相互独立的,忽略了它们之间存 在社会关系的事实。物品之间存在主题或者语义上的相似性,而这种相似性通常通过社会关 系表现出来。通过引入核函数,本发明可以有效的表现出物品之间存在的社会关系,而这种 表现体现在算法训练过程中物品的特征会受到处于同一社会关系的其他物品的特征的影响。 使用本发明提供的方法,可以应用标签系统中,提供标签推荐的服务或者提高标签推荐的质 量。

本发明提出的推荐方法是将矩阵分解、主题模型还有核方法结合到一起的混合方法。 该混合方法将{物品,标签}行为矩阵、物品的文本信息(主要包括摘要信息和标题信息)还 有社会关系信息有机的整合到一个模型中。为了方便使用这些信息,本发明需要做一些初始 工作:首先,使用LDA对文本数据进行处理,得到物品和主题的关系矩阵,并将其作为物 品的初始化的特征向量信息添加到模型中。其次,将物品间的社会关系信息,组成一个拉普 拉斯矩阵L=D-W。其中W表示物品间社会关系的无向图,如果Wij=1,表示物品i和 物品j之间存在联系,反之Wij=0。D是对角矩阵,对角线的元素满足Dii=∑jWij。在L 两边同时乘以最终得到了正则化的拉普拉斯矩阵然后定义核函数,核 函数的如公式(1)所示:

K=(I+γL^)-1---(1)

上式是正则化的拉普拉斯核函数,其中I是单位矩阵,γ是核函数的参数。为了将核 函数以及主题模型应用到矩阵分解模型中,本发明引入概率矩阵分解,同时将它的先验分布 从高斯分布替换为高斯过程,将主题模型得到的物品和主题关系矩阵作为物品的先验均值, 将正则化拉普拉斯核函数作为其协方差函数。这样就组成了基于核的混合模型,同时也把三 种信息整合起来做推荐。

该算法的生成过程如下:

1.对所有的标签tag,生成U:,d~GP(0,Ku),其中GP表示高斯过程,d从1到D,D 表示隐藏特征的个数,Ku是协方差函数,可以用核函数代替;

2.对于每个物品item的内容有以下的生成步骤:

1)生成主题比例分布θj~Dirichlet(α),其中Dirichlet表示狄利克雷分布;

2)对于物品item内容wj中的每一个词wjn

i.生成在主题分配上的分布zjn~Mult(θj),其中Mult表示多项式分布,

ii.生成每个词的分布wjn~Mult;

3.对于每个物品item,生成V:,d~GP(θ:,d,Kv),d从1到D;

4.对每个标签物品对,生成标记信息rij,有其中的N表示高斯 分,cij表示confidenceparameter

cij=a,ifrij=1b,ifrij=0

其中,有a和b满足a>b>0。

为了简化计算本发明用Su替换用Sv替换再根据上述的生成过程,得到算 法的对数似然函数,如公式(2)所示:

L=-12Σdu:,dTSuu:,d-12Σd(v:,d-θ:,d)TSv(v:,d-θ:,d)

+ΣjΣnlog(Σdθjdβd,wjn)-Σi,jcij2(rij-uiTvj)2---(2)

通过计算最大后验估计(MAP),分别对item和tag的特征向量求偏导,并对其结果 赋值为0。对item和tag的优化,本发明采用梯度上升方法,由于本发明使用的数据集中不 能提取出tag的社会关系信息,为了简化计算,tag的先验分布使用高斯分布替换,它们的 特征优化方法如公式(3)所示,其中ui表示标签i特征向量,vj表示物品j的特征向量。对 于主题比例分布θ采用投影梯度算法进行优化,对于词的主题分布β,采用和LDA一样的方 法进行优化,如公式(4)所示是其特征优化方法。

ui←(VCiVTuIK)-1VCiRi

vj←(VCjVT+sjjIK)-1[UCjRjjsjj-∑j′≠jSv(j,j′)(vj′j′)](3)

其中Cj是一个对角矩阵,对角线的元素是{cij,j=1,…,J}。Sv(j,j′)是核函数矩阵第j行, 第j’列的元素,且j’不等于j。IK是一个单位矩阵。

βdw∝∑jnφjnd1[wjn=w](4)

附图说明

图1是本发明的概率模型图;

图2是本发明在数据集上和传统协同过滤测试结果召回率的对比;

图3是本发明在数据集上和传统协同过滤测试结果成功率的对比。

具体实施方式

下面使用具体的数据集还有附图对本算法的具体实施方式进行描述,便于本领域的 技术人员更好地理解。

1.数据集描述

数据集是一个公开的数据集,采集自CiteULike上,其中包括5551个用户,16980篇 论文,46391个标签,44709个论文的引用关系以及204987个{用户,论文}对,其中每篇论 文还包括其标题,摘要等内容信息。

2.数据预处理

数据的预处理包括数据去噪、文本信息处理以及构建核函数三部分。

1)数据去噪

将数据集中使用次数少于5次的标签移除,最终得到7386个标签。

2)文本信息处理

对于论文的内容,经过去停用词后,根据TF-IDF(termfrequency–inversedocument frequency)的值从大到小排列,选取前8000个词,组成词汇表,并对其编号。根据词汇表 统计每篇论文的词频,组成文本向量,最后的文本处理成主题模型训练通用的格式。例如 “101:5980:1…..”这表示的是向量化的文本信息某一行的格式,“10”表示该行的文本向量 的总长度,也可以理解为该行表示的文本中包括多少个词汇,对于“1:5”表示的是编号为 “1”的词出现了“5”次,其中“1”表示词汇编号,“5”表示的是该词出现的次数,即词 频。

3)构建核函数

数据集中还包括用户—物品信息,这部分数据表明了用户对物品的收藏行为,这是 CiteULike网站提供的一种服务,同时也间接为物品提供了socialnetworks(社会网络)的关 系。如果两个物品之间有4个及以上的相同用户,那么表示它们之间有一种social(社会) 关系,使用“1”表示存在这种关系,反之则用“0”表示。通过使用“1”和“0”这样的表示, 本发明可以在物品之间构建一种无向图,其中无向图的顶点表示物品,边表示物品之间存在 联系。使用拉普拉斯矩阵进一步表示出这种无向图,有了拉普拉斯矩阵,进而构建出拉普拉 斯核函数。

3.模型训练

对每个标签选取P篇论文组成训练集,这里P选5,其余的数据组成测试集。对于训 练集,我们分成5份,选取其中的4份做训练集,1份做测试集进行5这交叉验证。通过交 叉验证我们确定了模型参数,选择综合性能最好的参数在测试集上进行预测,分别得到5组 预测指标,将这5组预测的结果取平均作为算法的预测结果。

4.评价指标

评测推荐算法的精度通常使用召回率来度量,召回率越大,准确性就越高,同时推 荐质量也就越高,召回率的计算公式为:

由于当用户标记论文时,用户不知道这些标签的存在或者不愿意使用已存在标签, 因此准确率不能应用到标签推荐上来。successL可以作为另外一个指标来衡量算法的性能, 它被定义为对某篇论文推荐的前L个标签中发现一个真实存在标签的概率。当对某篇论文推 荐L个标签中也一个是正确的结果,那么successL的值为1,反之为0。successL的公 式表示为:

最后本发明统计所有item的recallL和successL分别取平均值作为模型最后的预 测结果。

尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人 员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术 人员来讲,只要各种变化在所附的权利要求限定的思想和确定的范围内,一切利用本发明构 思的发明创造均在保护之列。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号