首页> 中国专利> 一种融合社会化信息的改进单类协同过滤方法

一种融合社会化信息的改进单类协同过滤方法

摘要

本发明公开了一种融合社会化信息的改进单类协同过滤方法,包括:1构造三元组分别表示用户项目信息、项目标签信息、用户标签信息和群组好友信息;2计算用户与其组内好友的偏好相似度;3计算用户偏好与其未选项目的特征相似度;4对用户抽取添加负例;5对用户项目矩阵实施联合概率矩阵分解,获得用户特征矩阵和项目特征矩阵;6获取对每个用户预测分值最高的前N个项目形成该用户的推荐列表。本发明基于项目标签信息和用户已选正例数量进行负例抽取,同时将用户群组和项目标签的社会化信息融合到概率矩阵分解中,实施联合概率矩阵分解,从而得到面向单类数据的推荐结果,有效解决单类协同过滤方法中数据的高度不平衡性和稀疏性问题。

著录项

  • 公开/公告号CN106156333A

    专利类型发明专利

  • 公开/公告日2016-11-23

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN201610530667.1

  • 申请日2016-07-06

  • 分类号G06F17/30(20060101);G06K9/62(20060101);G06Q30/02(20120101);

  • 代理机构34101 安徽省合肥新安专利代理有限责任公司;

  • 代理人陆丽莉;何梅生

  • 地址 230009 安徽省合肥市包河区屯溪路193号

  • 入库时间 2023-06-19 00:57:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-09-22

    授权

    授权

  • 2016-12-21

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160706

    实质审查的生效

  • 2016-11-23

    公开

    公开

说明书

技术领域

本发明属于个性化推荐领域,具体地说是一种融合社会化信息的改进单类协同过滤方法。

背景技术

随着信息技术的不断发展,如何从海量的数据中快速有效地找到用户所需的信息,满足各类用户不同的个性化需求,已受到研究者的广泛关注。在此背景下,推荐系统应运而生。推荐系统可以根据用户的历史评分数据来学习、预测用户的偏好从而推荐物品,被认为是当前能够解决信息过载的最有效方法之一。

其中,运用最广泛的是基于协同过滤的推荐算法。协同过滤算法的核心是基于目标用户最近邻居的评分数据,来预测目标用户对未评分项目的评分,从而将预测评分最高的若干项目推荐给目标用户。近年来协同过滤算法在国内外得到了广泛研究,按处理数据的不同主要分为两类:一类是能明确区分用户喜好倾向的数据,如评分;另一类则是未能表现出用户喜好倾向的单类数据,如是否购买过某种商品等,这类数据仅有正例可以明确区分开来,而负例不确定,故把该类问题称为单类协同过滤(One Class Collaborative Filtering,OCCF)问题。在单类协同过滤中,数据的获取不需要用户额外的努力,仅搜集用户与网页的自然交互信息,收集成本更低、应用场景更广、数据规模更大,因此,研究如何利用单类数据进行个性化推荐,具有重要价值。

目前,针对单类数据的个性化推荐已经开始得到研究者的关注,并有一些研究者就此进行了相关研究。这些研究主要从两个角度展开,一个角度是研究如何恰当的引入负例,以解决数据的高度不平衡性问题。另一个角度是研究如何恰当的利用额外的数据信息,以解决数据的高度稀疏性问题。尽管这些研究都在一定程度上减小了数据不平衡性或稀疏性对推荐结果的影响,但是一方面,已有研究大多是从单一角度进行,只孤立的考虑了对数据不平衡性和稀疏性的一个问题的改进。另一方面,近些年来,随着社交媒体的不断发展,对于数据中带有评分的推荐问题,融合社会化信息的推荐方法已被证明可以很好地提升推荐精度,但是,对于更加稀疏的单类数据,这方面的研究还很少。

发明内容

本发明为解决上述现有技术中存在的不足之处,提供一种融合社会化信息的改进单类协同过滤方法,以期能充分考虑用户群组及项目标签的社会化信息,综合解决单类协同过滤方法中数据的高度不平衡性和稀疏性问题,从而提高面向单类数据的项目推荐准确率。

为了达到上述目的,本发明所采用的技术方案为:

本发明一种融合社会化信息的改进单类协同过滤方法的特点是按如下步骤进行:

步骤1、构造用户项目三元组P、项目标签三元组Q、用户标签三元组W和群组好友三元组G:

步骤1.1、令用户项目三元组P=<U,I,R>表示用户对项目的历史选择信息;U表示用户集,并有U={U1,U2,...,Ui,...,U|U|};Ui表示第i个用户;I表示项目集,并有I={I1,I2,...,Ij,...,I|I|};Ij表示第j个项目;R表示历史选择信息矩阵,并有{Ri,j}|U|×|I|;Ri,j=1表示第i个用户Ui已选择过第j个项目Ij;Ri,j为空表示第i个用户Ui未选择过第j个项目Ij;1≤i≤|U|;1≤j≤|I|;

步骤1.2、令项目标签三元组Q=<I,T,B>表示项目被标注的标签信息,用于表征项目的特征;T表示标签集,并有T={T1,T2,...,Th,...,T|T|};Th表示第h个标签;B表示项目标签矩阵,并有{Bj,h}|I|×|T|;Bj,h表示第j个项目Ij被标注第h个标签Th的次数;1≤h≤|T|;

步骤1.3、令用户标签三元组W=<U,T,D>表示用户对所有已选择项目标注的标签信息,用于表征用户的偏好特征;D表示用户标签矩阵,并有{Di,h}|U|×|T|;Di,h表示第i个用户Ui对自己所有已选择项目标注第h个标签Th的次数;

步骤1.4、令群组好友三元组G=<U,U,F>表示用户群组好友信息;F表示用户好友矩阵,并有{Fi,l}|U|×|U|;Fi,l=1表示第i个用户Ui和第l个用户Ul是属于同一个群组的组内好友;Fi,l为空表示第i个用户Ui和第l个用户Ul不属于任何一个共同群组的组内好友;1≤l≤|U|

步骤2、基于所述用户项目三元组P计算所述群组好友三元组G的用户与其群组好友的偏好相似度:

步骤2.1、根据群组好友三元组G,获得第i个用户Ui的群组好友集合表示第i个用户Ui的第l个群组好友;0≤L<|U|;0≤l≤L;

利用式(1)得到第i个用户Ui与第l个群组好友的Jaccard相似度Ji,l

Ji,l=|Ri,·Rl,·||Ri,·Rl,·|---(1)

式(1)中,Ri,.表示第i个用户Ui的已选项目集;Rl,.表示第l个群组好友的已选项目集;

步骤2.2、对所有的用户,重复步骤2.1,从而获得所有|U|个用户与其群组好友之间偏好的相似度矩阵J={Ji,l}|U|×|U|

步骤3、基于所述项目标签三元组Q和所述用户标签三元组W,计算所述用户项目三元组P的用户与其未选择项目之间的用户偏好特征与项目特征的相似度:

步骤3.1、根据所述项目标签三元组Q,利用TF-IDF方法计算第j个项目Ij中第h个标签Tj,h的权值b′j,h,从而获得第j个项目Ij的|T|个标签的权值向量Bj′={b′j,1,b′j,2,...,b′j,h,...,b′j,|T|};

步骤3.2、对所有项目,重复步骤3.1,从而获得项目标签的权值矩阵B′={B′j,h}|I|×|T|

步骤3.3、根据所述用户标签三元组W,利用TF-IDF方法计算第i个用户Ui中第h个标签Ti,h的权值d′i,h,从而获得第i个用户Ui的|T|个标签的权值向量Di′={d′i,1,d′i,2,...,d′i,h,...,d′i,|T|};

步骤3.4、对所有用户,重复步骤3.3,从而获得用户标签的权值矩阵D′={D′i,h}|U|×|T|

步骤3.5、根据所述用户项目三元组P,获得第i个用户Ui的未选项目集合表示第i个用户Ui的第d个未选项目,0≤D<|I|;0≤d≤D;

根据所述项目标签的权值矩阵B′和用户标签的权值矩阵D′,利用式(2)得到第i个用户Ui与第d个未选项目的余弦相似度Si,d

Si,d=cos(x,y)=x·y||x||2×||y||2---(2)

式(2)中,x表示所述用户标签的权值矩阵D′中第i个用户Ui对应的标签权值向量D′i,.,y表示所述项目标签的权值矩阵B′中第d个未选项目对应的标签权值向量B′d,.

步骤3.6、对所有用户,重复步骤3.5,从而获得用户的偏好特征与其未选择项目的项目特征之间的相似度矩阵S={Si,d}|U|×|I|

步骤4、基于所述用户项目三元组P、用户的偏好特征与其未选择项目的项目特征之间的相似度矩阵S对用户抽取并添加负例:

步骤4.1、根据所述用户项目三元组P,得到第i个用户Ui已选正例数量ai′;

利用式(3)得到第i个用户Ui应抽取的负例数量ai,进而得到所有用户应抽取的负例数量集合A={a1,a2,...,ai,...a|U|}:

ai=β×ai′(3)

式(3)中,β表示抽取的负正例比例;

步骤4.2、根据所述相似度矩阵S,将第i个用户Ui的未选项目集合I(i)中的第d个未选项目按照余弦相似度Si,d的大小进行升序排序;对于余弦相似度Si,d为同一数值的所有项目进行随机排序,从而获得排序后的未选项目集合

从第i个用户Ui的排序后的未选项目集合I′(i)中抽取前ai个未选项目,形成对第i个用户Ui抽取的负例集合表示对第i个用户Ui抽取的第a″个负例,1≤a″≤ai

步骤4.3、根据对第i个用户Ui抽取的负例集合List(i),将所述相似度矩阵S中Si,a″的值赋给所述用户项目三元组P中对应的用户项目的R的值;

步骤4.4、对所有用户,重复步骤4.2和步骤4.3,从而形成抽取完负例的新用户项目三元组P′=<U,I,R′>;R′表示添加完负例的历史选择信息矩阵;

步骤5、利用联合概率矩阵分解方法迭代获得最终的用户特征矩阵Z′和项目特征矩阵V′:

步骤5.1、利用式(4)构建添加完负例的历史选择信息矩阵R′的先验分布

P(R|Z,V,σR2)=Πi=1|U|Πj=1|I|[N(Ri,j|g(ZiTVj),σR2)]Ii,jR---(4)

式(4)中,Zi表示第i个用户Ui的特征向量;表示第i个用户Ui的特征向量Zi的转置;Vj表示第j个项目Ij的特征向量;Z表示所有用户的特征向量所构成的用户特征矩阵;V表示所有项目的特征向量所构成的项目特征矩阵;是指示函数,如果第i个用户Ui已选择过第j个项目Ij,则否则表示第i个用户Ui对第j个项目Ij的历史选择R′i,j服从均值为方差为的高斯分布;并有:

g(ZiTVj)=1/[1+exp(-ZiTVj)]---(5)

式(5)表示将的值映射到[0,1]内;

步骤5.2、利用式(6)构建项目标签矩阵B的先验分布

P(B|V,M,σB2)=Πj=1|I|Πh=1|T|[N(Bj,h|g(VjTMh),σB2)]Ij,hB---(6)

式(6)中,表示第j个项目Ij的特征向量Vj的转置;Mh表示第h个标签Th的特征向量;M表示所有标签的特征向量所构成的标签特征矩阵;是指示函数,如果第j个项目Ij被第h个标签Th标注过,则否则表示第j个项目Ij被第h个标签Th标注的次数Bj,h服从均值为方差为的高斯分布;并有:

g(VjTMh)=1/[1+exp(-VjTMh)]---(7)

式(7)表示将的值映射到[0,1]内;

步骤5.3、利用式(8)构建用户特征矩阵Z的先验分布

P(Z|J,σZ2,σJ2)=Πi=1|U|N(Zi|0,σZ2I^)×Πi=1|U|N(Zi|ΣlN(i)Ji,lZl,σJ2I^)---(8)

式(8)中,表示单位向量;表示第i个用户Ui的特征向量Zi的方差,表示第i个用户Ui的特征向量Zi服从均值为0,方差为的高斯分布;同理,表示第i个用户Ui的特征向量Zi服从均值为方差为的高斯分布;N(i)表示第i个用户Ui的所有组内好友在所述相似度矩阵J中的下标集合;Zl表示第l个用户Ul的特征向量;

步骤5.4、利用式(9)构建所述项目特征矩阵V的先验分布

P(V|σV2)=Πj=1|I|N(Vj|0,σV2I^)---(9)

式(9)中,表示第j个项目Ij的特征向量Vj的方差,表示第j个项目Ij的特征向量Vj服从均值为0,方差为的高斯分布;

步骤5.5、利用式(10)构建所述标签特征矩阵M的先验分布

P(M|σM2)=Πh=1|T|N(Mh|0,σM2I^)---(10)

式(10)中,表示第h个标签Th的特征向量Mh的方差,表示第h个标签Th的特征向量Mh服从均值为0,方差为的高斯分布;

步骤5.6、由式(6)、式(7)、式(8)、式(9)和式(10)进行贝叶斯推断并取对数后再进行推导,得到如式(11)所示的目标函数E(Z,V,M,R′,J,B):

E(Z,V,M,R,J,B)=12Σi=1|U|Σj=1|I|Ii,jR(Ri,j-g(ZiTVj))2+θB2Σj|I|Σh=1|T|Ij,hB(Bj,h-g(VjTMh))2+θJ2Σi=1|U|(Zi-ΣlN(i)Ji,lZl)T(Zi-ΣlN(i)Ji,lZl)+θZ2Σi=1|U|ZiTZi+θV2Σj=1|I|VjTVj+θM2Σh=1|T|MhTMh---(11)

式(11)中,分别反映用户特征矩阵Z、项目特征矩阵V、项目标签矩阵B、用户好友相似度矩阵J和标签特征矩阵M对目标函数E(Z,V,M,R′,J,B)的影响程度大小;

步骤5.7、设定迭代次数阈值为δ,学习率为α以及用户特征矩阵Z、项目特征矩阵V、标签特征矩阵M的矩阵特征维度Y并初始化迭代次数X=0;

步骤5.8、随机初始化用户特征矩阵Z、项目特征矩阵V和标签特征矩阵M,得到第X=1次迭代的第i个用户Ui的特征向量第j个项目Ij特征向量和第h个标签Th的特征向量

步骤5.9、利用式(12)、式(13)和式(14)分别获得第X次迭代的第i个用户Ui的的特征向量Zi的梯度第j个项目Ij的特征向量Vj的梯度和第h个标签Th的特征向量Mh的梯度

(EZi)(X)=Πj=1|I|Ii,jR[g((Zi(X))TVj(X))-Ri,j]g((Zi(X))TVj(X))Vj(X)+θZZi(X)+θJ[Zi(X)-ΣlN(i)Ji,IZl(X)]-θJΣ{l|lN(i)}Ji,l[Zl(X)-ΣwN(l)Jl,wZw(X)]---(12)

(EVj)(X)=Σi=1|U|Ii,jR[g((Zi(X))TVj(X))-Ri,j]g((Zi(X))TVj(X))Zi(X)+θBΣh=1|T|Ij,hB[g((Vj(X))(T)Mh(X))-Bj,h]g((Vj(X))TMh(X))Mh(X)+θVVj(X)---(13)

(EMh)(X)=θBΣj=1|I|Ij,hB[g((Vj(X))TMh(X))-Bj,h]g((Vj(X))TMh(X))Vj(X)+θMMh(X)---(14)

式(12)中,N(l)表示第l个用户Ul的所有组内好友在所述相似度矩阵J中的下标集合;N′(i)表示第i个用户Ui的所有组内好友在所述相似度矩阵J中的下标集合;

步骤5.10、利用式(15)、式(16)和式(17)和第X次迭代的第i个用户Ui的特征向量第X次迭代的第j个项目Ij特征向量和第X次迭代的第h个标签Th的特征向量获得第X+1次迭代的第i个用户Ui的特征向量第j个项目Ij的特征向量和第h个标签Th的特征向量

Zi(X+1)=Zi(X)-α(EZi)(X)---(15)

Vi(X+1)=Vi(X)-α(EVi)(X)---(16)

Mi(X+1)=Mi(X)-α(EMi)(X)---(17)

步骤5.11、将X+1赋给X,判断X<δ是否成立,若成立,则重复步骤5.9和步骤5.10执行;否则,表示获得第δ次迭代的第i个用户Ui的特征向量第δ次迭代的第j个项目Ij的特征向量和第δ次迭代的第h个标签的特征向量从而获得所有用户最终的用户特征矩阵Z′,所有项目最终的项目特征矩阵V′和所有标签最终的标签特征矩阵M′;

步骤6、获取对每个用户预测分值最高的前N个项目所构成的推荐列表:One Class Collaborative Filtering,OCCF

步骤6.1、利用式(18)得到第i个用户Ui对第j个项目Ij的预测分值

R^i,j=Σm=1YZi(m)Vj(m)---(18)

式(18)中,表示所述最终的用户特征矩阵Z′中第i个用户Ui的特征向量Zi′的第m个元素;表示最终的项目特征矩阵V′中第j个项目Ij的特征向量Vi′的第m个元素;0≤m≤Y;

步骤6.2、重复步骤6.1,从而获得第i个用户Ui对所有项目的预测分值,并从所有项目的预测分值中选取分值最高的且第i个用户Ui未选择过的前N个项目组成第i个用户Ui的推荐列表,进而获得所有用户的推荐列表。

与已有技术相比,本发明的有益效果为:

1、本发明将用户和项目的社会化信息融合到单类协同过滤方法中,通过负例抽取和联合概率矩阵分解得到用户和项目的特征矩阵,进而得到用户的项目推荐列表,从而有效缓解了单类数据的高度不平衡性和稀疏性问题,明显提高了面向单类数据的单类协同过滤方法的推荐准确率。

2、本发明利用用户对其所有已选项目标注的标签的社会化信息来表征其偏好,结合项目被标注标签的社会化信息,计算用户偏好与其所有未选项目之间的相似度,然后基于这种相似度及用户已选正例数量对用户抽取添加负例,提出了一种融合社会化信息的负例抽取方法;与已有负例抽取方法相比,其推荐准确度明显提高。

3、本发明利用用户与其群组好友共同已选项目信息获得用户与其群组内好友之间的相似度矩阵,然后,将这种用户群组好友相似度矩阵和项目标签信息矩阵均融合到用户项目矩阵中,使用户项目矩阵和项目标签矩阵的数据信息通过共享的项目特征矩阵结合在一起,实施联合概率矩阵分解,得到用户对项目的预测分值;通过对用户和项目的社会化信息的融合,克服了数据的高度稀疏的困难,显著提升了面向单类数据推荐的质量。

4、本发明所提出的方法可用于向用户推荐学术论文、新闻、博客和旅游景点等多种项目,还可以用于预测用户的微博转发行为,网站点击浏览行为等,应用范围广泛。

附图说明

图1是本发明流程示意图;

图2是本发明所提方法推荐的平均F-measure均值实验结果图。

具体实施方式

本发明利用三元组分别表示用户项目信息、项目标签信息、用户标签信息和群组好友信息,并且计算用户与其组内好友的偏好相似度以及用户偏好特征与其所有未选项目的特征相似度。然后,基于用户已选正例数量及用户偏好特征与其未选项目的特征的相似度,对每个用户抽取添加负例。最后,将项目被标注的标签信息矩阵和用户与其群组好友的偏好相似度矩阵,融合到用户项目历史选择信息矩阵中,实施联合概率矩阵分解,获得用户特征矩阵Z∈RY×|U|、项目特征矩阵V∈RY×|I|和标签特征矩阵M∈BY×|T|,使ZTV和MTV的值尽可能分别逼近用户历史选择信息矩阵R和项目标签信息B,从而对每个用户预测分值最高的前N个项目所构成的推荐列表。具体地说,如图1所示,本发明方法包括以下步骤:

步骤1、构造用户项目三元组P、项目标签三元组Q、用户标签三元组W和群组好友三元组G:

步骤1.1、令用户项目三元组P=<U,I,R>表示用户对项目的历史选择信息;U表示用户集,并有U={U1,U2,...,Ui,...,U|U|};Ui表示第i个用户;I表示项目集,并有I={I1,I2,...,Ij,...,I|I|};Ij表示第j个项目;R表示历史选择信息矩阵,并有{Ri,j}|U|×|I|;Ri,j=1表示第i个用户Ui已选择过第j个项目Ij;Ri,j为空表示第i个用户Ui未选择过第j个项目Ij;1≤i≤|U|;1≤j≤|I|;

步骤1.2、令项目标签三元组Q=<I,T,B>表示项目被标注的标签信息,用于表征项目的特征;T表示标签集,并有T={T1,T2,...,Th,...,T|T|};Th表示第h个标签;B表示项目标签矩阵,并有{Bj,h}|I|×|T|;Bj,h表示第j个项目Ij被标注第h个标签Th的次数;1≤h≤|T|;

步骤1.3、令用户标签三元组W=<U,T,D>表示用户对所有已选择项目标注的标签信息,用于表征用户的偏好特征;D表示用户标签矩阵,并有{Di,h}|U|×|T|;Di,h表示第i个用户Ui对自己所有已选择项目标注第h个标签Th的次数;

步骤1.4、令群组好友三元组G=<U,U,F>表示用户群组好友信息;F表示用户好友矩阵,并有{Fi,l}|U|×|U|;Fi,l=1表示第i个用户Ui和第l个用户Ul是属于同一个群组的组内好友;Fi,l为空表示第i个用户Ui和第l个用户Ul不属于任何一个共同群组的组内好友;1≤l≤|U|

步骤2、基于用户项目三元组P计算群组好友三元组G的用户与其群组好友的偏好相似度:

步骤2.1、根据群组好友三元组G,获得第i个用户Ui的群组好友集合表示第i个用户Ui的第l个群组好友;0≤L<|U|;0≤l≤L;

利用式(1)得到第i个用户Ui与第l个群组好友的Jaccard相似度Ji,l

Ji,l=|Ri,·Rl,·||Ri,·Rl,·|---(1)

式(1)中,Ri,.表示第i个用户Ui的已选项目集;Rl,.表示第l个群组好友的已选项目集;|Ri,.∩Rl,.|表示第i个用户Ui的已选项目集与其第l个群组好友的已选项目集的交集的数量;|Ri,.∪Rl,.|表示第i个用户Ui的已选项目集与其第l个群组好友的已选项目集的并集的数量;

步骤2.2、对所有的用户,重复步骤2.1,从而获得所有|U|个用户与其群组好友之间偏好的相似度矩阵J={Ji,l}|U|×|U|

步骤3、基于项目标签三元组Q和用户标签三元组W,计算用户项目三元组P的用户与其未选择项目之间的用户偏好特征与项目特征的相似度:

步骤3.1、根据项目标签三元组Q,利用TF-IDF方法计算第j个项目Ij中第h个标签Tj,h的权值b′j,h,从而获得第j个项目Ij的|T|个标签的权值向量Bj′={b′j,1,b′j,2,...,b′j,h,...,b′j,|T|};

步骤3.2、对所有项目,重复步骤3.1,从而获得项目标签的权值矩阵B′={B′j,h}|I|×|T|

步骤3.3、根据用户标签三元组W,利用TF-IDF方法计算第i个用户Ui中第h个标签Ti,h的权值d′i,h,从而获得第i个用户Ui的|T|个标签的权值向量Di′={d′i,1,d′i,2,...,d′i,h,...,d′i,|T|};

步骤3.4、对所有用户,重复步骤3.3,从而获得用户标签的权值矩阵D′={D′i,h}|U|×|T|

步骤3.5、根据用户项目三元组P,获得第i个用户Ui的未选项目集合表示第i个用户Ui的第d个未选项目,0≤D<|I|;0≤d≤D;

根据项目标签的权值矩阵B′和用户标签的权值矩阵D′,利用式(2)得到第i个用户Ui与第d个未选项目的余弦相似度Si,d

Si,d=cos(x,y)=x·y||x||2×||y||2---(2)

式(2)中,x表示用户标签的权值矩阵D′中第i个用户Ui对应的标签权值向量D′i,.,y表示项目标签的权值矩阵B′中第d个未选项目对应的标签权值向量B′d,.;||x||2表示向量x的模长;||y||2表示向量y的模长;

步骤3.6、对所有用户,重复步骤3.5,从而获得用户的偏好特征与其未选择项目的项目特征之间的相似度矩阵S={Si,d}|U|×|I|

步骤4、基于用户项目三元组P、用户的偏好特征与其未选择项目的项目特征之间的相似度矩阵S对用户抽取并添加负例:

步骤4.1、根据用户项目三元组P,得到第i个用户Ui已选正例数量ai′;

利用式(3)得到第i个用户Ui应抽取的负例数量ai,进而得到所有用户应抽取的负例数量集合A={a1,a2,...,ai,...a|U|}:

ai=β×ai′(3)

式(3)中,β表示抽取的负正例比例;通过第i个用户Ui已选择的项目正例数量来确定对Ui应抽取的负例数量,Ui已选择的正例越多,对其添加的负例相应的就越多,因为Ui已选择的正例越多,说明Ui见过的项目数量越多,其他没有被Ui选择的项目更多的是其看见了但是不喜欢,而不是没看见,因此从Ui未选择的项目中抽取的负例应该越多;

步骤4.2、根据相似度矩阵S,将第i个用户Ui的未选项目集合I(i)中的第d个未选项目按照余弦相似度Si,d的大小进行升序排序;对于余弦相似度Si,d为同一数值的所有项目进行随机排序,从而获得排序后的未选项目集合表示排序后的第i个用户Ui的第d个未选项目;

从第i个用户Ui的排序后的未选项目集合I′(i)中抽取前ai个未选项目,形成对第i个用户Ui抽取的负例集合因为Si,d的值越小,表示第i个用户Ui的偏好与其第d个未选项目的特征越不相似,是用户Ui看见了但是不喜欢没有选择的可能性就越大,越应该被选作负例;表示对第i个用户Ui抽取的第a″个负例,1≤a″≤ai

步骤4.3、根据对第i个用户Ui抽取的负例集合List(i),将相似度矩阵S中Si,a″的值赋给用户项目三元组P中对应的用户项目的R的值;

步骤4.4、对所有用户,重复步骤4.2和步骤4.3,形成抽取完负例的新用户项目三元组P′=<U,I,R′>,从而缓解单类数据的高度稀疏性问题;R′表示添加完负例的历史选择信息矩阵;

步骤5、利用联合概率矩阵分解方法迭代获得最终的用户特征矩阵Z′和项目特征矩阵V′:

步骤5.1、利用式(4)构建添加完负例的历史选择信息矩阵R′的先验分布

P(R|Z,V,σR2)=Πi=1|U|Πj=1|I|[N(Ri,j|g(ZiTVj),σR2)]Ii,jR---(4)

式(4)中,Zi表示第i个用户Ui的特征向量;表示第i个用户Ui的特征向量Zi的转置;Vj表示第j个项目Ij的特征向量;Z表示所有用户的特征向量所构成的用户特征矩阵;V表示所有项目的特征向量所构成的项目特征矩阵;是指示函数,如果第i个用户Ui已选择过第j个项目Ij,则否则表示第i个用户Ui对第j个项目Ij的历史选择R′i,j服从均值为方差为的高斯分布;并有:

g(ZiTVj)=1/[1+exp(-ZiTVj)]---(5)

式(5)表示将的值映射到[0,1]内;

步骤5.2、利用式(6)构建项目标签矩阵B的先验分布

P(B|V,M,σB2)=Πj=1|I|Πh=1|T|[N(Bj,h|g(VjTMh),σB2)]Ij,hB---(6)

式(6)中,表示第j个项目Ij的特征向量Vj的转置;Mh表示第h个标签Th的特征向量;M表示所有标签的特征向量所构成的标签特征矩阵;是指示函数,如果第j个项目Ij被第h个标签Th标注过,则否则表示第j个项目Ij被第h个标签Th标注的次数Bj,h服从均值为方差为的高斯分布;并有:

g(VjTMh)=1/[1+exp(-VjTMh)]---(7)

式(7)表示将的值映射到[0,1]内;

步骤5.3、利用式(8)构建用户特征矩阵Z的先验分布

P(Z|J,σZ2,σJ2)=Πi=1|U|N(Zi|0,σZ2I^)×Πi=1|U|N(Zi|ΣlN(i)Ji,lZl,σJ2I^)---(8)

式(8)中,表示单位向量;表示第i个用户Ui的特征向量Zi的方差,表示第i个用户Ui的特征向量Zi服从均值为0,方差为的高斯分布;同理,表示第i个用户Ui的特征向量Zi服从均值为方差为的高斯分布;N(i)表示第i个用户Ui的所有组内好友在相似度矩阵J中的下标集合;Zl表示第l个用户Ul的特征向量;由式(8)可以看出,本发明在学习每个用户的特征向量时,不仅考虑了用户自身的特性,即服从均值为0的高斯分布以防止过拟合,同时还考虑了用户之间的相关性,即每个用户的特征向量还要与同一群组的组内好友的特征向量相似,并且两个用户之间的相似度越高,这两个用户的特征向量就越相似;

步骤5.4、利用式(9)构建项目特征矩阵V的先验分布

P(V|σV2)=Πj=1|I|N(Vj|0,σV2I^)---(9)

式(9)中,表示第j个项目Ij的特征向量Vj的方差,表示第j个项目Ij的特征向量Vj服从均值为0,方差为的高斯分布;

步骤5.5、利用式(10)构建标签特征矩阵M的先验分布

P(M|σM2)=Πh=1|T|N(Mh|0,σM2I^)---(10)

式(10)中,表示第h个标签Th的特征向量Mh的方差,表示第h个标签Th的特征向量Mh服从均值为0,方差为的高斯分布;

步骤5.6、由式(6)、式(7)、式(8)、式(9)和式(10)进行贝叶斯推断,得到如式(11)所示的用户特征矩阵Z、项目特征矩阵V和标签特征矩阵W的极大后验概率

P(Z,V,M|R,B,J,σR2,σZ2,σV2,σB2,σM2)p(R|Z,V,σR2)P(B|V,M,σB2)p(Z|J,σZ2,σJ2)p(V|σV2)P(M|σM2)=Πi=1|U|Πj=1|I|[N(Ri,j|g(ZiTVj),σR2]Ii,jR×Σj=1|I|Σh=1|T|[N(Bj,h|g(VjTMh),σB2]Ij,hB×Πi=1|U|N(Zi|0,σZ2I)×Πi=1|U|N(Zi|ΣlN(i)Jl,vZl,σJ2I)×Πj=1|I|N(Vj|0,σV2I)×Πh=1|T|N(Mh|0,σM2I)---(11)

由式(11)可以看出,本发明在进行矩阵分解时,通过对用户和项目的额外社会化信息的融合,即将用户与其群组好友的偏好相似度矩阵J和项目标签信息矩阵B均融合到用户项目矩阵R′中,使用户项目矩阵R′和项目标签矩阵B的数据信息通过共享的项目特征矩阵V结合在一起,从而缓解单类数据的高度稀疏性问题;

步骤5.7、对式(11)取对数得到式(12):

ln>P(Z,V,M|R,B,J,σZ2,σV2,σM2,σR2,σB2,σJ2)=-12σR2Σi=1|U|Σj=1|I|Ii,jR(Ri,j-g(ZiTVj))2-12σB2Σj|I|Σh=1|T|Ij,hB(Bj,h-g(VjTMh))2-12σJ2Σi=1|U|(Zi-ΣlN(i)Ji,lZl)T(Zi-ΣlN(i)Ji,lZl)-12σZ2Σi=1|U|ZiTZi-12σV2Σj=1|I|VjTVj-12σM2Σh=1|T|MhTMh-Σi=1|U|Σj=1|I|Ii,jRlnσR2-Σj=1|I|Σh=1|T|Ij,hTlnσB2-YΣi=1|U|lnσZ2-YΣj=1|I|lnσV2-YΣh=1|T|lnσM2+P---(12)

式(12)中,Y表示第第i个用户Ui的特征向量Zl、第j个项目Ij的特征向量Vj和第h个标签Th的特征向量Mh的维度;P是不依赖参数的常量;

步骤5.8、对式(12)进行推导,最大化式(12)可视为无约束问题,相当于最小化如式(13)这个目标函数E(Z,V,M,R′,J,B):

E(Z,V,M,R,J,B)=12Σi=1|U|Σj=1|I|Ii,jR(Ri,j-g(ZiTVj))2+θB2Σj|I|Σh=1|T|Ij,hB(Bj,h-g(VjTMh))2+θJ2Σi=1|U|(Zi-ΣlN(i)Ji,lZl)T(Zi-ΣlN(i)Ji,lZl)+θZ2Σi=1|U|ZiTZi+θV2Σj=1|I|VjTVj+θM2Σh=1|T|MhTMh---(13)

式(13)中,分别反映用户特征矩阵Z、项目特征矩阵V、项目标签矩阵B、用户好友相似度矩阵J和标签特征矩阵M对目标函数E(Z,V,M,R′,J,B)的影响程度大小;

步骤5.9、设定迭代次数阈值为δ,学习率为α,并初始化迭代次数X=0;

步骤5.10、随机初始化用户特征矩阵Z、项目特征矩阵V和标签特征矩阵M,得到第X=1次迭代的第i个用户Ui的特征向量第j个项目Ij特征向量和第h个标签Th的特征向量

步骤5.11、利用式(14)、式(15)和式(16)分别获得第X次迭代的第i个用户Ui的的特征向量Zi的梯度第j个项目Ij的特征向量Vj的梯度和第h个标签Th的特征向量Mh的梯度

(EZi)(X)=Σj=1|I|Ii,jR[g((Zi(X))TVj(X))-Ri,j]g((Zi(X))TVj(X))Vi(X)+θZZi(X)+θJ[Zi(X)-ΣlN(i)Ji,lZl(X)]-θJΣ{l|lN(i)}Ji,l[Zl(X)-ΣwN(l)Jl,wZw(X)]---(14)

(EVj)(X)=Σi=1|U|Ii,jR[g((Zi(X))TVj(X))-Ri,j]g((Zi(X))TVj(X))Zi(X)+θBΣh=1|T|Ij,hB[g((Vj(X))(T)Mh(X))-Bj,h]g((Vj(X))TMh(X))Mh(X)+θVVj(X)---(15)

(EMh)(X)=θBΣj=1|I|Ij,hB[g((Vj(X))TMh(X))-Bj,h]g((Vj(X))TMh(X))Vj(X)+θMMh(X)---(16)

式(14)中,N(l)表示第l个用户Ul的所有组内好友在相似度矩阵J中的下标集合;N′(i)表示第i个用户Ui的所有组内好友在相似度矩阵J中的下标集合;

步骤5.12、利用式(17)、式(18)和式(19)和第X次迭代的第i个用户Ui的特征向量第X次迭代的第j个项目Ij特征向量和第X次迭代的第h个标签Th的特征向量获得第X+1次迭代的第i个用户Ui的特征向量第j个项目Ij的特征向量和第h个标签Th的特征向量

Zi(X+1)=Zi(X)-α(EZi)(X)---(17)

Vi(X+1)=Vi(X)-α(EVi)(X)---(18)

Mi(X+1)=Mi(X)-α(EMi)(X)---(19)

步骤5.13、将X+1赋给X,判断X<δ是否成立,若成立,则重复步骤5.11和步骤5.12执行;否则,表示获得第δ次迭代的第i个用户Ui的特征向量第δ次迭代的第j个项目Ij的特征向量和第δ次迭代的第h个标签的特征向量从而获得所有用户最终的用户特征矩阵Z′,所有项目最终的项目特征矩阵V′和所有标签最终的标签特征矩阵M′;

步骤6、获取对每个用户预测分值最高的前N个项目所构成的推荐列表:

步骤6.1、利用式(20)得到第i个用户Ui对第j个项目Ij的预测分值

R^i,j=Σm=1YZi(m)Vj(m)---(20)

式(20)中,表示最终的用户特征矩阵Z′中第i个用户Ui的特征向量Zi′的第m个元素;表示最终的项目特征矩阵V′中第j个项目Ij的特征向量Vi′的第m个元素;0≤m≤Y;

步骤6.2、重复步骤6.1,从而获得第i个用户Ui对所有项目的预测分值,并从所有项目的预测分值中选取分值最高的且第i个用户Ui未选择过的前N个项目组成第i个用户Ui的推荐列表,进而获得所有用户的推荐列表。

针对本发明方法进行实验论证,具体包括:

1、标准数据集

本发明使用LastFM数据集作为标准数据集验证融合社会化信息的改进单类协同过滤方法的有效性,LastFM是一个针对音乐收听的在线平台。在LastFM数据集中,包括99405位用户、1393559首音乐、281818个标签、66429个用户群组信息的数据。

2、评价指标

本发明使用推荐系统领域常用的平均准确率均值(MAP),平均召回率均值(MAR),和平均F-measure均值(MAF)作为实验评价指标。MAP是对所有用户的平均准确率(average precision,简称AP)的再一次平均,MAP这一指标特别看重推荐列表的前几位是否命中,MAP越大,表示算法的推荐准确率越高。MAR是对所有用户的平均召回率(average recall,简称AR)的再一次平均,MAR值越大,表示推荐算法的在预测召回率上的表现越好。MAF是MAP和MAR的调和平均数,它同时综合考虑了MAP和MAR的值,并不掩盖任何一方面特别的不足,因此能较为全面地评价算法的优劣。MAP、MAR和MAF的定义如式(21)、(22)和(23)所示:

MAP=1|U|ΣuU(1CΣ1kNpreeision(k)×rec(k))---(21)

MAR=1|U|ΣuU(1CΣ1kNrecall(k)×rec(k))---(22)

MAF=(2×MAP×MAR)/(MAP+MAR)(23)

式(21)和式(22)中,precision(k)是top-k的准确率,recall(k)是top-k的召回率,如果推荐列表中第k个项目Ik命中,则rec(k)=1;否则,rec(k)=0;N是推荐个数,C是测试集中用户感兴趣的项目总数。

3、实验流程

为了验证本发明所提方法的有效性,根据OCCF应用场景的特点,本发明选用了五种推荐领域常用方法作为对比方法:SVD、PMF、Social-PMF、OCCF-AMAN、OCCF-EMAN。SVD、PMF和Social-PMF方法均忽视用户所有未选项目,然后对正例分别使用SVD、PMF和融入用户群组及项目标签的社会化信息的Social-PMF建模;OCCF-AMAN方法将用户所有未选项目作为负例,然后使用PMF建模;OCCF-EMAN方法从用户所有未选项目中随机抽取与其已选正例数量等同的负例,然后使用PMF,在正负例平衡的条件下训练模型。实验过程中,本发明随机选择80%的实验数据集作为训练集,20%作为测试集。同时,为了保证实验结果的可靠性,每次实验进行10次,最终结果取十次实验的平均值。另外,经过实验的反复测试,我们发现参数设定为θZ=θV=θM=0.005,θJ=0.01,θB=0.0005,特征向量的维度Y=20,推荐个数N=15,添加负例时的负例比例β=15时,方法效果最优,以下实验若非特别说明,上述所有参数均设定为最优值。

4、实验结果

为了验证本发明所提方法的有效性,本发明在LastFM数据集上进行实验,并将本发明所提方法及对比方法实验结果与测试集进行比较。实验结果如表1和图2所示,图2中横坐标表示推荐个数,纵坐标表示平均F-measure均值。

由表1可以看出,本发明所提OCCF-SI方法在MAP,MAR,MAF三个评价指标下均优于另外五种推荐方法,从表1中还可以看出,在SVD、PMF及Social-PMF方法的比较中,Social-PMF在三个评价指标下均取得了较大幅度的提高,在PMF、OCCF-AMAN及OCCF-EMAN方法的比较中,OCCF-EMAN在三个评价指标下也均取得了最优推荐结果。这一结果表明,对于OCCF数据而言,融入用户、项目的社会化信息和负例抽取分别有助于提高推荐质量,这也进一步验证了本发明提出的同时综合考虑社会化信息和负例抽取的OCCF-SI方法的有效性。

对于个性化推荐而言,最终的目的不是使预测出来的分数和真实分数的误差尽可能小,而是要在有限的推荐列表中尽可能准确全面的展示用户最感兴趣的项目,因此,研究推荐方法在不同推荐个数N下的推荐效果并确定一个最佳N值,具有重要意义。由图2可以看出,随着推荐个数的增加,推荐效果先是越来越好,当N的值大于一定数值后(本发明方法N=15最佳),推荐的MAF值开始降低。由图2还可以看出,在不同的推荐个数下,本发明提出的OCCF-SI方法都能取得较好的结果,说明了本发明提出的融合社会化信息的改进单类协同过滤方法的有效性和适应性。

表1OCCF-SI与对比算法推荐结果比较(推荐个数N=15,特征维度Y=20)

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号