首页> 中国专利> 一种考虑用户-作者关系建模的个性化搜索方法

一种考虑用户-作者关系建模的个性化搜索方法

摘要

本发明公开了一种考虑用户-作者关系建模的个性化搜索方法,包括如下步骤:1从社交网络上收集原始语料集进行LDA模型训练获得主题词矩阵;2获得搜索用户及其关注者的兴趣度及词语集的混合概率;3获得关注者在主题上的交互率;4搜索用户对所有主题的兴趣度与所述关注者的所有主题的兴趣度集合之间的相似度,关注者的热门度;5获得搜索用户的评价模型;6由相似度和关注交叉率构成的搜索用户与作者的交互率;7得由影响力、传播能力、认证度和权威度所构成的作者评价指标;8由长度比值、外联度、标签值和转发率所构成的原始语料的评价指标,从而获得搜索结果。本发明能有效利用文本信息和用户与作者的关系信息,从而对搜索结果进行个性化。

著录项

  • 公开/公告号CN105528419A

    专利类型发明专利

  • 公开/公告日2016-04-27

    原文格式PDF

  • 申请/专利权人 合肥工业大学;

    申请/专利号CN201510889763.0

  • 申请日2015-11-30

  • 分类号G06F17/30(20060101);

  • 代理机构34101 安徽省合肥新安专利代理有限责任公司;

  • 代理人陆丽莉;何梅生

  • 地址 230009 安徽省合肥市包河区屯溪路193号

  • 入库时间 2023-12-18 15:50:38

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-05-17

    授权

    授权

  • 2016-05-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151130

    实质审查的生效

  • 2016-04-27

    公开

    公开

说明书

技术领域

本发明属于个性化搜索领域,具体涉及针对语言模型的个性化搜索方法。

背景技术

作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博、微信等 已经成为人们信息沟通的重要渠道。社交网络中内容爆炸式的传播速度给用户带来更丰富 信息的同时,也提供了大量无关的和重复的信息,通过社交网络搜索感兴趣的信息越来越 困难。

与传统的网页内容不同,社交网络具有其自身的特点。在信息内容方面,社交网络 中的内容更专注于事件和话题,内容精简丰富,涉及主题的范围广;在信息来源方面,每条 内容都有明确的作者,这些作者在自身特征、社交影响、与搜索者的关系等方面均有着巨大 差异,内容作者的特征对用户的信息选择有着重要影响。

目前面向社交网络中信息搜索的研究通常聚焦于如何将社交网络中的文本信息 区别于网页的特征引入搜索排序模型,从而改进搜索效果。例如,KailongChen等人提出了 基于微博特征的微博内容重要性计算模型,并利用协同过滤方法进行微博内容的个性化推 荐,但是该方法没有有效的利用社交网络中的用户以及用户之间的关联信息,无法解决个 性化搜索文本相同而作者不同的排序问题。针对微博内容短、主题广的特点,MorganHavey 等人利用主题模型构建用户兴趣模型,YajuanDuan等人提出了基于Learningtorank方 法的微博搜索技术,两种方法有效利用了文本信息,但模型复杂,所需的反馈信息难以收 集,并且无法与社交网络信息有效结合,提供个性化搜索。Vosecky等人将社交网络信息引 入微博搜索建模,利用用户好友的搜索兴趣构建微博用户的兴趣建模,但在建模过程中并 未考虑用户关心的搜索结果与作者信息,无法站在用户角度为用户提供感兴趣的搜索结 果。现有技术虽然将微博特征引入微博搜索模型,对面向网页的搜索进行了扩展。但是,在 进行用户兴趣建模时,并未考虑用户-作者关系这一关键要素,无法站在搜索者角度为搜索 者提供真正感兴趣的社交网络信息。

发明内容

本发明为了克服现有技术的不足之处,提出一种考虑用户-作者关系建模的个性 化搜索方法,以期能有效的利用用户的历史文本信息进行用户建模,利用好友信息进行完 善,并考虑用户与作者关系进行结果评价,从而能有效的对用户的微博搜索结果进行个性 化处理,提高搜索的准确性,将用户真正感兴趣的内容呈现给用户。

为了达到上述目的,本发明所采用的技术方案为:

本发明一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,所 述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注 的对象记为所述搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则 所述搜索用户U为所述第j个关注者fj的粉丝;1≤j≤J;并特点是按如下步骤进行:

步骤1、获得主题词矩阵

步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语 料集D的词语集W;

步骤1.2、对所述词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表 示所述词典C中第i个词语;n表示词语的总数;1≤i≤n;

步骤1.3、对所述词语集W进行LDA模型训练,获得主题词矩阵 ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题 的总数;1≤p≤m;

步骤2、获得所述搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注 者的兴趣度ΘF及其词语集WU的混合概率ΦF

步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集 以及所述关注者集合FU的原始语料集并分别进行分词处理,获得所述搜索用户U的词语集,记为以 及所述关注者集合FU的词语集,记为表示所述搜索用户 U的第l条原始语料;表示第j个关注者fj的原始语料集;表示所述搜索用户U的词语集 WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;

步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集WU进行训练,获得所述 搜索用户U的词语集WU中每个词语所对应的主题,以及所述搜索用户U对所有主题的兴趣 度,记为表示所述搜索用户U对第p个主题的兴趣度;

步骤2.3、统计所述词语集WU中每个词语在所对应的主题上出现的概率,记为 表示所述搜索用户U的词语集WU中第k个词语在其对应的 主题上出现的概率;

步骤2.4、根据所述词语集WU的概率在所述主题词矩阵中进行匹配,获得所述 词语集WU中每个词语在所述主题词矩阵中出现的概率表示所述搜索用户U的词语集WU中第k个词语在所述主题词矩阵中出现的概率;

步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集WU中第k个 词语的混合概率从而获得所述词语集WU的混合概率

式(1)中,λ表示所述Jelinek-Mercer平滑方法的平滑参数;

步骤2.6、根据步骤2.2-步骤2.5,对所述关注者集合FU的词语集WF进行处理,获得J 个关注者对每个主题的兴趣度,记为以及J个关注者的词语集 的混合概率集表示第j个关注者fj的所有主题的兴趣度 集合;并有表示第j个关注者fj对第p个主题的兴趣度; 表示第j个关注者fj的词语集中所有词语的混合概率;

步骤3、获得J个关注者FU在m个主题上的交互率IN:

步骤3.1、将所述搜索用户U的原始语料集DU与所述第j个关注者fj的原始语料集 进行交集处理,获得所述搜索用户U转发所述第j个关注者fj的原始语料集,记为 并进行分词处理,获得所述搜索用户U转发第j个关注者fj的词语集,记为表示所述搜索用户U转发所述第j个关 注者fj的原始语料集中第z条原始语料;表示所述搜索用户U转发第j个关注者fj的词语 集中第t个词语;1≤t≤T;1≤z≤Z;

步骤3.2、统计所述搜索用户U转发第j个关注者fj的词语集中第t个词语在第p 个主题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为 Sj(p)={sj,1(p),sj,2(p),...,sj,t(p),...,sj,T(p)};

步骤3.3,重复步骤3.2,从而获得所述搜索用户U转发第j个关注者fj的词语集中T 个词语在m个主题上出现的次数,记为

步骤3.4,重复步骤3.3,获得所述搜索用户U转发J个关注者FU的词语集中的所有 词语在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};

步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得 第j个关注者fj在m个主题上的交互率进而获得J个关 注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:

INj(p)=Sj(p)Σj=1JSj(p)---(2)

步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与 所述第j个关注者fj的所有主题的兴趣度集合之间的相似度从而获得所述搜索用 户U对所有主题的兴趣度θU与J个关注者的所有主题的兴趣度集合之间的相似度 SIMU={SIM1U,SIM2U,...,SIMjU,...,SIMJU};

SIMjU=1KL(θU||θjF)---(3)

步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门 度POPU={POP1,POP2,…,POPj,…,POPJ}:

POPj=log(ρj)log(ρmax)---(4)

式(4)中,ρj表示所述社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示所述社 交网络中拥有最大粉丝数用户的粉丝量;

步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值

Γp(j)=(σ1,σ2,σ3,σ4)Tθp(j)INj(p)SIMjUPOPj---(5)

式(5)中,σ1234分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POPj的权重;并有σ1234=1;

步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注 者FU对m个主题的评价和ΓU={Γ12,…,Γj,…,ΓJ}:

Γj=Σp=1mΓp(j)---(6)

步骤6.3、对所述J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为 Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示所述前X个评价和中第x个评价和;1≤x≤X;

步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个 主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评 价模型进而获得所述搜索用户U在m个主题下K个词语的评 价模型

式(7)中,表示所述第x个关注者fx的词语集中第k个词语在所述主题词 矩阵中出现的概率;β表示所述Dirichlet先验平滑方法的平滑参数;

步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;

步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询,返回G条原始 语料和所述G条原始语料所对应的作者;将G条原始语料记为表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG}; ag表示第g个作者;将所述G个作者的所有原始语料集合记为表示第g个作者ag的原始语料集;1≤g≤G;

步骤7.2、对所述G个作者A的原始语料集合DA进行分词处理,获得所述G个作者A的 词语集,记为表示所述第g个作者ag的词语集;1≤e≤E;

步骤7.3、对所述作者集合A的词语集WA进行处理,获得G个作者对每个主题的兴趣 度,记为表示第g个作者ag的所有主题的兴趣度集合;并有 表示第g个作者ag对第p个主题的兴趣度;

步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第g个作者ag的所有主题的兴趣度集合之间的相似度从而获得所述搜索 用户U对所有主题的兴趣度θU与G个作者的所有主题的兴趣度集合之间的相似度 SIMU={SIM1U,SIM2U,...,SIMgU,...,SIMGU};

SIMgU=1KL(θU||θgA)---(8)

步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者ag的关 注交叉率Jaccard(U,g),从而获得所述搜索用户U与G个作者的关注交叉率:

Jaccard(U,g)=|Fol(U)Fol(g)||Fol(U)Fol(g)|---(9)

式(9)中,Fol(U)表示所述搜索用户U所关注的对象的集合;Fol(g)表示第g个作者 ag所关注的对象的集合;

步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所 构成的第g个作者ag的评价指标;

步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):

Inf(g)=inp(g)inp(g)+out(g)---(10)

式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的 对象数量;

步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):

Tra(g)=lg(1+ret(g))(11)

式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;

步骤8.3、判断所述第g个作者ag是否为认证用户,若是认证用户,则令认证度PC (g)=τ;否则,令认证度PC(g)=0;

步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集WU进行训练,获得 第g条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的 第p个主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);

Auth(g)=Σp=1mηQue(g,p)×θp(g)---(12)

步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所 构成的第g条原始语料的评价指标;

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):

Len(g)=l(g)maxdDgAl(d)---(13)

式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原 始语料集中任意一条语料的词语总数;

步骤9.3、判断所述第g条原始语料是否含有链接,若含有链接,则令外联度 Url(g)=μ;否则,令外联度Url(g)=0;

步骤9.4、判断所述第g条原始语料是否含有标签,若含有标签,则令标签值Has (g)=ρ;否则,令标签值Has(g)=0;

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):

Ret(g)=ret(g)maxgDQueret(g)---(14)

式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语 料DQue中任意一条原始语料被转发的次数;

步骤10、获得搜索结果;

步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者ag的 信任度ψU,g

ψU,g=α1TLen(g)Url(g)Has(g)Ret(g)α2TInf(g)Tra(g)PC(g)Auth(g)α3TSIMgUJaccard(U,g)---(15)

式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者 ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;

步骤10.2、利用式(16)获得第g条原始语料的综合评分从而 获得G条原始语料的综合评分:

步骤10.3、对所述G条原始语料的综合评分进行降序排序,所获得的排序结果 即为所述个性化搜索方法的搜索结果。

与已有技术相比,本发明的有益效果体现在:

1、本发明在给搜索用户呈现社交网络的搜索结果时对用户的文本进行了建模,利 用用户与关注者的社交网络关系对模型进行了补充,解决了数据稀疏性的问题;同时也考 虑用户与社交网络文章作者的社交网络关系,对用户与作者的关系进行建模,从用户对文 本的兴趣,与作者的兴趣两方面给搜索结果进行评分,有效提升了个性化的效果。

2、本发明运用搜索用户的兴趣度及其词语集构建了混合概率,构建基于社交网络 文本主题维度的搜索用户兴趣模型;所提模型提出了一种将单个用户的原始语料集作为一 个文本的训练方法,有效解决了社交网络中文本短,语料稀疏等问题。

3、本发明充分利用用户与社交网络文本作者的关系特征,提出了融合社交属性的 用户-作者关系学习方法,构建基于用户-作者关系维度的用户兴趣模型,有效的反映了用 户对文本的兴趣以及用户对作者的兴趣,为用户提供真正的个性化的搜索结果。

附图说明

图1为本发明用户-作者关系建模的个性化搜索方法阶段示意图。

具体实施方式

本实施例中的个性化搜索方法,采集了大量的社交网络用户的原始语料集来训练 基础的lda主题模型,然后采集用户信息与原始语料集,训练得到用户模型,采集用户好友 信息与原始语料集拓展用户模型,并在用户提交搜索关键词返回结果后,采集文章作者的 信息和原始语料集,以及该搜索结果的其他信息,从作者权威度,质量,用户和作者的关联 三个方面对用户和作者进行建模,最终对搜索结果进行重排序。最后,通过真实的语料集对 本发明所提的方法与其他基础算法进行比较。具体的说:

一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,社交网络 中包含搜索用户U以及搜索用户U所关注的对象;将搜索用户U所关注的对象记为搜索用户U 的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则搜索用户U为第j个关注者fj的粉丝;1≤j≤J;按如下步骤进行:

步骤1、获得主题词矩阵

步骤1.1、从社交网络上收集原始语料集D并进行分词处理,获得原始语料集D的词 语集W;这里的社交网络可以是微博、微信等社交网络平台,本实施例中以微博为例。分词处 理使用Ansj分词,Ansj分词是一个ictclas的java实现,基本上重写了所有的数据结构和算 法。词典使用了pullword词典,并且对专有名词进行了部分的人工优化。原始语料通过爬虫 抓取,可直接对stream进行采集,也可利用微博认证名人堂进行用户与微博抓取;

步骤1.2、对词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示词 典C中第i个词语;n表示词语的总数;1≤i≤n;去冗余的过程中可使用哈工大停用词表对停 用词进行处理;

步骤1.3、对词语集W进行LDA模型训练,获得主题词矩阵 ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题 的总数;1≤p≤m;训练LDA可使用Mallet,Mallet为UMassAmherst提供的开源的语言机器学 习工具箱,其中在LDA中建议将alpha、beta设置为0.01,主题设置可利用信息熵进行选择, 迭代次数不低于2000次;为构建主题模型,本发明通过爬虫抓取了新浪微博的数据。随机选 取了5138个用户,共259万条微博。通过用户名和用户粉丝和关注数的特定模式删除了“僵 尸”用户,剩余用户5003个。本发明将少于10字的微博过滤掉,共剩余212万条微博。本发明 基于该数据集训练LDA模型。

步骤2、获得搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的 兴趣度ΘF及其词语集WU的混合概率ΦF

步骤2.1、从社交网络上收集搜索用户U的原始语料集以及关注者集合FU的原始语料集并分别进行分词处理,获得 搜索用户U的词语集,记为以及关注者集合FU的词语集,记为 表示搜索用户U的第l条原始语料;表示第j个关注者 fj的原始语料集;表示搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词 语集;1≤k≤K;1≤l≤L;LiangjieHong等人在EmpiricalStudyofTopicModelingin Twitter中指出将搜索用户U的原始语料集以及关注者的原始语料集作为一个整体进行处 理将获得更好的效果,能有效解决短文本的问题;步骤2.2、利用主题词矩阵对搜索用户U 的词语集WU进行训练,获得搜索用户U的词语集WU中每个词语所对应的主题,以及搜索用户U 对所有主题的兴趣度,记为表示搜索用户U对第p个主题的 兴趣度;

表一为通过LDA训练得到的用户微博在主题上词的分布示意表;将搜索者的词语 集进行LDA训练,可有效的训练出搜索者语料的主题,以及每个词语对应的主题;如“林俊 杰”、“新曲”、“MV”等明显属于“音乐”主题,“魅族”、“小米”、“忠诚度”等明显属于“科技数 码”主题;

表1:本发明在步骤二训练得到的用户微博在主题上词的分布示意表

步骤2.3、统计词语集WU中每个词语在所对应的主题上出现的概率,记为 表示搜索用户U的词语集WU中第k个词语在其对应的主题 上出现的概率;如表2所示,在获得搜索用户的词语集每个词语对应的主题之后,可以获得 搜索用户对所有主题的兴趣度,并可统计获得词语集中每个词语所对应的概率;词语“林俊 杰”在“音乐”主题下出现4次,“小米”在“科技数码”主题下出现12次;

表2:本发明在步骤二训练得到的用户微博在主题上分布的示意表

步骤2.4、根据词语集WU的概率在主题词矩阵中进行匹配,获得词语集WU中每 个词语在主题词矩阵中出现的概率表示搜索用户U的 词语集WU中第k个词语在主题词矩阵中出现的概率;

步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得词语集WU中第k个词语 的混合概率从而获得词语集WU的混合概率

式(1)中,λ表示Jelinek-Mercer平滑方法的平滑参数;

步骤2.6、根据步骤2.2-步骤2.5,对关注者集合FU的词语集WF进行处理,获得J个关 注者对每个主题的兴趣度,记为以及J个关注者的词语集的混 合概率集表示第j个关注者fj的所有主题的兴趣度集 合;并有表示第j个关注者fj对第p个主题的兴趣度; 表示第j个关注者fj的词语集中所有词语的混合概率;

步骤3、获得J个关注者FU在m个主题上的交互率IN:

步骤3.1、将搜索用户U的原始语料集DU与第j个关注者fj的原始语料集进行交集处 理,获得搜索用户U转发第j个关注者fj的原始语料集,记为并进行 分词处理,获得搜索用户U转发第j个关注者fj的词语集,记为表示搜索用户U转发第j个关注者fj的原始语料集中第z条原始语料;表示搜索用户U转 发第j个关注者fj的词语集中第t个词语;1≤t≤T;1≤z≤Z;

步骤3.2、统计搜索用户U转发第j个关注者fj的词语集中第t个词语在第p个主 题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为 Sj(p)={sj,1(p),sj,2(p),...,sj,t(p),...,sj,T(p)};

步骤3.3,重复步骤3.2,从而获得搜索用户U转发第j个关注者fj的词语集中T个词 语在m个主题上出现的次数,记为

步骤3.4,重复步骤3.3,获得搜索用户U转发J个关注者FU的词语集中的所有词语 在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};

步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得 第j个关注者fj在m个主题上的交互率进而获得J个关 注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:

INj(p)=Sj(p)Σj=1JSj(p)---(2)

步骤4、利用式(3)所示的KL散度来衡量搜索用户U对所有主题的兴趣度θU与第j个关注 者fj的所有主题的兴趣度集合之间的相似度从而获得搜索用户U对所有主题的兴趣度 θU与J个关注者的所有主题的兴趣度集合之间的相似度KL散度,又称相对熵,是描述两个概率分布P和Q差异的一种方法,这里使用KL散度可有效表 征出用户U对所有主题的兴趣度θU与第j个关注者fj的所有主题的兴趣度集合之间的相 似度。

SIMjU=1KL(θU||θjF)---(3)

步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门 度POPU={POP1,POP2,…,POPj,…,POPJ}:

POPj=log(ρj)log(ρmax)---(4)

式(4)中,ρj表示社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示社交网络中 拥有最大粉丝数用户的粉丝量;

步骤6、获得搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值

Γp(j)=(σ1,σ2,σ3,σ4)Tθp(j)INj(p)SIMjUPOPj---(5)

式(5)中,σ1234分别表示兴趣度的权重、交互率的权重、相似度 的权重和热门度POPj的权重;并有σ1234=1;

步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注 者FU对m个主题的评价和ΓU={Γ12,…,Γj,…,ΓJ}:

Γj=Σp=1mΓp(j)---(6)

步骤6.3、对J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示前X个评价和中第x个评价和;1≤x≤X;可将X设 置成20;

步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得搜索用户U在第p个主题 下对第k个词语的评价模型从而获得搜索用户U在第p个主题下K个词语的评价模型 进而获得搜索用户U在m个主题下K个词语的评价模型

式(7)中,表示第x个关注者fx的词语集中第k个词语在主题词矩阵中 出现的概率;β表示Dirichlet先验平滑方法的平滑参数;可将λ设置为0.2,β设置为80;

步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;

步骤7.1、搜索用户U在社交网络中提交搜索词组Que进行查询,返回G条原始语料 和G条原始语料所对应的作者;将G条原始语料记为表示第g条原始语料;将G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG};ag表 示第g个作者;将G个作者的所有原始语料集合记为表示 第g个作者ag的原始语料集;1≤g≤G;

本发明共选择了33位活跃用户(半年发微博数量多于200)。为了构建用户个性化 兴趣模型,抽取每一用户半年内的微博,并抓取了用户的好友列表,计算用户和好友的关 系,选取关系最近的前二十位好友,抓取这些好友的微博,以及好友的粉丝数等信息。为了 度量微博作者的特征,抓取了返回结果的作者在半年内发布的微博、每条微博的转发次数 与评论次数、作者的粉丝数、关注数、关注列表和认证信息等。实验共收集查询139个,将搜 索结果不足20个的去除掉,剩余125组搜索结果;用户提交关键词之后,获得返回的2页搜索 结果以及每条结果对应的评论数与转发数,并按照每条结果的作者,抓取对应的微博作者, 获取微博作者的历史微博,是否为认证微博,关注数与粉丝数,历史微博的转发总数;

步骤7.2、对G个作者A的原始语料集合DA进行分词处理,获得G个作者A的词语集, 记为表示第g个作者ag的词语集;1≤e≤E;

步骤7.3、根据步骤2.2-步骤2.5,对作者集合A的词语集WA进行处理,获得G个作者 对每个主题的兴趣度,记为表示第g个作者ag的所有主题的 兴趣度集合;并有表示第g个作者ag对第p个主题的兴趣 度;

步骤7.4、利用式(8)所示的KL散度来衡量搜索用户U对所有主题的兴趣度θU与第g个 作者ag的所有主题的兴趣度集合之间的相似度从而获得搜索用户U对所有主题的兴趣度 θU与G个作者的所有主题的兴趣度集合之间的相似度SIMU={SIM1U,SIM2U,...,SIMgU,...,SIMGU};

SIMgU=1KL(θU||θgA)---(8)

步骤7.5、利用式(9)所示的Jaccard距离计算搜索用户U与第g个作者ag的关注交 叉率Jaccard(U,g),从而获得搜索用户U与G个作者的关注交叉率:

Jaccard(U,g)=|Fol(U)Fol(g)||Fol(U)Fol(g)|---(9)

式(9)中,Fol(U)表示搜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所 关注的对象的集合;Jaccard距离是用来衡量两个集合差异性的一种指标,它是Jaccard相 似系数的补集,被定义为1减去Jaccard相似系数;

步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所 构成的第g个作者ag的评价指标;

步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):

Inf(g)=inp(g)inp(g)+out(g)---(10)

式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的 对象数量;

步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):

Tra(g)=lg(1+ret(g))(11)

式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;

步骤8.3、判断第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g)= τ;否则,令认证度PC(g)=0;

步骤8.4、利用主题词矩阵对第g条原始语料的词语集WU进行训练,获得第g条 原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第p个 主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);

Auth(g)=Σp=1mηQue(g,p)×θp(g)---(12)

步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所 构成的第g条原始语料的评价指标;

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):

Len(g)=l(g)maxdDgAl(d)---(13)

式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原 始语料集中任意一条语料的词语总数;

步骤9.3、判断第g条原始语料是否含有链接,若含有链接,则令外联度Url(g) =μ;否则,令外联度Url(g)=0;

步骤9.4、判断第g条原始语料是否含有标签,若含有标签,则令标签值Has(g) =ρ;否则,令标签值Has(g)=0;

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):

Ret(g)=ret(g)maxgDQueret(g)---(14)

式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语 料DQue中任意一条原始语料被转发的次数;

步骤10、获得搜索结果;

步骤10.1、利用式(15)获得搜索用户U对第g条原始语料的第g个作者ag的信任 度ψU,g

ψU,g=α1TLen(g)Url(g)Has(g)Ret(g)α2TInf(g)Tra(g)PC(g)Auth(g)α3TSIMgUJaccard(U,g)---(15)

式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者 ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;

步骤10.2、利用式(16)获得第g条原始语料的综合评分从而 获得G条原始语料的综合评分:

步骤10.3、对G条原始语料的综合评分进行降序排序,所获得的排序结果即为 个性化搜索方法的搜索结果。

为了验证模型的有效性,本发明对查询似然模型(B-QM)和协同个性化搜索主题- 语言模型(B-CM)进行了程序实现。B-QM是语言模型的经典方法,可以对搜索关键词与微博 内容的相关性进行度量。B-CM是由JanVosecky等人提出的个性化微博搜索方法,该方法运 用主题模型与语言模型进行个性化搜索。此外,实验将专利所提方法逐块拆分为A-AMQ模型 (仅考虑由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条 原始语料的评价指标)、A-AMQF模型(考虑由长度比值Len(g)、外联度Url(g)、标签值Has (g)和转发率Ret(g)所构成的第g条原始语料的评价指标与由影响力Inf(g)、传播能力 Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标)、以及A-AMQFA模 型(考虑以上所有特征)。并将上述简化模型与本文所提综合模型的个性化搜索结果进行对 比。排序结果使用PN(前N个结果的正确率)和MAP(宏平均正确率)指标进行评价。

本发明方法与各基准方法在MAP指标下的表现如表3所示。从表3中可以看出本发 明方法在微博语料集中较其他方法在MAP(3)、MAP(6)、MAP(9)、MAP(15)指标下均有较好的 表现。说明使用本发明方法可将用户真正感兴趣的搜索结果展现在前面;

表3:本发明与各基准模型在MAP指标下的表现

模型 MAP(3) MAP(6) MAP(9) MAP(12) MAP(15) QM 0.091067 0.096896 0.097905 0.098472 0.099776 CM 0.105067 0.108798 0.108221 0.108689 0.108841 AMQ 0.125067 0.126484 0.124264 0.122397 0.121052 AMQF 0.124667 0.127685 0.126504 0.125561 0.124194 AMQFA 0.126933 0.129347 0.126268 0.124903 0.125218

本发明与各基准模型在PN指标下的表现如表4所示。从表4中可以看到本发明方 法在微博语料集中较其他方法在P5、P10、P15指标下均有较好的表现。说明使用本发明 方法能能用户感兴趣的结果从结果集中抽取出来;

表4:本发明与各基准模型在PN指标下的表现

模型 P5 P10 P15 QM 0.07616 0.08928 0.0976 14 -->CM 0.08672 0.09824 0.101867 AMQ 0.10496 0.11008 0.106773 AMQF 0.10912 0.11040 0.106667 AMQFA 0.11072 0.11248 0.108373

表5直观的展现了本发明方法在微博实验集合中的效果,如图搜索用户何小台 RMadrid为一真实用户,其搜索“金球奖”,用户-作者关系建模的个性化搜索方法与其他方 法的结果如下。在表5中可以直观的看到,被发明方法排序靠前的方法都是该用户感兴趣的 足球话题,而非电影话题,并且本发明方法给出排序结果考前的作者都在该领域有一定的 影响力或较为权威;

表5何小台RMadrid搜索“金球奖”,用户-作者关系建模的个性化搜索方法与其 他方法的结果表现

如图1所示,本发明方法在实验中完成分为四个阶段进行。第一阶段进行搜索与打 标,收集搜索用户的查询、对搜索用户提供的查询结果进行抽取、将抽取的的搜索用户的查 询结果提供给搜索用户进行打分;第二阶段进行微博数据的抓取,需要抓取搜索者历史微 博语料集、搜索者好友基本信息与好友历史微博语料集、搜索者所提供查询的搜索结果的 作者基本信息与历史微博语料集,并由此得到主题词矩阵;第三阶段进行建模,训练得到搜 索用户兴趣度与词语集混合矩阵、关注者兴趣度与词语混合矩阵、关注者在主题上交互率、 搜索用户与专注者相似度、关注者热门度,即获得搜索用户评价模型,通过获得交互率、影 响力、传播能力、认证度、权威度、长度比值、外联度、标签值、转发率训练得到搜索用户与作 者训练模型;第四阶段利用第三阶段建立的模型对查询及搜索结果的排序,参照第一阶段 的用户打分,查看最终的排序结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号