公开/公告号CN112307746A
专利类型发明专利
公开/公告日2021-02-02
原文格式PDF
申请/专利权人 北京京航计算通讯研究所;
申请/专利号CN202011344972.4
申请日2020-11-25
分类号G06F40/216(20200101);G06F16/33(20190101);G06F16/35(20190101);G06Q50/00(20120101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11386 北京天达知识产权代理事务所(普通合伙);
代理人胡时冶
地址 100074 北京市丰台区云岗北里西区1号院
入库时间 2023-06-19 09:58:59
技术领域
本发明属于网络技术领域,具体涉及一种基于用户聚合主题模型的社交网络用户搜索意图处理系统。
背景技术
社交网络为用户提供了轻量级的、快速的沟通和交流环境,用户能够利用社交网络平台传播和分享新闻事件、日常聊天及生活和工作状态情况。当用户从社交网络中搜索相关内容时,要求系统能够返回期望的结果,并根据其搜索意图进行推荐。现有的社交网络用户搜索意图处理的研究主要集中于基于主题模型方法、基于用户聚类方法以及利用用户的隐私数据等信息来综合建模用户的搜索意图方法。
传统的主题模型被设计用于建模标准的新闻文档或者长文档的语义信息,当将其应用社交网络上下文时,由于语义稀疏且缺少上下文的词共现信息,使其无法获取好的用户搜索意图处理的效果。利用用户的隐私数据如搜索历史、访问日志及点击历史等信息来综合建模用户的搜索意图也成为当前研究的热点,上述方法需要特定的数据,且严重依赖于用户的隐私数据如搜索历史及点击历史等,隐私数据的获取对于研究者来说是困难的,并且这些方法忽略了社交网络词之间的关系及用户属性对搜索意图理解的作用,无法实现社交网络用户搜索意图理解的普适应用。聚类方法没有考虑社交网络上下文中词之间的关联关系,并忽视了普通词对用户搜索意图处理的影响。
发明内容
鉴于上述的分析,本发明旨在公开了一种基于用户聚合主题模型的社交网络用户搜索意图处理系统,解决目前用户意图处理存在的问题。
本发明公开了一种基于用户聚合主题模型的社交网络用户搜索意图处理系统,包括:
在线社交网络数据获取模块,采用爬虫技术在线获取社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据;
数据预处理模块,用于对所述网络数据进行数据清洗,形成网络数据集;
搜索意图获取模块,用于采用基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对所述网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;并基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。
进一步地,所述搜索意图获取模块包括主题模型子模块、先验参数构建子模块和意图聚合子模块;
所述主题模型子模块包括主题-普通词分布模型、主题-对词分布模型、用户-搜索意图分布模型、用户-关注者的搜索意图分布模型和用户-分类模型,用于对网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;
所述先验参数构建子模块,用于对主题-对词分布模型中的超参数进行先验构建;
所述意图聚合子模块,用于基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合;
在所述主题模型子模块中,
基于所述用户-搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;
基于所述用户-关注者的搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;
基于所述主题-普通词分布模型、主题-对词分布模型和用户-分类模型对所述网络数据集进行处理,得到所述用户搜索意图的词分布。
进一步地,所述主题-普通词分布模型符合包含第一超参数μ的狄利克雷分布;
所述主题-对词分布模型中,对词(w
用户-搜索意图分布模型符合包含第四超参数α的狄利克雷分布;
用户-关注者的搜索意图分布模型符合包含第五超参数β的狄利克雷分布;
用户-分类模型符合包含第六超参数η的狄利克雷分布。
进一步地,所述先验参数构建子模块通过基于循环神经网络和逆文档频率进行先验构建得到第二超参数γ
进一步地,所述先验参数构建子模块包括循环神经网络RNN模组、逆文档频率模组、词对集合构建模组和参数构建模组;
所述循环神经网络RNN模组,用于通过循环神经网络RNN对网络数据集中收录的文档中的词进行学习,得到两个相互关联的关联词的关联概率;
所述逆文档频率模组,用于采用逆文档频率
词对集合构建模组,基于循环神经网络RNN模组和逆文档频率模组的输出结果,构建与提取词对集合C={C
其中,
参数构建模组,用于构建第二超参数
进一步地,所述循环神经网络RNN模组中的循环神经网络的隐含层激励函数为西格玛函数;输出层激励函数为softmax函数。
进一步地,在所述主题模型子模块中对于词对集合的每个词对C
1)利用用户-搜索意图分布模型输出的用户搜索意图分布θ
2)利用用户-关注者的搜索意图分布模型输出的用户关注者搜索意图分布
3)对于词对集合C中的每个词;
利用用户-分类模型输出的用户分类的分布τ
如果x=0,利用主题-普通词分布模型输出的一般词分布φ
如果x=1,利用主题-对词分布模型输出的词分布φ
进一步地,在所述主题模型子模块中,采用吉布斯采样对建立的社交网络用户聚合主题模型进行迭代采样,得到用户搜索意图分布、用户关注者的意图分布及用户的词分布。
进一步地,所述主题模型子模块经过吉布斯采样迭代采样后输出的:
用户搜索意图分布
用户关注者的意图分布
用户搜索意图的词分布φ
其中,n
进一步地,所述意图聚合子模块,通过聚类式
本发明至少可实现以下有益效果之一:
本发明针对当前主流的社交网络用户搜索意图处理方法需要特定的隐私数据,且不具有普适性问题;
通过构建社交网络用户聚合主题模型获取了用户搜索意图分布,解决了社交网络上下文稀疏性问题,并区分建模主题词和普通词,实现了社交网络词关系学习;考虑用户搜索意图分布和关注者意图分布,构建了用户意图权重表示,实现了社交网络用户搜索意图的理解与挖掘。
本发明的社交网络用户意图处理方法可以在没有可用的访问日志如搜索历史、点击日志等数据下能够有效地理解和挖掘用户的搜索意图,且在性能上有显著的提升。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本实施例中的社交网络用户搜索意图处理系统组成连接示意;
图2为本实施例中的在线社交网络用户聚合主题模型表示图;
图3为本实施例中的Elman RNN网络结构图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本实施例公开了一种基于用户聚合主题模型的社交网络用户搜索意图处理系统,如图1所示,
在线社交网络数据获取模块,采用爬虫技术在线获取社交网络中包括用户信息、关注者信息和用户在线社交内容文本在内的网络数据;
具体的,在线社交网络数据获取模块通过网络爬虫软件爬取在线社交网络中的数据,例如爬取新浪微博数据;爬取的数据中包括微博用户信息、微博用户的关注者的信息,以及微博用户发布在微博上的在线社交内容文本信息。
数据预处理模块,用于对所述网络数据进行数据清洗,形成网络数据集;
具体的,所述对数据预处理模块对爬取的数据进行数据清洗和处理;删除数据中的错误、冗余数据,以及不含具体内容的虚词,只保留微博内容的主干形成网络数据集;
数据预处理模块,包括抽取单元、分词单元和分类保存单元;
其中,抽取单元用于从网络数据中抽取用户信息、用户的关注者信息,以及用户的文本内容,并且清除文本内容中杂乱信息。
分词单元,用于对清理后的文本内容进行分词处理,删除错误、冗余的词,以及不含具体内容的虚词,例如只保留微博内容;并对非常短的文本进行删除,例如“点赞”、“鼓掌”等没有具体含义的文本。
分类保存单元,用于将用户数据、用户关注者数据以及社交内容数据进行分类保存,形成微博文本集合M={m
搜索意图获取模块,用于采用基于狄利克雷分布和吉布斯采样建立在线社交网络用户聚合主题模型,对所述网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;并基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合,获取最终的社交网络用户搜索意图。
具体的,搜索意图获取模块包括主题模型子模块、先验参数构建子模块和意图聚合子模块;
所述主题模型子模块包括主题-普通词分布模型、主题-对词分布模型、用户-搜索意图分布模型、用户-关注者的搜索意图分布模型和用户-分类模型,用于对网络数据集进行处理,得到用户搜索意图分布、关注者搜索意图分布和用户搜索意图的词分布;
所述先验参数构建子模块,用于对主题-对词分布模型中的超参数进行先验构建;
所述意图聚合子模块,用于基于用户搜索意图分布、关注者搜索意图分布进行用户意图聚合;
在所述主题模型子模块中,
基于所述用户-搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;
基于所述用户-关注者的搜索意图分布模型对所述网络数据集进行处理,得到用户搜索意图分布;
基于所述主题-普通词分布模型、主题-对词分布模型和用户-分类模型对所述网络数据集进行处理,得到所述用户搜索意图的词分布。
更具体的,
所述主题-普通词分布模型符合包含第一超参数μ的狄利克雷分布;即对于每个主题z,得到的微博的普通词分布φ
所述主题-对词分布模型中,对词(w
用户-搜索意图分布模型符合包含第四超参数α的狄利克雷分布;即对于每个用户u,得到的用户搜索意图分布θ
用户-关注者的搜索意图分布模型符合包含第五超参数β的狄利克雷分布;即对于每个用户u,得到的用户关注者的搜索意图分布
用户-分类模型符合包含第六超参数η的狄利克雷分布;即对于每个用户u,得到的用户的分类分布τ
具体的,在线社交网络用户聚合主题模型表示图如图2所示。
其中,第一超参数μ、第四超参数α、第五超参数β和第六超参数η均可采用常规的狄利克雷分布超参数值,例如0.1或0.01。
所述先验参数构建子模块通过基于循环神经网络和逆文档频率进行先验构建得到第二超参数γ
具体的,所述先验参数构建子模块包括循环神经网络RNN模组、逆文档频率模组、词对集合构建模组和参数构建模组;
所述循环神经网络RNN模组,用于通过循环神经网络RNN对网络数据集中收录的文档中的词进行学习,得到两个相互关联的关联词的关联概率;
优选的,利用Elman RNN来学习词之间关系的网络结构如图3所示。
在图3中,
H
o
其中,
g(·)是softmax函数,其计算如式(4)所示:
在输出的结果中,o
o
其中,o
所述逆文档频率模组,用于采用逆文档频率
词对集合构建模组,基于循环神经网络RNN模组和逆文档频率模组的输出结果,构建与提取词对集合C={C
其中,
参数构建模组,用于构建第二超参数
更具体的,在所述主题模型子模块中对于词对集合的每个词对C
1)利用用户-搜索意图分布模型输出的用户搜索意图分布θ
2)利用用户-关注者的搜索意图分布模型输出的用户关注者搜索意图分布
3)对于词对集合C中的每个词;
利用用户-分类模型输出的用户分类的分布τ
如果x=0,利用主题-普通词分布模型输出的一般词分布φ
如果x=1,利用主题-对词分布模型输出的词分布φ
进一步地,在所述主题模型子模块中,采用吉布斯采样对建立的社交网络用户聚合主题模型进行迭代采样,得到用户搜索意图分布、用户关注者的意图分布及用户的词分布。
采用吉布斯采样可推导社交网络用户聚合主题模型(UATM)中的未知参数。吉布斯采样的核心是通过先验估计迭代采样隐变量。在采样过程中,需要积分掉用户搜索意图分布θu、关注者的搜索意图分布
对于所有用户,n
通过式(6)可以推导隐变量,其中Γ(x)表示伽马函数,π是权重参数,用于调整用户的搜索意图和用户关注者的搜索意图的权重表达。基于联合分布和链式法则,可以得到如式(7)所示的条件概率分布:
其中,-i表示不包含第i个微博的统计计数。Φ为所有用户搜索意图分布集合;Θ为所有用户关注者搜索意图分布集合;Ψ为数据集中词分布集合。
获取到条件概率分布后,利用链式规则直接采样主题zdi,并通过推导开关变量x,得到如式(8)和式(9)所示的结果:
其中,-j表示不统计第j个词的计数,w
在吉布斯采样的初始状态,根据式(8)和式(9)采样隐变量。完成充分的迭代后,所述主题模型子模块输出的用户搜索意图分布、用户关注者的意图分布及用户的词分布如式(10)、式(11)、式(12)和式(13)所示:
基于式(11)和式(12),得到用户搜索意图的词分布,如式(14)所示:
φ
具体的,所述意图聚合子模块,基于用户的搜索意图以及关注者搜索意图构建用户搜索意图的权重表示Ω来联合挖掘用户的搜索意图,计算公式如式(15)所示:
式中,θ
聚类式(19)得到的用户的搜索意图分布,获取到最终的社交网络用户搜索意图。从而使社交网络的运营方可根据用户的搜索意图和用户搜索意图的词分布来提供在线社交内容,缩短了用户的搜索时间,提高了用户体验。
综上所述,实施例针对当前主流的社交网络用户搜索意图处理方法需要特定的隐私数据,且不具有普适性问题;通过构建社交网络用户聚合主题模型获取了用户搜索意图分布,解决了社交网络上下文稀疏性问题,并区分建模主题词和普通词,实现了社交网络词关系学习;考虑用户搜索意图分布和关注者意图分布,构建了用户意图权重表示,实现了社交网络用户搜索意图的理解与挖掘,在没有可用的访问日志如搜索历史、点击日志等数据下能够有效地理解和挖掘用户的搜索意图,且在性能上有显著的提升。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
机译: 通过从每个单独的书签数据中分析每个用户的意图并在Internet上搜索信息时对其进行过滤来检索基于用户意图的个性化搜索结果的方法
机译: “工作伙伴”是作为商人社交网络使用的应用程序。该网络将以类似的方式基于专业的linkedIN起作用,用户可以在其中创建个人资料并与工作人员联系,就像现实世界中的商人网络一样。该网络将允许用户搜索具有相似社交圈的交易。搜索结果将首先返回连接数最多的同事,然后返回两个分离度的同事,依此类推。该界面将在屏幕底部包括4条,分别是搜索,邮件,提要和个人资料。用户点击3次即可找到结果。
机译: 基于用户搜索意图的意图搜索方法