公开/公告号CN115544373A
专利类型发明专利
公开/公告日2022-12-30
原文格式PDF
申请/专利权人 合肥工业大学;
申请/专利号CN202211335432.9
申请日2022-10-28
分类号G06F16/9535(2019.01);G06F16/2458(2019.01);G06N3/04(2006.01);G06Q50/00(2012.01);
代理机构安徽省合肥新安专利代理有限责任公司 34101;安徽省合肥新安专利代理有限责任公司 34101;
代理人陆丽莉;何梅生
地址 230009 安徽省合肥市包河区屯溪路193号
入库时间 2023-06-19 18:14:35
法律状态公告日
法律状态信息
法律状态
2023-01-20
实质审查的生效 IPC(主分类):G06F16/9535 专利申请号:2022113354329 申请日:20221028
实质审查的生效
2022-12-30
公开
发明专利申请公布
技术领域
本发明属于基于网络嵌入学习的数据挖掘推荐系统领域,主要涉及一种问答社区中基于模体的问题推荐方法。
背景技术
问答社区是一种用户可以在网站提问,其他用户进行回答的用户在线交流平台,它为人们提供了一个通过提问和回答问题来分享和获取知识的场所。由于回答过程有人的参与,使得提问者能获得更准确的信息。尽管与传统的信息搜索方法相比,问答社区具有一些优势,但它也面临着一些独特的挑战。首先,随着网站用户的增多,问题也越来越多,而很多的问题却不能得到及时的回答,导致用户对网站的使用信心下降;其次,一个用户所感兴趣和所擅长的领域往往只有一两个,而众多的问题使得想要回答问题的用户短时间内找不到适合自己的问题,从而降低了回答问题的欲望,这同样也使得用户对网站的黏性下降;再者,网站上的问题众多,涉及知识面广,质量参差不齐,这些显然给网站管理者带来了沉重的负担。因此,将用户的求助问题推荐给合适的用户回答,既可以缩短求助用户等待时间,又可以为有意愿提供帮助的用户找到合适的帮助对象,从而提高社区的用户参与度,并且大大方便网站管理者的运营工作。
当前关于问题推荐的方法大致可以分为三类:基于特征工程的、基于矩阵分解的和基于网络嵌入学习的。基于特征工程的算法专注于从网站记录中提取特征。从回答历史中提取用户和问题的特征,如问题标签和用户回答的问题数量。这些方法将输入查询表示具有多模态特性的,然后将这些特征输入到线性模型中,如逻辑回归或排序模型。这些算法依赖于人工提取特征,非常耗时;矩阵分解模型旨在将回答者和问题表示在同一潜在空间中。回答者表征使用选定的词汇对每个回答者的专业知识进行建模,问题表征通过与这些词的相关性来进行表示,然后利用回答者与问题的向量内积对回答者进行排序。然而,这类方法严重依赖词汇袋模型,通常无法捕获问题的上下文信息;而网络嵌入学习算法据用户的相对专业等级和对基于问题的社会关系来推荐用户,学习提问者、问题和回答者在同一潜在空间中的表征,网络嵌入学习也成为了近年来研究的热点。网络嵌入模型学习了网络中节点的全局结构信息,并将节点表示在一个低维潜在空间中,然后利用节点嵌入进行推荐。然而,当前对于异构网络的嵌入学习忽略了网络中的高阶结构信息,体现在问题推荐中,即没有充分挖掘用户的互助历史信息,没有充分挖掘网络结构中包含的用户的行为模式和行为规律信息。
发明内容
针对上述现有技术中存在的问题,本发明提出一种问答社区中基于模体的问题推荐方法,以期能更充分的捕捉网络高阶结构中包含的用户行为模式和行为规律信息,并与用户个人特征信息和文本语义信息进行融合,从而能提高问题推荐的准确度。
本发明为了解决技术问题采用如下技术方案:
本发明一种问答社区中基于模体的问题推荐方法的特点是按如下步骤进行:
步骤1、采集问答社区中用户的互助关系、问题文本和用户特征信息并进行预处理,从而建立问答社区的提问者集R={r
步骤2、建立问答社区中的问题-回答者异构网络G
步骤3、初始化回答者在网络G
使用word2vec预训练模型将问题集Q转换为预训练向量,并将预训练向量输入LSTM模型得到问题文本嵌入集合
步骤4、分别使用基于元路径的异构信息网络嵌入学习算法和基于模体的图神经网络嵌入学习算法学习G
步骤4.1、基于元路径的异构信息网络嵌入学习算法的处理:
步骤4.1.1、利用式(1)计算从t
式(1)中,P为元路径,a
步骤4.1.2、按照步骤4.1.1的过程得到从t
步骤4.1.3、通过负采样对元路径P进行处理,并得到正样本集D和负样本集D′,从而利用式(2)构建似然函数
式(2)中,Θ为待优化的参数集合,并包含四个部分:提问者的所有嵌入、回答者在G
基于优化后的参数集合Θ
步骤4.2、基于模体的图神经网络嵌入学习算法的处理:
步骤4.2.1、使用模体挖掘算法ESU挖掘用户同构网络G
基于模体集合M,利用式(3)生成模体网络:
式(3)中,
步骤4.2.2、利用式(4)构建损失函数
式(4)中,
基于优化后的参数集合Θ
步骤4.2.3、利用式(5)合并基于J个模体网络的用户节点嵌入,从而得到合并后的用户嵌入集合
式(5)中,α
区分用户嵌入集合W
步骤5、对于一个查询γ=(r
利用式(6)构建评分函数F:
式(6)中,
步骤6、假设第l个问题q
式(7)中,F为评分函数,且满足式(6)中的不等式条件;
步骤7、利用式(8)构建优化目标s
式(8)中,
通过基于梯度的算法和反向传播交替最大化式(2)和(8)的目标函数、最小化式(4)的损失函数,从而得到优化后的参数集合Θ
步骤8、根据优化后的参数集合Θ
本发明一种电子设备,包括存储器以及处理器的特点在于,所述存储器用于存储支持处理器执行所述问题推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。
本发明一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特点在于,所述计算机程序被处理器运行时执行所述问题推荐方法的步骤。
与现有技术相比,本发明的有益效果在于:
1.本发明充分融合了用户个人特征信息、网络结构信息和文本语义信息,通过基于元路径的异构信息网络嵌入学习算法和基于模体的图神经网络嵌入学习算法学习了回答者对于问题的偏好表征和回答者对于提问者的偏好表征,并融合两方面的匹配得分进行推荐,解决了对用户网络挖掘不充分的问题,提高了整体推荐效果。
2.本发明的模体捕获的高阶结构中包含了用户的行为模式和行为规律信息,利用图神经网络可以有效学习模体网络中的高阶信息,并通过注意力机制融合来自多个模体网络的用户行为信息,从而将不同的用户行为模式和行为规律信息融入用户嵌入中,提高了建模质量。
3.本发明充分利用了用户个人特征信息,在模体网络中将个人特征信息作为节点属性,并通过图神经网络嵌入学习算法将节点属性融入用户嵌入中,使得用户嵌入包含了用户自身的活跃度表征,从而实现对用户初始特征向量的增强,提高了推荐的准确度。
附图说明
图1为本发明方法总体流程图。
具体实施方式
本实施例中,一种问答社区中基于模体的问题推荐方法,包括:1、采集问答社区中用户的互助关系,问题文本和用户特征信息并进行预处理,构建问答社区网络;2、使用模体挖掘算法挖掘用户同构网络中的模体,并基于模体构建模体网络3、分别使用基于元路径的异构信息网络嵌入学习算法和基于模体的图神经网络嵌入学习算法学习网络的节点嵌入,学习到回答者对于提问者的偏好及回答者对于问题的偏好;4、融合回答者两方面的偏好,选择合适的损失函数优化模型参数和特征向量;5、利用推荐模型预测回答者对于未回答过的问题的匹配程度,依据匹配分数将回答者降序排列,并给前N个用户推荐该问题进行回答,从而完成问题推荐任务。具体的说,如图1所示,是按如下步骤进行:
步骤1、采集问答社区中用户的互助关系、问题文本和用户特征信息,特征信息包括用户关注数、粉丝数、社区等级、注册时长,并进行预处理,从而建立问答社区的提问者集R={r
步骤2、建立问答社区中的问题-回答者异构网络G
步骤3、初始化回答者在网络G
使用word2vec预训练模型将问题集Q转换为预训练向量,并将预训练向量输入LSTM模型得到问题文本嵌入集合
步骤4、分别使用基于元路径的异构信息网络嵌入学习算法和基于模体的图神经网络嵌入学习算法学习G
步骤4.1、基于元路径的异构信息网络嵌入学习算法的处理:
步骤4.1.1、利用式(1)计算从t
式(1)中,P为元路径,a
步骤4.1.2、按照步骤4.1.1的过程得到从t
步骤4.1.3、通过负采样对元路径P进行处理,并得到正样本集D和负样本集D′,从而利用式(2)构建似然函数
式(2)中,Θ为待优化的参数集合,并包含四个部分:提问者的所有嵌入、回答者在G
基于优化后的参数集合Θ
步骤4.2、基于模体的图神经网络嵌入学习算法的处理:
步骤4.2.1、使用模体挖掘算法ESU挖掘用户同构网络G
基于模体集合M,利用式(3)生成模体网络:
式(3)中,
步骤4.2.2、利用式(4)构建损失函数
式(4)中,
基于优化后的参数集合Θ
步骤4.2.3、利用式(5)合并基于J个模体网络的用户节点嵌入,从而得到合并后的用户嵌入集合
式(5)中,α
式(6)和式(7)中,E
区分用户嵌入集合W
步骤5、对于一个查询γ=(r
利用式(8)构建评分函数F:
式(8)中,
步骤6、假设第l个问题q
其中,F为评分函数,满足式(8)中的不等式条件;
步骤7、利用式(10)构建优化目标S
式(8)中,
通过基于梯度的算法和反向传播交替最大化式(2)和(10)的目标函数、最小化式(4)的损失函数,从而得到优化后的参数集合Θ
步骤8、根据优化后的参数集合Θ
本实施例中,一种电子设备,包括存储器以及处理器,该存储器用于存储支持处理器执行上述问题推荐方法的程序,该处理器被配置为用于执行该存储器中存储的程序。
本实施例中,一种计算机可读存储介质,是在计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行该问题推荐方法的步骤。
机译: 基于社区的问答档案中的自动常见问题编辑
机译: 基于社区问答的文章推荐方法,系统和用户设备
机译: 社区问题和基于答案的文章推荐方法,系统和用户设备