首页> 中国专利> 基于社区查询和高维向量检索的科技专家检索方法

基于社区查询和高维向量检索的科技专家检索方法

摘要

本发明公开了基于社区查询和高维向量检索的科技专家检索方法,该方法通过文档相似度关系对生成训练样本,将文本信息嵌入文档语义向量表示与专家论文关系异构图中。通过专家贡献度池化,提取专家在不同领域的多篇学术文档特征,解决了直接聚合不同方向的学术文档向量在向量空间分布可能存在较大差异而造成特征丢失的问题。又利用专家紧密社区信息和专家多领域的向量表征关系进一步生成领域聚簇四元组训练样本,优化专家领域聚簇向量的表示,最终实现学术文档文本信息、语义信息以及专家社区信息的紧密结合,提高了返回结果的精度。同时利用高维向量索引快速匹配以及专家重排算法,从而实现高效、精准的专家查询。

著录项

  • 公开/公告号CN115630141A

    专利类型发明专利

  • 公开/公告日2023-01-20

    原文格式PDF

  • 申请/专利权人 杭州电子科技大学;

    申请/专利号CN202211413270.6

  • 发明设计人 杜承豫;王宇翔;徐小良;

    申请日2022-11-11

  • 分类号G06F16/33(2019.01);G06F16/332(2019.01);G06F16/338(2019.01);G06F16/31(2019.01);G06F16/35(2019.01);G06F16/36(2019.01);G06F40/289(2020.01);G06F40/30(2020.01);G06F18/22(2023.01);G06F18/214(2023.01);G06N3/0464(2023.01);G06N3/08(2023.01);

  • 代理机构杭州君度专利代理事务所(特殊普通合伙) 33240;

  • 代理人杨舟涛

  • 地址 310018 浙江省杭州市下沙高教园区2号大街

  • 入库时间 2023-06-19 18:24:15

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-25

    授权

    发明专利权授予

  • 2023-02-14

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022114132706 申请日:20221111

    实质审查的生效

  • 2023-01-20

    公开

    发明专利申请公布

说明书

技术领域

本发明属于数据检索技术领域,涉及科技专家的检索方法,具体涉及基于社区查询和高维向量检索的科技专家检索方法。

背景技术

近年来,随着科技领域的持续研究投入,大大推动了研究事业的发展,也产生了大量的科技领域数据,包括高质量的科技文献、科技专家、科技项目、科技报告等多样化科技信息,构成了复杂异质学术网络。在期刊、会议的审稿人分配、各类学术相关咨询、项目评审专家筛选、导师推荐、产学研技术转移等场景中,都需要利用这些高价值的科技数据。因此精准、有效的科技专家检索方法成为了当前的研究热点。

所述科技专家检索是指基于科技文献的专家检索,利用学术资源表征专家专长,将专家名下或相关的学术文档作为其相关属性,计算各专家属性与给定查询文档的相关性程度,并且根据相关性程度高低进行排序,返回搜索结果,展示专家列表。

传统的专家检索方法大多基于关键词的文本匹配或词向量匹配等单一方法返回查询结果,没有综合考虑客观存在的学术网络显性关联关系特征,例如学术文档的共同作者关系、共同引用关系等,也很少考虑学术文档中丰富的语义信息之间的内在联系。随着推荐系统的发展,也有部分方法通过多路召回与融合排序的方式,对单路召回的结果作进一步的筛选。然而这种方式的每路召回过程仍然是比较独立的,对于文本关键词、语义信息以及学术网络信息之间没有进行比较强的嵌入融合,专家检索的结果精度提高的帮助有限。此外,现有专家检索方法大多基于传统的排序、倒排索引等技术,在面对大规模数据场景时存在性能瓶颈。

发明内容

针对现有技术的不足,本发明提出了基于社区查询和高维向量检索的科技专家检索方法,通过信息的三次嵌入,实现学术文档文本信息、语义信息以及专家社区信息的紧密结合,并构建高维向量索引,快速得到查询结果,解决现有技术查询结果精度不高以及返回速度较慢的问题。

基于社区查询和高维向量检索的科技专家检索方法,具体包括以下步骤:

步骤1、获取科技领域数据,建立专家集合A={a

步骤2、提取学术文档的文本信息。对文档文本信息进行分词、去停用词处理。通过BM25计算文本关键词匹配程度,得到文本相似度。将文本相似度大于设定阈值的文档p

S2-1,对学术文档集合D={p

S2-2,将学术文档的摘要或标题中的短语、词组作为语素,利用Elastic Search的文本匹配BM25算法,计算学术文档科技词集合D′中每两篇学术文档之间的文本相似度Score(p

其中,p

S2-3,根据S2-2的计算结果,为每一篇学术文档p

步骤3、为了提取学术文档中的语义信息,首先利用科技领域数据对词向量模型进行预训练,然后将学术文档输入预训练后的词向量模型,得到学术文档的初始向量表示。再将步骤2中得到的学术文档关系对作为正样本,将相似度低的学术文档作为负样本,生成文档正负例训练样本。将正负例训练样本输入神经网络模型进行训练,调整词向量模型,将文本相似度嵌入文档语义信息中,得到二次表征的文档语义向量。具体包括以下步骤:

S3-1,将学术文档输入利用科技领域数据预训练后的词向量模型中进行编码,得到学术文档的向量表示集合

S3-2,对于学术文档p

S3-3,为了让负样本间尽可能不相似,选择负样本的方法为:

S3-3-1、针对学术文档p

S3-3-2、对于p

S3-3-3、重复3次S3-3-2,将临时队列Q

S3-4,将三元组

其中c是超参数,δ(,)表示两个向量间的欧几里得范式距离。

S3-5,调整词向量模型,得到二次表征的文档语义向量

步骤4、根据专家与学术文档的著作关系、学术文档间的引用关系和关系对集合,构建学术异构图。所述学术异构图以文档关系对M、学术文档P以及专家A作为节点,以著作关系、引用关系以及相似度作为连边。再通过元路径将异构图转化成以专家为节点的同构图,在同构图中寻找专家的k-core紧密社区。具体包括以下步骤:

S4-1,根据专家与学术文档之间的著作关系A-P和学术文档之间的引用关系P-P构建初始异构图。然后根据步骤2构建的学术文档关系对在初始异构图中嵌入节点M,每个节点M连接两篇构成学术文档关系对的学术文档P,表示学术文档间具有高相关性。从而得到学术异构图G(A,P,M)。

S4-2,通过元路径

S4-3,基于专家节点的同构图G

步骤5、依次对每个专家名下的学术文档进行层次聚类,根据聚类结果获得每个专家的研究领域。将一个研究领域下所有学术文档的语义向量池化为一个特征提取向量,将专家所有研究领域对应的特征提取向量组成该专家的专家矩阵。具体步骤如下:

S5-1,针对专家集合A={a

S5-2,对向量矩阵

S5-3,对于一个聚簇c

其中,

其中R(a

S5-4,计算专家a

步骤6、将专家k-core紧密社区嵌入专家向量,具体步骤如下:

S6-1,根据专家a

①对于两个领域聚簇c

②对于两个领域聚簇c

③对于两个领域聚簇c

④对于两个领域聚簇c

其中,c

S6-2,将第一种情况记为完全正样本c

S6-3,将一个领域聚簇四元组

步骤7、基于领域向量构建高维向量索引,根据用户输入的查询文档返回专家查询结果,具体步骤如下:

S7-1,基于专家矩阵

S7-1-1,根据专家矩阵

S7-1-2,对聚簇集合

S7-1-3,建立虚点

S7-1-4,依次针对新加入高维向量索引图G

S7-1-5,重复S7-1-4,直至聚簇集合

S7-2接收到用户输入的查询文档q时,通过步骤6训练后的多层感知机模型进行编码,得到查询向量

S7-3,在S7-1构建的高维向量索引图G

S7-3-1,将虚点

S7-3-2,在查询节点

S7-3-3,从当前查询节点

S7-4,返回查询结果:

S7-4-1,一个专家的不同领域聚簇可能同时出现在集合

其中,I(c

S7-4-2,当大小为n的文档聚簇

S7-4-3,根据S7-4-2得到的专家及排名,返回检索结果。

本发明具有以下有益效果:

本发明充分挖掘异质学术网络中的专家社区信息和学术文档的文本信息,将文本信息嵌入文档语义向量表示和专家论文关系异构图,提高信息的表示精度。通过文档相似度关系对生成训练样本。由于每个专家可能存在多个研究方向,并且专家对不同文章的贡献度不同。通过专家贡献度池化,将专家不同领域的多篇学术文档提取特征,得到领域聚簇的向量表示,解决了直接聚合不同方向的学术文档向量在向量空间分布可能存在较大差异而造成丢失的问题,提高信息的表示精度。利用专家紧密社区信息和专家多领域的向量表征关系进一步生成领域聚簇四元组训练样本,优化专家领域聚簇向量的表示,充分考虑了社区信息以及文本语义信息的四种情况,实现学术文档文本信息,语义信息以及学术网络中的专家社区信息的紧密结合,提高了返回结果的精度。同时利用高维向量索引的高维向量检索实现聚簇向量与搜索文本向量快速匹配以及专家重排算法,从而实现高效、精准的查询结果,大大提高了检索的精度,缩短了在线查询的速度。

附图说明

图1为基于社区查询和高维向量检索的科技专家检索方法流程图;

图2为将文本相似度嵌入文档语义信息的流程图;

图3为将专家k-core紧密社区嵌入专家向量的流程图;

图4为实施例中构建的高维向量索引图;

图5为实施例中高维向量索引查询示意图。

具体实施方式

以下结合附图对本发明作进一步的解释说明;

如图1所示,基于社区查询和高维向量检索的科技专家检索方法,具体包括以下步骤:

步骤1、如图2中的(a)所示,从DBLP开源数据中搜集科技领域数据,建立专家集合A={a

步骤2、如图2中的(b)所示,提取学术文档的文本信息。对文档文本信息进行分词、去停用词处理。通过BM25计算文本关键词匹配程度,得到文本相似度。将文本相似度大于0.85的文档p

S2-1,对学术文档集合D={p

S2-2,将学术文档中的短语、词组作为语素,例如“Algorithm Distillationtreats learning to reinforcement learn as an across-episode sequentialprediction problem”,选择“Distillation”“reinforcement leam”“across-episode”“sequential prediction”作为语素,然后再利用Elastic Search的文本匹配BM25算法,计算学术文档科技词集合D′中每两篇学术文档之间的文本相似度Score(p

其中,p

S2-3,根据S2-2的计算结果,为每一篇学术文档p

步骤3、为了提取学术文档中的语义信息,首先利用科技领域数据对词向量模型进行预训练,然后将学术文档输入预训练后的词向量模型,得到学术文档的初始向量表示。再将步骤2中得到的学术文档关系对作为正样本,将相似度低的学术文档作为负样本,生成文档正负例训练样本。将正负例训练样本输入神经网络模型进行训练,调整词向量模型,将文本相似度嵌入文档语义信息中,得到二次表征的文档语义向量。如图2中的(c)所示,具体包括以下步骤:

S3-1,将学术文档输入利用科技领域数据预训练后的词向量模型中进行编码,得到学术文档的向量表示集合

S3-2,对于学术文档p

S3-3,为了让负样本间尽可能不相似,选择负样本的方法为:

S3-3-1、针对学术文档p

S3-3-2、对于p

S3-3-3、重复3次S3-3-2,将临时队列Q

S3-4,将三元组

其中c是超参数,设置为1,δ(,)表示两个向量间的欧几里得范式距离。

S3-5,调整词向量模型,令文本匹配上有高相似度的正样本

步骤4、根据专家与学术文档的著作关系、学术文档间的引用关系和关系对集合,构建学术异构图。所述学术异构图以文档关系对M、学术文档P以及专家A作为节点,以著作关系、引用关系以及相似度作为连边。再通过元路径将异构图转化成以专家为节点的同构图,在同构图中寻找专家的k-core紧密社区。具体包括以下步骤:

S4-1,根据专家与学术文档之间的著作关系A-P和学术文档之间的引用关系P-P构建初始异构图。然后根据步骤2构建的学术文档关系对在初始异构图中嵌入节点M,每个节点M连接两篇构成学术文档关系对的学术文档P,表示学术文档间具有高相关性。从而得到学术异构图G(A,P,M),如图3中的(a)所示。

S4-2,通过元路径

通过上述元路径,就可以得到专家与专家之间的连边,从而构造基于专家节点的同构图G

S4-3,如图3中的(b)所示,基于专家节点的同构图G

步骤5、依次对每个专家名下的学术文档进行层次聚类,根据聚类结果获得每个专家的研究领域。将一个研究领域下所有学术文档的语义向量池化为一个特征提取向量,将专家所有研究领域对应的特征提取向量组成该专家的专家矩阵。具体步骤如下:

S5-1,针对专家集合A={a

S5-2,对向量矩阵

S5-3,对于一个聚簇c

其中,

其中R(a

S5-4,计算专家a

步骤6、将专家k-core紧密社区嵌入专家向量,具体步骤如下:

S6-1,根据专家a

①对于两个领域聚簇c

②对于两个领域聚簇c

③对于两个领域聚簇c

④对于两个领域聚簇c

其中,c

S6-2,将第一种情况记为完全正样本c

S6-3,如图3中的(c)所示,将一个领域聚簇四元组

h

其中W

通过梯度下降和批标准化,最小化损失函数,优化模型权重参数

步骤7、基于领域向量构建高维向量索引,根据用户输入的查询文档返回专家查询结果,具体步骤如下:

S7-1,如图4所示,基于专家矩阵

S7-1-1,根据专家矩阵

S7-1-2,对聚簇集合

S7-1-3,建立虚点

S7-1-4,依次针对新加入高维向量索引图G

S7-1-5,重复S7-1-4,直至聚簇集合

S7-2接收到用户输入的查询文档g时,通过步骤6训练后的多层感知机模型进行编码,得到查询向量

S7-3,如图5所示,在S7-1构建的高维向量索引图G

S7-3-1,将虚点

S7-3-2,在查询节点

S7-3-3,从当前查询节点8开始,将所有与其存在临边关系的节点7加入优先队列。再对新加入优先队列的节点7,查询与其存在临边关系的节点,将编号为6、9、10、11、14的节点加入优先队列。每次加入新节点时,都对优先队列中的所有节点按照与查询向量

S7-4,返回查询结果:

S7-4-1,一个专家的不同领域聚簇可能同时出现在集合

其中,I(c

S7-4-2,当大小为n的文档聚簇

S7-4-3,根据S7-4-2得到的专家及排名,返回检索结果。

本实施例使用computer vision research作为查询文档,分别通过现有技术中的语义查询、文本匹配、社区查询,以及本方法进行专家查找,返回结果如下表所示:

其中,带※的表示正确返回结果。由表可得,本方法具有更好的排序准确性,根据本发明方法,得到的专家排名更能综合考虑多个因素综合的结果,返回的排序分数也更加准确。其次是有更好的相关性,比较而言本发明方法的查询结果得到的专家最精确,涉及多个方面。。本发明方法所得到的结果,更具有多样性,可以综合考量多种因素包括语义信息,专家向量之间的距离以及专家社区的内在联系,使结果更多样,更能准确的定位用户需求。总而言之,跟现有的单一方面查询结果或者多路召回再融合排序得到查询结果的方法相比,发明方法同时考虑了文本匹配和语义信息以及专家社区信息的嵌入关系,可以返回更精准的结果。同时,在面对大规模数据场景时该发明方法可以有更好的性能。

应当说明的是,以上仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号