首页> 中国专利> 专家学者科技资源信息的文本语义检索方法及装置

专家学者科技资源信息的文本语义检索方法及装置

摘要

本申请提供一种专家学者科技资源信息的文本语义检索方法及装置,方法包括:对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量进行线性变换,得到标准正交基下的文本语义向量集和关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对关键词语义向量与文本语义向量集进行余弦相似度计算,以确定文本语义检索结果。本申请能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;并能够在提高语义检索结果的有效性及可用性的基础上,满足余弦相似度所适用场景,还能够有效提高专家学者科技资源文本语义检索结果的多样性及全面性。

著录项

  • 公开/公告号CN114840645A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 北京邮电大学;

    申请/专利号CN202210776673.0

  • 申请日2022-07-04

  • 分类号G06F16/33(2019.01);G06F40/211(2020.01);G06F40/30(2020.01);G06K9/62(2022.01);G06N3/08(2006.01);

  • 代理机构北京金咨知识产权代理有限公司 11612;

  • 代理人宋教花

  • 地址 100876 北京市海淀区西土城路10号

  • 入库时间 2023-06-19 16:16:00

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-06-02

    发明专利申请公布后的驳回 IPC(主分类):G06F16/33 专利申请号:2022107766730 申请公布日:20220802

    发明专利申请公布后的驳回

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022107766730 申请日:20220704

    实质审查的生效

说明书

技术领域

本申请涉及文本语义检索技术领域,尤其涉及专家学者科技资源信息的文本语义检索方法及装置。

背景技术

高等院校、研究所等科研单位所拥有的专家学者科技资源是极其丰富的,这些极具科技创新能力的人才是推动产业升级的重要力量。专家学者科技资源主要由基本属性和科研成果两部分组成,基本属性包括专家学者的研究兴趣、所在单位、教育工作经历等信息,科研成果包括论文、科研项目、专利等多维信息。但是,由于信息不对称等原因,专家学者科技资源并不能够及时地与社会进行对接,社会需求与专家学者之间无法进行精准匹配,这些问题成为制约技术更新迭代、产学研深度融合的重要原因。因此,提供相关的专家学者科技资源检索服务显得十分必要。

目前,现有的文本语义检索方式之一通常采用关键词精确匹配的方式进行语义检索,但该方式无法进行相似性查找,因此使得语义检索结果的有效性较低且可用性较差。为了解决这一问题,现有的文本语义检索方式之二通常采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)进行向量映射,并将得到的句子向量应用于文本相似度计算,以提高语义检索结果的有效性及可用性。然而,在现有的文本语义检索方式之二中,由于向量分布存在非线性和奇异性,词向量之间的距离不能很好的表示词之间的相关性,且并不适用于余弦相似度所适用的专家学者科技资源信息语义检索等场景。

发明内容

鉴于此,本申请实施例提供了专家学者科技资源信息的文本语义检索方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷。

本申请的一个方面提供了一种专家学者科技资源信息的文本语义检索方法,包括:

对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;

基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。

在本申请的一些实施例中,在所述对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和所述检索关键词对应的语义特征向量分别进行线性变换之前,还包括:

获取检索关键词和包含有专家学者科技资源信息的目标文本;

将所述目标文本和检索关键词分别输入BERT,以使BERT输出所述目标文本对应的各个句子语义特征向量和所述检索关键词对应的词语义特征向量。

在本申请的一些实施例中,所述对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,包括:

基于预设的变换矩阵,对所述目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行二次向量编码线性变换。

在本申请的一些实施例中,还包括:

基于主成分分析法对经所述二次向量编码线性变换得到的文本语义向量集和关键词语义向量进行降维处理,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量。

在本申请的一些实施例中,还包括:

根据科技资源文本语料训练用数据及基于BERT-whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵。

在本申请的一些实施例中,所述根据科技资源文本语料训练用数据及基于BERT-whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵,包括:

将科技资源文本语料训练用数据输入BERT,以根据所述BERT的输出生成对应的训练用向量集合;

计算所述训练用向量集合的均值向量,并根据所述均值向量计算所述训练用向量集合的协方差矩阵;

对所述协方差矩阵进行奇异值分解,以训练得到用于进行二次向量编码线性变换的变换矩阵。

在本申请的一些实施例中,所述专家学者科技资源信息对应的专家信息特征包括:专家学者的研究偏好、所承担科研项目、所拥有专利以及所发表的学术论文;

相对应的,所述基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果,包括:

将所述关键词语义向量和所述文本语义向量集输入预设的搜索引擎,在该搜索引擎中计算所述关键词语义向量分别与所述文本语义向量集中对应各个所述专家信息特征各自对应的向量之间的相似度;

根据预设的各个所述专家信息特征各自对应的权重,对所述关键词语义向量分别与所述文本语义向量集中对应各个所述专家信息特征各自对应的向量之间的相似度进行加权求和处理,得到所述关键词语义向量与所述文本语义向量集之间的余弦相似度计算结果;

基于预设的得分函数对所述余弦相似度计算结果进行数值由大至小的排序,得到并输出所述检索关键词在所述目标文本中的文本语义检索结果。

本申请的另一个方面提供了一种专家学者科技资源信息的文本语义检索装置,包括:

向量线性变换模块,用于对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;

余弦相似度计算模块,用于基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。

本申请的另一个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的专家学者科技资源信息的文本语义检索方法。

本申请的另一个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的专家学者科技资源信息的文本语义检索方法。

本申请提供的专家学者科技资源信息的文本语义检索方法,对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果;通过对BERT输出的向量进行线性变换,解决了由于向量分布的非线性和奇异性而造成的BERT生成的词向量在空间分布不均匀进而导致后续匹配结果不准确等问题,能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;同时能够使得BERT生成的句向量适合在标准正交基下进行计算,进而能够实现采用余弦相似度做语义检索,有效解决现有的语义检索方式不适用于余弦相似度所适用的专家学者科技资源信息语义检索等场景的问题,即能够在提高语义检索结果的有效性及可用性的基础上,进一步适用于余弦相似度所适用场景;另外,通过对专家学者科技资源的文本进行多维度的向量相似度计算,还能够有效提高语义检索结果的多样性及全面性。

本申请的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本申请的实践而获知。本申请的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是,能够用本申请实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本申请能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,并不构成对本申请的限定。附图中的部件不是成比例绘制的,而只是为了示出本申请的原理。为了便于示出和描述本申请的一些部分,附图中对应部分可能被放大,即,相对于依据本申请实际制造的示例性装置中的其它部件可能变得更大。在附图中:

图1为本申请一实施例中的专家学者科技资源信息的文本语义检索方法的总流程示意图。

图2为本申请一实施例中的专家学者科技资源信息的文本语义检索方法的一种具体流程示意图。

图3为本申请提供的微调预训练语言模型步骤举例示意图。

图4为本申请一实施例中的专家学者科技资源信息的文本语义检索方法中步骤030的一种具体流程示意图。

图5为本申请另一实施例中的专家学者科技资源信息的文本语义检索装置的结构示意图。

图6为本申请应用实例提供的基于Elasticsearch的专家学者科技资源在线语义检索框架示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本申请做进一步详细说明。在此,本申请的示意性实施方式及其说明用于解释本申请,但并不作为对本申请的限定。

在此,还需要说明的是,为了避免因不必要的细节而模糊了本申请,在附图中仅仅示出了与根据本申请的方案密切相关的结构和/或处理步骤,而省略了与本申请关系不大的其他细节。

应该强调,术语“包括/包含”在本申请使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

在此,还需要说明的是,如果没有特殊说明,术语“连接”在本申请不仅可以指直接连接,也可以表示存在中间物的间接连接。

在下文中,将参考附图描述本申请的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。

单词层级通过计算单词的词向量,将所有词向量进行加权平均,从而获得文本语义特征。有学者在2013年提出了Word2Vec(word to vector)的方式,采用连续词袋模型CBOW和Skip-Gram策略将所有的词向量化,有效挖掘了词与词之间的联系。在此基础上,另有学者提出了GloVe(Global Vectors)的方式,融合了全局矩阵分解方法和局部文本框捕捉方法,是一种基于单词矢量表示的无监督学习算法。还有学者提出了FastText的方式,采用词袋方法,引入n-gram机制,将所有单词和n-gram向量加权平均,得到整篇文档语义表征向量,使用softmax做多分类任务而后有研究人员在Word2vec的基础上提出了Doc2vec的方式,不仅考虑了词和词之间的语义,也考虑了词序。常见的词向量加权方式包括平均向量和IDF加权平均,还有学者提出了SIF(smooth inverse frequency)的方式,引入了平滑反频率的概念,通过计算句子中单词向量的加权平均值,然后去除平均向量在其第一个主成分上的投影。

句子层级将每个句子视为一个“单词”,通过挖掘句子上下文的有效信息得到句向量表示。有学者采用Seq2Seq的思想,提出了Skip-Thought的方式,通过当前句去预测文章中当前句的上一句和下一句,在模型训练中产生句向量。在此基础上,还有学者提出了Quick-Thought的方式,将预测行为修改为分类问题。另有学者提出了InferSent的方式,使用SNLI数据集对句子对使用基于Bi-LSTM的编码器进行编码,使用全连接层和三种方式的softmax层对句子关系进行预测。在此基础上,还有学者提出了Universal SentenceEncoder的方式,采用Transformer和DAN作为编码器提取句子表征,引入新的距离计算公式,对文本做分类任务。

BERT在语义相似度计算任务上取得了非常好的效果,但是其构造使得它不适合语义相似度搜索,有学者提出了Sentence-BERT的方式,利用孪生神经网络架构,将不同的句子输入到两个参数共享的BERT模型中获取每个句子的表征向量,最终获得句子的表征向量。为了解决BERT语义不平滑的问题,还有学者提出了BERT-flow的方式,将句向量的分布转化为高斯分布,使BERT表征嵌入转换到一个各向同性且分布较均匀的空间。另有学者提出了BERT-Whitening的方式,采用更为简单的线性变换方式,在得到句向量后,对矩阵进行PCA白化操作,使得每个维度均值是0,协方差矩阵是单位阵。还有学者提出了SimCSE的方式,采用自监督的方式构造正负样本例,提升BERT模型的句子表示能力。

现有的文本语义检索方式之一通常采用关键词精确匹配的方式进行语义检索,例如基于倒排索引,召回结果利用关键词信息进行词元统计,得到检索召回结果等等,但该方式无法进行模糊查找及相似性查找,因此使得语义检索结果的有效性较低且可用性较差。为了解决这一问题,现有的文本语义检索方式之二通常采用预训练语言模型BERT(Bidirectional Encoder Representation from Transformers)进行向量映射,并将得到的句子向量应用于文本相似度计算,以提高语义检索结果的有效性及可用性。然而,在现有的文本语义检索方式之二中, 没有考虑到余弦相似度所适用场景,即映射向量须经过线性变换在正交坐标系下重新投影。具体来说:由于向量分布存在非线性和奇异性,即BERT生成的词向量在空间分布不均匀,受频率影响,高频词相对集中靠近原点,低频词由于训练不够充分相对分散从而远离原点,所以词向量之间的距离不能很好的表示词之间的相关性。同时,BERT的NSP(Next Sentence Prediction)任务仅仅考虑到两个句子之间的连贯性,而忽略了两个句子是否相似的特性,因此诸如余弦相似度的计算方法不具有区分度(sentencebert),也就是说,现有的文本语义检索方式之二存在词向量之间的距离不能很好的表示词之间的相关性且未考虑余弦相似度所适用场景等问题。

基于此,本申请研究以专家学者科技资源为代表的文本语义检索。针对关联词和相似词检索,将科技文本输入语言模型得到表征向量,同时考虑到向量分布的非线性和奇异性,采用线性变换将文本进行二次编码,将输出向量值与目标关键词做相似度计算,根据相似度值的大小进行排序,返回检索结果。能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;并能够在提高语义检索结果的有效性及可用性的基础上,满足余弦相似度所适用场景,还能够有效提高专家学者科技资源文本语义检索结果的多样性及全面性。

在本申请的一个或多个实施例中,专家学者科技资源信息是指科技大数据中各个类别数据资源的一种,属于社会企业技术需求范围,主要由基本属性和科研成果两部分组成,基本属性包括专家学者的研究兴趣、所在单位、教育工作经历等信息;科研成果包括论文、科研项目、专利等信息。

在本申请的一个或多个实施例中,文本语义检索是指针对关联词和相似词检索,将科技文本输入语言模型得到表征向量,同时考虑到向量分布的非线性和奇异性,采用线性变换将文本进行二次编码,将输出向量值与目标关键词做相似度计算,根据相似度值的大小进行排序,返回检索结果。

基于此,本申请实施例提供一种专家学者科技资源信息的文本语义检索方法,参见图1,所述专家学者科技资源信息的文本语义检索方法具体包含有如下内容:

步骤100:对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量。

在步骤100中,由于向量分布的非线性和奇异性(bert-flow),即BERT生成的词向量在空间分布不均匀,受频率影响,高频词相对集中靠近原点,低频词由于训练不够充分相对分散从而远离原点,所以词向量之间的距离不能很好的表示词之间的相关性。同时,BERT的NSP(Next Sentence Prediction)任务仅仅考虑到两个句子之间的连贯性,而忽略了两个句子是否相似的特性,因此诸如余弦相似度的计算方法不具有区分度(sentence bert)。由于本申请采用余弦相似度做语义检索,所以为了让BERT生成的句向量适合在标准正交基下进行计算,采用基于BERT-whitening的方法,进行二次向量编码线性变换。其中,BERT-whitening模型用于提高BERT语义向量相似度计算方面的效果并降低BERT语义向量的维度。

步骤200:基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。

可以理解的是,对专家学者科技资源的文本进行多维度的向量嵌入相似度计算,增加语义检索召回的多样性。

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,通过对BERT输出的向量进行线性变换,解决了由于向量分布的非线性和奇异性而造成的BERT生成的词向量在空间分布不均匀进而导致后续匹配结果不准确等问题,能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;同时能够使得BERT生成的句向量适合在标准正交基下进行计算,进而能够实现采用余弦相似度做语义检索,有效解决现有的语义检索方式不适用于余弦相似度所适用的专家学者科技资源信息语义检索等场景的问题,即能够在提高语义检索结果的有效性及可用性的基础上,进一步适用于余弦相似度所适用场景;另外,通过对专家学者科技资源的文本进行多维度的向量相似度计算,还能够有效提高语义检索结果的多样性及全面性。

为了进一步提高检索匹配程度,在本申请实施例提供的一种专家学者科技资源信息的文本语义检索方法中,参见图2,所述专家学者科技资源信息的文本语义检索方法中的步骤100之前还具体包含有如下内容:

步骤010:获取检索关键词和包含有专家学者科技资源信息的目标文本。

步骤020:将所述目标文本和检索关键词分别输入BERT,以使BERT输出所述目标文本对应的各个句子语义特征向量和所述检索关键词对应的词语义特征向量。

可以理解的是,可以利用融入知识图谱的预训练语言模型BERT,即微调过后的预训练语言模型对专家学者信息进行向量编码,生成的向量包含了文本的丰富语义表征。其中,微调预训练语言模型的步骤举例参见图3。

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,通过将所述目标文本和检索关键词分别输入BERT,即文本和关键词都通过同一个模型输出向量,能够有效提高专家学者科技资源信息的文本语义检索匹配程度。

为了进一步提高文本语义检索精度,在本申请实施例提供的一种专家学者科技资源信息的文本语义检索方法中,参见图2,所述专家学者科技资源信息的文本语义检索方法中的步骤100具体包含有如下内容:

步骤110:基于预设的变换矩阵,对所述目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行二次向量编码线性变换。

可以理解的是,所述变换矩阵W可以预先训练得到。

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,采用线性变换能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;并能够在提高语义检索结果的有效性及可用性的基础上,满足余弦相似度所适用场景,还能够对向量进行有效降维,有效提高文本语义向量表示的准确性。

为了进一步对向量进行有效降维,在本申请实施例提供的一种专家学者科技资源信息的文本语义检索方法中,参见图2,所述专家学者科技资源信息的文本语义检索方法中的步骤100还具体包含有如下内容:

步骤120:基于主成分分析法对经所述二次向量编码线性变换得到的文本语义向量集和关键词语义向量进行降维处理,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量。

具体来说,线性变换利用到主成分分析PCA(principal components analysis)方法,W前K行即为寻找的正交基,在训练过程中可以保存前K行从而降维。

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,能够进一步对向量进行有效降维。

为了进一步提高变化矩阵w应用可靠性,在本申请实施例提供的一种专家学者科技资源信息的文本语义检索方法中,参见图2,所述专家学者科技资源信息的文本语义检索方法中的步骤100之前或其他步骤执行的前后还具体包含有如下内容:

步骤030:根据科技资源文本语料训练用数据及基于BERT-whitening的方式,训练得到用于进行二次向量编码线性变换的变换矩阵。

可以理解的是,为了让BERT生成的句向量适合在标准正交基下进行计算,采用基于BERT-whitening的方法,进行二次向量编码线性变换。其中,BERT-whitening模型用于提高BERT语义向量相似度计算方面的效果并降低BERT语义向量的维度。

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,通过采用BERT-whitening,能够提高BERT语义向量相似度计算方面的效果并降低BERT语义向量的维度,还能够提高变化矩阵w应用可靠性。

为了进一步变化矩阵w应用可靠性,在本申请实施例提供的一种专家学者科技资源信息的文本语义检索方法中,参见图4,所述专家学者科技资源信息的文本语义检索方法中的步骤030还具体包含有如下内容:

步骤031:将科技资源文本语料训练用数据输入BERT,以根据所述BERT的输出生成对应的训练用向量集合。

步骤032:计算所述训练用向量集合的均值向量,并根据所述均值向量计算所述训练用向量集合的协方差矩阵。

步骤033:对所述协方差矩阵进行奇异值分解,以训练得到用于进行二次向量编码线性变换的变换矩阵。

具体来说,对于向量集合

执行如下线性变换:

使得向量集合均值为0,协方差矩阵为单位阵。

向量集合的协方差矩阵

其中,不难得到

协方差矩阵

其中,SVD是指奇异值分解,公式(5-5)相当于矩阵的SVD定义;其中

通过以上推导,设原始向量集合组成的矩阵

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,能够进一步变化矩阵w应用可靠性。

为了进一步专门适用于专家学者科技资源信息的文本语义检索,且提高其有效性及针对性,在本申请实施例提供的一种专家学者科技资源信息的文本语义检索方法中,所述专家学者科技资源信息对应的专家信息特征包括:专家学者的研究偏好、所承担科研项目、所拥有专利以及所发表的学术论文;参见图2,所述专家学者科技资源信息的文本语义检索方法中的步骤200还具体包含有如下内容:

步骤210:将所述关键词语义向量和所述文本语义向量集输入预设的搜索引擎,在该搜索引擎中计算所述关键词语义向量分别与所述文本语义向量集中对应各个所述专家信息特征各自对应的向量之间的相似度。

可以理解的是,所述搜索引擎可以采用Elasticsearch等。

步骤220:根据预设的各个所述专家信息特征各自对应的权重,对所述关键词语义向量分别与所述文本语义向量集中对应各个所述专家信息特征各自对应的向量之间的相似度进行加权求和处理,得到所述关键词语义向量与所述文本语义向量集之间的余弦相似度计算结果。

步骤230:基于预设的得分函数对所述余弦相似度计算结果进行数值由大至小的排序,得到并输出所述检索关键词在所述目标文本中的文本语义检索结果。

具体来说,选用向量余弦距离作为计算文本语义相似度的方法。专家信息特征主要包括专家研究兴趣(领域)、专家所承担科研项目、专家所拥有专利以及专家所发表的学术论文等信息,例如,对于本申请所指的专家语义特征模型相似度计算公式如式(5-7)所示。

其中,

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索方法,能够进一步专门适用于专家学者科技资源信息的文本语义检索,且提高其有效性及针对性。

从软件层面来说,本申请还提供一种用于执行所述专家学者科技资源信息的文本语义检索方法中全部或部分内的专家学者科技资源信息的文本语义检索装置,参见图5,所述专家学者科技资源信息的文本语义检索装置具体包含有如下内容:

向量线性变换模块10,用于对BERT输出的包含有专家学者科技资源信息的目标文本对应的各个句子语义特征向量和检索关键词对应的词语义特征向量分别进行线性变换,得到所述目标文本对应的标准正交基下的文本语义向量集,以及所述检索关键词对应的标准正交基下的关键词语义向量;

余弦相似度计算模块20,用于基于针对专家学者科技资源信息的多维相似度计算方式,对所述关键词语义向量与所述文本语义向量集进行余弦相似度计算,以根据对应的计算结果确定所述检索关键词在所述目标文本中的文本语义检索结果。

本申请提供的专家学者科技资源信息的文本语义检索装置的实施例具体可以用于执行上述实施例中的专家学者科技资源信息的文本语义检索方法的实施例的处理流程,其功能在此不再赘述,可以参照上述专家学者科技资源信息的文本语义检索方法实施例的详细描述。

所述专家学者科技资源信息的文本语义检索装置进行专家学者科技资源信息的文本语义检索的部分可以在服务器中执行,而在另一种实际应用情形中,也可以所有的操作都在客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器,用于专家学者科技资源信息的文本语义检索的具体处理。

上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。

上述服务器与所述客户端设备端之间可以使用任何合适的网络协议进行通信,包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然,所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol,远程过程调用协议)、REST协议(Representational State Transfer,表述性状态转移协议)等。

从上述描述可知,本申请实施例提供的专家学者科技资源信息的文本语义检索装置,通过对BERT输出的向量进行线性变换,解决了由于向量分布的非线性和奇异性而造成的BERT生成的词向量在空间分布不均匀进而导致后续匹配结果不准确等问题,能够有效提高针对专家学者科技资源信息进行文本语义检索的准确性及可靠性;同时能够使得BERT生成的句向量适合在标准正交基下进行计算,进而能够实现采用余弦相似度做语义检索,有效解决现有的语义检索方式不适用于余弦相似度所适用的专家学者科技资源信息语义检索等场景的问题,即能够在提高语义检索结果的有效性及可用性的基础上,进一步适用于余弦相似度所适用场景;另外,通过对专家学者科技资源的文本进行多维度的向量相似度计算,还能够有效提高语义检索结果的多样性及全面性。

为了进一步说明本方案,本申请还提供一种专家学者科技资源信息的文本语义检索方法的具体应用实例,将专家学者科技资源文本抽取语义特征转化为向量,将其导入到Elasticsearch中,之后采用余弦相似度计算待检索词与所有文本的语义相似性,将其作为Elasticsearch的评分函数,返回待搜索结果。基于Elasticsearch的专家学者科技资源在线语义检索框架如图6所示。

其中,用于分布式全文检索的全文搜索引擎Elasticsearch采用线性搜索,即将查询query向量和索引中所有的向量依次比较,再按得分函数高低进行排序。为了导入这些向量,本申请创建了一个words索引,并在索引mapping中指定dense_vector为向量字段的类型。然后,遍历向量JSON文件,并将单词和向量分批批量插入该索引中。对于句子嵌入Sentence Embeddings,两个文本之间的余弦相似性可以揭示两者之间的语义相似性。从Elasticsearch7.2版本开始,余弦相似度可作为预定义函数使用,用于文档评分。要查找与表示形式相似的单词,在此将预定义cosineSimlarity函数与查询向量和存储文档的向量值一起用作函数自变量,以计算文档分数。同时,为了保证分数不为负,因此需要在函数的结果上添加1.0作评分函数。

本应用实例具体实现过程如下:

(一)文本语义向量映射

利用融入知识图谱的预训练语言模型,即微调过后的预训练语言模型对专家学者信息进行向量编码,生成的向量包含了文本的丰富语义表征。但是,由于向量分布的非线性和奇异性(bert-flow),即BERT生成的词向量在空间分布不均匀,受频率影响,高频词相对集中靠近原点,低频词由于训练不够充分相对分散从而远离原点,所以词向量之间的距离不能很好的表示词之间的相关性。同时,BERT的NSP(Next Sentence Prediction)任务仅仅考虑到两个句子之间的连贯性,而忽略了两个句子是否相似的特性,因此诸如余弦相似度的计算方法不具有区分度(sentence bert)。由于本申请采用余弦相似度做语义检索,所以为了让BERT生成的句向量适合在标准正交基下进行计算,采用基于BERT-whitening的方法,进行二次向量编码线性变换。其中,BERT-whitening模型用于提高BERT语义向量相似度计算方面的效果并降低BERT语义向量的维度。

对于向量集合

执行如下线性变换:

使得向量集合均值为0,协方差矩阵为单位阵。

向量集合的协方差矩阵

其中,不难得到

协方差矩阵

其中,SVD是指奇异值分解,公式(5-5)相当于矩阵的SVD定义;其中

通过以上推导,设原始向量集合组成的矩阵

(二)文本语义相似度计算

选用向量余弦距离作为计算文本语义相似度的方法。专家信息特征主要包括专家研究兴趣(领域)、专家所承担科研项目、专家所拥有专利以及专家所发表的学术论文等信息,例如,对于本申请所指的专家语义特征模型相似度计算公式如式(5-7)所示。

其中,

(三)方法流程

科技资源信息文本语义向量检索算法的步骤如表1所示。

表1

综上所述,本申请应用实例的提出了一种面向专家学者科技资源信息的文本语义检索方法,利用线性变化和主成分分析法对预训练语言模型映射向量进行有效降维,有效提高文本语义向量表示的准确性。充分利用现有搜索引擎技术,将Elasticsearch与向量检索结合起来,满足用户相似检索需求。对专家学者科技资源的文本进行多维度的向量嵌入相似度计算,增加语义检索召回的多样性。

本申请实施例还提供了一种计算机设备(也即电子设备),该计算机设备可以包括处理器、存储器、接收器及发送器,处理器用于执行上述实施例提及的专家学者科技资源信息的文本语义检索方法,其中处理器和存储器可以通过总线或者其他方式连接,以通过总线连接为例。该接收器可通过有线或无线方式与处理器、存储器连接。所述计算机设备与专家学者科技资源信息的文本语义检索装置之间通信连接,以自所述无线多媒体传感器网络中的传感器接收实时运动数据,并自所述视频采集装置接收原始视频序列。

处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的专家学者科技资源信息的文本语义检索方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的专家学者科技资源信息的文本语义检索方法。

存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器中,当被所述处理器执行时,执行实施例中的专家学者科技资源信息的文本语义检索方法。

在本申请的一些实施例中,用户设备可以包括处理器、存储器和收发单元,该收发单元可包括接收器和发送器,处理器、存储器、接收器和发送器可通过总线系统连接,存储器用于存储计算机指令,处理器用于执行存储器中存储的计算机指令,以控制收发单元收发信号。

作为一种实现方式,本申请中接收器和发送器的功能可以考虑通过收发电路或者收发的专用芯片来实现,处理器可以考虑通过专用处理芯片、处理电路或通用芯片实现。

作为另一种实现方式,可以考虑使用通用计算机的方式来实现本申请实施例提供的服务器。即将实现处理器,接收器和发送器功能的程序代码存储在存储器中,通用处理器通过执行存储器中的代码来实现处理器,接收器和发送器的功能。

本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述专家学者科技资源信息的文本语义检索方法的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

本领域普通技术人员应该可以明白,结合本申请中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。

需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。

本申请中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本申请的优选实施例,并不用于限制本申请,对于本领域的技术人员来说,本申请实施例可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号