首页> 中国专利> 文献主题词聚合方法、装置、计算机设备及可读存储介质

文献主题词聚合方法、装置、计算机设备及可读存储介质

摘要

本申请实施例提供了一种文献主题词聚合方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于语义处理技术领域,通过获取文献数据,文献数据包括每篇文献所包含的文献标题、文献摘要及每篇文献所对应的引文信息,采用预设自然语言处理工具从文献标题和文献摘要中提取所包含的名词短语,基于引文信息及名词短语,对名词短语进行聚类,以得到近义词集合,从近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词,由于结合了名词短语及引文信息,使用了短语级别的近义词处理方式,且结合了引文信息进行名词短语相似度的表征,提高了文献的主题词聚合的准确性。

著录项

  • 公开/公告号CN111898366B

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202010744556.7

  • 发明设计人 柴玲;

    申请日2020-07-29

  • 分类号G06F40/216(2020.01);G06F40/30(2020.01);G06F16/2458(2019.01);G06K9/62(2022.01);

  • 代理机构深圳市精英专利事务所 44242;

  • 代理人武志峰

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2022-09-06 00:41:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-09

    授权

    发明专利权授予

说明书

技术领域

本申请涉及语义处理技术领域,尤其涉及一种文献主题词聚合方法、装置、计算机设备及计算机可读存储介质。

背景技术

在对技术进行研究的过程中,把握一个领域的研究热点变化动态或者最新的研究热点是十分重要的,尽管文献库存在对文献的主题进行了打标签,但很多情况下,对主题的描述所对应的标签存在不准确的情形。例如,对于医学研究者,把握一个领域的研究热点变化动态或者最新的研究热点是十分重要的,不仅可以提高科研的效率也对诊断治疗疑难病症有巨大的帮助。尽管医学文献库PUBMED,绝大部分文献均有专家打的标签(即Mesh Term方式)或者关键词,但是Mesh Term耗费人力巨大,而且Mesh Term是从多种不同角度(如疾病、药物、物种等)进行标记,在大多数情况下,并不能代表该文献具体的研究热点所在,而关键词也同样存在较泛指并且会偏向于作者自己主观的选择。所以在多数的科学计量分析中,选择标题和摘要里面的名词短语作为一篇文章主题词的候选项,这样蕴含的信息会更加贴近文献的真正研究内容。但是直接适用标题和摘要中的短语进行主题分析,同义词会带来极大的噪音。尤其是对于细分领域,如肺癌,现有的主流主题模型,如LDA等,选出的主题代表词往往包含了大量近义或同义专业术语,造成信息冗余、不准确,例如non-smallcell lung cancer,non-small cell lung carcinoma,non-small cell carcinoma,non-small cell lung cancer cells,human non-small cell lung cancer,应该标准化到同一个主题词non-small cell lung cancer中。

传统技术中,对文献近义词术语处理过程中,由于一般使用单词级别的语义相似度进行表征,并且,一般的近义词获取只能考虑到句子级别的信息,如上下文及词性等,对于文献的主题词聚合的准确性较低。

发明内容

本申请实施例提供了一种文献主题词聚合方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中对文献的主题词聚合的准确性较低的问题。

第一方面,本申请实施例提供了一种文献主题词聚合方法,所述方法包括:获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息;采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语;基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合;从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

第二方面,本申请实施例还提供了一种文献主题词聚合装置,包括:获取单元,用于获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息;提取单元,用于采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语;聚类单元,用于基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合;筛选单元,用于从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述文献主题词聚合方法的步骤。

第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述文献主题词聚合方法的步骤。

本申请实施例提供了一种文献主题词聚合方法、装置、计算机设备及计算机可读存储介质。本申请实施例通过获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息,采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语,基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合,从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词,由于结合了名词短语及引文信息,针对文献挖掘的场景,使用了短语级别的近义词处理方式,且结合了引文信息进行名词短语相似度的表征,相比传统技术中,仅使用单词级别的语义相似度进行表征,同时仅考虑到句子级别的信息,本申请实施例的表征方式充分表征了两个名词短语所代表的主题之间的相似度,从而使聚合后的主题词能够准确描述文献的主题,提高了文献的主题词聚合的准确性。

附图说明

为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的文献主题词聚合方法的一个流程示意图;

图2为本申请实施例提供的文献主题词聚合方法中一个子流程的示意图;

图3为本申请实施例提供的文献主题词聚合方法中一个文献共被引网络示例示意图;

图4为本申请实施例提供的文献主题词聚合方法的另一个子流程示意图;

图5为本申请实施例提供的文献主题词聚合方法的聚合流程示意图;

图6为本申请实施例提供的文献主题词聚合装置的一个示意性框图;以及

图7为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

请参阅图1,图1为本申请实施例提供的文献主题词聚合方法的一个流程示意图。如图1所示,该方法包括以下步骤S101-S104:

S101、获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息。

具体地,可以通过关键字方式从预设数据库中检索出文献所对应的文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息,引文信息为所述文献之间的相互引用关系。针对文献,一般使用Pubmed数据库来检索文献,通过搜索关键词,获取Pubmed数据库中所包含的具体领域的所有文献的文献标题、文献摘要以及文献之间的互相引用的关系,例如通过检索“lung cancer”,下载与肺癌相关的文献的标题、摘要以及引用关系。

S102、采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语。

其中,自然语言处理工具包括Stanford nlp、TextBlob及Polyglot等能够提取名词短语的自然语言处理工具。

具体地,检索出预设具体领域的所有文献的标题、摘要以及互相引用的关系后,采用预设自然语言处理工具从标题和摘要中抽取出名词短语,例如使用Stanford core NLP工具中的词性标注,抽取出名词短语,进一步地,还可以使用SciScapy中的缩写检查,将抽取出的名词短语中的缩写词映射成全称,例如,抽出的文献描述为A,最终文献A会被表示成一个短语的集合{P1,P2,P3,…Pn}。

进一步地,抽取名词短语的具体过程如下:

1)采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语,例如使用Stanford nlp抽取出名词短语。

2)处理单词短语,可以删除出现词频最高的单词词语,例如删除维基百科语料中出现词频最高的2000个单词中的单词词语,如“cancer”这一短语会被删除,以避免高频率通用词汇影响主题词的聚合。

3)检测所述名词短语中是否包含缩写词,若所述名词短语中包含缩写词,根据预设替换词库,将所述缩写词替换为所述缩写词所对应的全称,例如使用SciScapy工具抽取文章出现的缩写与全称,如{QOL:quality of life},将出现的缩写词全部替换成全称,从而得到一个短语集合。

S103、基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合。

具体地,根据检索出的文献之间的引文信息,构建文献之间的共被引网络,根据文献之间的共被引网络,得到所述名词短语之间的共被引关系,再获取所述名词短语的语义相似度,从而根据所述名词短语之间的共被引关系及语义相似度,对所述名词短语进行聚类,从而得到近义词集合。

S104、从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

具体地,得到近义词集合之后,从近义词集合中筛选出符合要求的目标名词短语,将所述目标名词短语作为文献的主题词,例如,将所述近义词集合中出现频率最高的名词短语作为目标名词短语等,从而得到文献的主题词。

在本申请实施例中,由于结合了名词短语及引文信息,针对文献挖掘的场景,使用了短语级别的近义词处理方式,且结合了引文信息进行名词短语相似度的表征,相比传统技术中,仅使用单词级别的语义相似度进行表征,同时仅考虑到句子级别的信息,本申请实施例的表征方式充分表征了两个名词短语所代表的主题之间的相似度,从而使聚合后的主题词能够准确描述文献的主题,提高了文献的主题词聚合的准确性。

请参阅图2,图2为本申请实施例提供的文献主题词聚合方法中一个子流程的示意图。在该实施例中,所述基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合的步骤包括:

S201、根据所述名词短语,建立基于所述名词短语的语义相似度。

其中,语义相似度用于描述名词短语之间的语言意思相似性,对于语义相似度可以通过余弦相似度、欧氏距离或者明可夫斯基距离(英文为Minkowski distance)等衡量。

具体地,可以通过将名词短语向量化来计算两个名词短语之间的相似性,将相似性进行量化即可得到两个名词短语之间的相似度。

进一步地,所述根据所述名词短语,建立基于所述名词短语的语义相似度的步骤包括:

将所述名词短语输入至预设Biobert模型,以得到所述名词短语所对应的语义向量;计算所述语义向量之间的余弦相似度,以得到所述名词短语所对应的语义相似度。

具体地,基于提取的名词短语,建立基于Biobert的语义相似度,使用经预训练的Biobert模型的输出向量表征短语语义,再计算向量之间的余弦相似度,即可得到所述名词短语所对应的语义相似度。其中,Biobert是基于庞大的医学语料训练的Bert模型,可以有效表示医学相关的单词及短语的语义,将提取的名词短语输入Biobert模型,即可获得名词短语级别的语义向量表示,例如将每个名词短语转化为768维向量,即纬度为768维,再使用余弦相似度计算向量之间的相似度,即可以得到短语之间的语义相似度。针对短语级别的数据,可以预先训练基于Biobert模型的深度学习模型,分别表征上下文特征及名词短语本身的语义信息,从而实现在本申请实施例中对主题词进行聚合时,结合短语级别的近义词,通过名词短语级别的相似度来充分表征两个名词短语所代表的主题之间的相似度,针对短语级别的数据,训练基于预训练Biobert模型的深度学习模型,分别表征上下文特征及短语本身的语义信息,提高了基于共被引信息的抽取的名词短语所对应的语义相似度,提高了进行语义相似度统计的准确性。

S202、基于所述引文信息,构建文献所对应的文献共被引网络。

S203、根据所述文献共被引网络,计算所述文献所对应的文献共被引相似度。

其中,共引文献为同时参考了一篇文献,共被引文献就是同时被一篇文献所参考,共被引为共同被引用。

具体地,获取文献的引文信息后,根据文献之间的引用关系,即可构建所对应的文献引用关系网络,从被引用的文献角度来看,即为文献被引网络,若为多篇文献之间的共同被引用网络,即为文献共被引网络。

在科学计量分析中,被同一篇文章引用的两篇文章具有一定的主题相似性,请参阅图3,图3为本申请实施例提供的文献主题词聚合方法中一个文献共被引网络示例示意图,如图3所示,图中3的A和B均被C引用,则A和B之间具有主题相似性,因此,可以构建引用A和B的共被引网络以得到A和B之间的相似性,如图3中,构建引用文献A的CDE的共被引网络。若构建的共被引网络由A1,A2,…,Am组成,其中文献A1,A2,…,Am为节点,边的权重为两个节点之间的共被引相似度(例如,节点为A1和A2的两篇文献,两篇文献A1和A2由于共同引用了同一篇文献而存在引用交集,可以以此衡量A1和A2两者之间的相似度,如图3中,A被CDE引用,B被CD引用,AB共同被CD引用,计算AB被CD共同引用,所以AB两者之间存在的相似度,衡量两者之间的相似度的统计称为共被引相似度),计算公式如下:

其中,M与N分别代表引用了文献i和引用了文献j的文献集。以图3为例,在图3中,共包含五篇文献ABCDE,其中,箭头指向的方向表示引用关系,AB之间的虚线用于描述AB为共被引对象,例如,箭头C至A表示文献C引用了文献A,可知,在图3中,CDE三篇文献均引用了文献A,A的施引文献集为{C,D,E},同理可得,B的施引文献集为{C,D},AB之间的共被引相似度为:

S204、根据所述文献共被引相似度,构建所述名词短语所对应的短语共被引相似度网络。

S205、根据所述短语共被引相似度网络,得到所述名词短语所对应的短语共被引相似度。

S206、根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合。

具体地,构建文献被共引网络后,通过文献共被引相似度,基于文献的引用关系和抽取出的名词短语,通过名词短语用于描述该文献,即可以建立名词短语共被引相似度默认文献i和自身的共被引相似度为1,使用文献共被引相似度表征文献所对应的抽取的名词短语之间的相似度,计算公式如下:

其中,X,Y分别表示包含短语x,y的文献集合,至此,可以得到一个短语之间的共被引相似度网络,根据所述短语共被引相似度网络,即得到所述名词短语所对应的短语共被引相似度,再根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合,本申请实施例引入基于文献共被引相似度的短语共被引相似度,可以更好地学习到短语细分领域的专业知识,可以更好地表示主题之间的相似度。

进一步地,请参阅图4,图4为本申请实施例提供的文献主题词聚合方法的另一个子流程示意图。在该实施例中,所述根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合的步骤之前,还包括:

S401、基于所述短语共被引相似度网络,采用预设社团检测方式进行社团检测,以得到若干个短语社团。

其中,社团检测,又称为社区检测,英文为Community Detection,通常为将网络中联系紧密的部分找出来,这些部分就称之为社团,那么也可以认为社团内部联系稠密,而社团之间联系稀疏,社团检测算法包括Louvain算法、Newman快速算法、CNM算法及MSG-MV算法等。

具体地,基于所述短语共被引相似度网络,通过预设社团检测算法进行社团检测,从而将短语根据相似度网络进行聚类,从而得到若干个社团,每个社团中包含有近似词,例如,使用社团检测,将短语共被引网络聚类成一个个小社团,使用Louvain社团检测算法,将得到的短语共被引相似度网络进行社团挖掘,最终得到一系列的社团(Cluster),默认近似词出现在同一社团中,从而在本申请实施例中,将社团检测结合到本申请实施例中的名词短语聚类中,将抽取的名词短语通过社团检测进行初步聚类,从而基于得到的短语共被引相似度网络,采用预设社团检测方式进行社团检测,以得到一系列社团,再对每个社团进行层次聚类,获得近义词集合,由于结合了引文信息和语义信息两类信息的近义词,构建基于共被引信息的短语相似度网络,实现将社团检测用到短语相似度网络,使用社团检测的算法,将近义词先进行候选集合召回,可以极大地降低聚类部的计算量,同时不依赖标注数据和特定语料,具有很好的通用性,更加符合主题挖掘这一场景,提高了主题词筛选的准确性。

进一步地,所述根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合的步骤包括:

S402、根据所述名词短语所对应的短语共被引相似度,对所述短语社团进行聚类,以得到第一聚类。

S403、根据所述短语所对应的所述语义相似度,对所述短语社团进行聚类,以得到第二聚类。

S404、判断每两个所述名词短语是否均包含于所述第一聚类和所述第二聚类。

S405、若每两个所述名词短语均包含于所述第一聚类和所述第二聚类,判定该两个所述名词短语为近义词,从而得到近义词短语。

S406、若每两个所述名词短语未均包含于所述第一聚类和所述第二聚类,判定该两个所述名词短语不为近义词。

S407、将所有所述近义词短语组合成集合以得到近义词集合。

其中,聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类算法包括K-means聚类算法、Mean-Shift聚类及基于高斯混合模型(GMM)的期望最大化(EM)聚类。

具体地,通过社团检测对所述短语共被引相似度网络进行聚类后,再对每个社团进行层次聚类,以近义词只会出现在同一社团内的假设,对每个社团内短语分别使用短语共被引相似度和语义相似度分别进行层次聚类,可以设置层次聚类的阈值,同时在两种聚类中均被聚在一起的,被认为是近义词。对于每个社团,分别进行两种从下而上的层次聚类,一是以名词短语共被引相似度为相似度进行聚类,二是以提到的语义相似度进行聚类,例如基于Biobert的语义相似度为标准进行聚类,其中,这里使用从下而上的层次聚类,最终分析两个名词短语是否为近义词的依据是,若在两种类型的聚类中,均被聚类在一起,判定该两个名词短语为近义词,请参阅图5,图5为本申请实施例提供的文献主题词聚合方法的聚合流程示例示意图,如图5所示,白色圆圈代表同一文献中提取的名词短语,黑色圆圈代表另同一文献中提取出的名词短语,灰色圆圈代表第三文献中提取出的名词短语,不同的白色圆圈、黑色圆圈及灰色圆圈分别代表不同的名词短语,由于A和B在两次层次聚类中均被聚在了一起,因此,A和B可以合并为近义词。

在本申请实施例中,针对某一细分领域的文献主题挖掘遇到的同义及近义主题词,提出了结合引文信息和语义信息两类信息的近义词挖掘,构建基于共被引信息的短语相似度网络,根据所述名词短语所对应的短语共被引相似度,对所述短语社团进行聚类,并且根据所述短语所对应的所述语义相似度,对所述短语社团进行聚类,首次将社团检测用到短语相似度网络中,召回可能的近义词集合,极大地缩小了近义词候选范围。

若每两个所述名词短语均包含于两种类型的聚类中,判定该两个所述名词短语为近义词,可以进行合并,以得到近义词集合,分别使用语义相似度及共被引相似度进行聚类,而不是使用惯用的不同相似度加权相加的策略,避免了相似度权重对结果的影响,保证了得到的近义词可以同时具有相似的语义和相似的主题,不依赖标注数据和特定语料,具有很好的通用性,更加符合主题挖掘这一场景,提高了主题词筛选的准确性,

在一个实施例中,所述从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词的步骤包括:

根据预设TF-IDF算法,从所述近义词集合中筛选出TF-IDF值最高的名词短语作为目标名词短语;

将所述目标名词短语作为文献的主题词。

其中,其中,TF-IDF,英文为Term frequency–inverse document frequency,是一种常用加权方法。在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数,这个数字通常会被归一化(分子一般小于分母区别于IDF),以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。

具体地,对于得到的近义词集合,计算TF-IDF值,并选取TF-IDF值最高的短语作为标准的主题词。

进一步地,如果可以对文献的重要程度打分,可以使用加权的TF-IDF值,比如使用文献的被引量作为文献的重要性指标,标准化到0-1之后作为文献的重要程度。对于每个短语,重要程度等于该短语出现的所有文献的重要程度的均值,再乘以短语的TF-IDF,作为每个短语最终的TF-IDF值。

在本申请实施例中,基于得到的短语共被引相似度网络,采用预设社团检测方式进行社团检测,以得到一系列社团,对每个社团进行层次聚类,选取获得的近义词集合中,TF-IDF值最大的短语作为标准主题词,由于结合了引文信息和语义信息两类信息的近义词,构建基于共被引信息的短语相似度网络,首次将社团检测用到短语相似度网络,保证了得到的近义词可以同时具有相似的语义和相似的主题,更加符合主题挖掘这一场景,不依赖标注数据和特定语料,具有很好的通用性,提高了主题词筛选的准确性,

需要说明的是,上述各个实施例所述的文献主题词聚合方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。

请参阅图6,图6为本申请实施例提供的文献主题词聚合装置的一个示意性框图。对应于上述所述文献主题词聚合方法,本申请实施例还提供一种文献主题词聚合装置。如图6所示,该文献主题词聚合装置包括用于执行上述所述文献主题词聚合方法的单元,该文献主题词聚合装置可以被配置于计算机设备中。具体地,请参阅图6,该文献主题词聚合装置600包括获取单元601、提取单元602、聚类单元603及筛选单元604。

其中,获取单元601,用于获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息;

提取单元602,用于采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语;

聚类单元603,用于基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合;

筛选单元604,用于从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

在一个实施例中,所述聚类单元603包括:

建立子单元,用于根据所述名词短语,建立基于所述名词短语的语义相似度;

第一构建子单元,用于基于所述引文信息,构建文献所对应的文献共被引网络;

第一计算子单元,用于根据所述文献共被引网络,计算所述文献所对应的文献共被引相似度;

第二构建子单元,用于根据所述文献共被引相似度,构建所述名词短语所对应的短语共被引相似度网络;

第一获取子单元,用于根据所述短语共被引相似度网络,得到所述名词短语所对应的短语共被引相似度;

第一聚类子单元,用于根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合。

在一个实施例中,所述建立子单元包括:

输入子单元,用于将所述名词短语输入至预设Biobert模型,以得到所述名词短语所对应的语义向量;

第二计算子单元,用于计算所述语义向量之间的余弦相似度,以得到所述名词短语所对应的语义相似度。

在一个实施例中,所述文献主题词聚合装置600还包括:

检测单元,用于基于所述短语共被引相似度网络,采用预设社团检测方式进行社团检测,以得到若干个短语社团;

所述第一聚类子单元包括:

第二聚类子单元,用于根据所述名词短语所对应的短语共被引相似度,对所述短语社团进行聚类,以得到第一聚类。

第三聚类子单元,用于根据所述短语所对应的所述语义相似度,对所述短语社团进行聚类,以得到第二聚类;

判断子单元,用于判断每两个所述名词短语是否均包含于所述第一聚类和所述第二聚类;

判定子单元,用于若每两个所述名词短语均包含于所述第一聚类和所述第二聚类,判定该两个所述名词短语为近义词,从而得到近义词短语;

组合子单元,用于将所有所述近义词短语组合成集合以得到近义词集合。

在一个实施例中,所述筛选单元604包括:

筛选子单元,用于根据预设TF-IDF算法,从所述近义词集合中筛选出TF-IDF值最高的名词短语作为目标名词短语;

第二获取子单元,用于将所述目标名词短语作为文献的主题词。

需要说明的是,所属领域的技术人员可以清楚地了解到,上述文献主题词聚合装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。

同时,上述文献主题词聚合装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将文献主题词聚合装置按照需要划分为不同的单元,也可将文献主题词聚合装置中各单元采取不同的连接顺序和方式,以完成上述文献主题词聚合装置的全部或部分功能。

上述文献主题词聚合装置可以实现为一种计算机程序的形式,该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7,图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备700可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。

参阅图7,该计算机设备700包括通过系统总线701连接的处理器702、存储器和网络接口705,其中,存储器可以包括非易失性存储介质703和内存储器704。

该非易失性存储介质703可存储操作系统7031和计算机程序7032。该计算机程序7032被执行时,可使得处理器702执行一种上述文献主题词聚合方法。

该处理器702用于提供计算和控制能力,以支撑整个计算机设备700的运行。

该内存储器704为非易失性存储介质703中的计算机程序7032的运行提供环境,该计算机程序7032被处理器702执行时,可使得处理器702执行一种上述文献主题词聚合方法。

该网络接口705用于与其它设备进行网络通信。本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备700的限定,具体的计算机设备700可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图7所示实施例一致,在此不再赘述。

其中,所述处理器702用于运行存储在存储器中的计算机程序7032,以实现如下步骤:获取文献数据,所述文献数据包括每篇文献所包含的文献标题、文献摘要及所述每篇文献所对应的引文信息;采用预设自然语言处理工具从所述文献标题和所述文献摘要中提取所包含的名词短语;基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合;从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词。

在一实施例中,所述处理器702在实现所述基于所述引文信息及所述名词短语,对所述名词短语进行聚类,以得到近义词集合的步骤时,具体实现以下步骤:

根据所述名词短语,建立基于所述名词短语的语义相似度;

基于所述引文信息,构建文献所对应的文献共被引网络;

根据所述文献共被引网络,计算所述文献所对应的文献共被引相似度;

根据所述文献共被引相似度,构建所述名词短语所对应的短语共被引相似度网络;

根据所述短语共被引相似度网络,得到所述名词短语所对应的短语共被引相似度;

根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合。

在一实施例中,所述处理器702在实现所述根据所述名词短语,建立基于所述名词短语的语义相似度的步骤时,具体实现以下步骤:

将所述名词短语输入至预设Biobert模型,以得到所述名词短语所对应的语义向量;

计算所述语义向量之间的余弦相似度,以得到所述名词短语所对应的语义相似度。

在一实施例中,所述处理器702在实现所述根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合的步骤之前,还实现以下步骤:

基于所述短语共被引相似度网络,采用预设社团检测方式进行社团检测,以得到若干个短语社团;

所述处理器702在实现所述根据所述短语共被引相似度及所述语义相似度,对所述名词短语进行聚类,以得到近义词集合的步骤时,具体实现以下步骤:

根据所述名词短语所对应的短语共被引相似度,对所述短语社团进行聚类,以得到第一聚类。

根据所述短语所对应的所述语义相似度,对所述短语社团进行聚类,以得到第二聚类;

判断每两个所述名词短语是否均包含于所述第一聚类和所述第二聚类;

若每两个所述名词短语均包含于所述第一聚类和所述第二聚类,判定该两个所述名词短语为近义词,从而得到近义词短语;

将所有所述近义词短语组合成集合以得到近义词集合。

在一实施例中,所述处理器702在实现所述从所述近义词集合中筛选出词频频率最高的目标名词短语作为文献的主题词的步骤时,具体实现以下步骤:

根据预设TF-IDF算法,从所述近义词集合中筛选出TF-IDF值最高的名词短语作为目标名词短语;

将所述目标名词短语作为文献的主题词。

应当理解,在本申请实施例中,处理器702可以是中央处理单元(CentralProcessing Unit,CPU),该处理器702还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。

因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:

一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的所述文献主题词聚合方法的步骤。

所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号