首页> 中国专利> 论文作者消歧的方法、装置和计算机设备

论文作者消歧的方法、装置和计算机设备

摘要

本申请涉及大数据领域,揭示了论文作者消歧的方法,包括:获取数据库中所有论文对应的无向图;判断是否接收到对所述无向图进行节点合并的粗糙化指令;若是,则根据粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。通过粗糙化使无向图的骨架结构根据选择的粗糙化类型进行有针对性的浓缩、凸显,使无向图中每个论文对应的节点,均有一个唯一的、确定的、不同的特征信息,使被消歧论文在无向图中的关联关系更明确,提高论文作者消歧精准度,提高论文群的分类精准度。

著录项

  • 公开/公告号CN112528089A

    专利类型发明专利

  • 公开/公告日2021-03-19

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202011407501.3

  • 发明设计人 马文佳;

    申请日2020-12-04

  • 分类号G06F16/901(20190101);G06F16/906(20190101);G06F16/9038(20190101);

  • 代理机构44343 深圳市明日今典知识产权代理事务所(普通合伙);

  • 代理人王杰辉;熊成龙

  • 地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 10:19:37

说明书

技术领域

本申请涉及大数据领域,特别是涉及到论文作者消歧的方法、装置和计算机设备。

背景技术

作者人名消歧一直是工业界与学术界的热点研究方向,也是难点。具不完全统计,在如Pubmed这样的医学数据库中现有论文数量三千万篇,而涉及作者竟有上亿之多,而同名作者如Zhang Wei论文数量有上百万篇。多年来,为解决此问题,人们想出了很多办法,最有效且直观的就是为每位作者注册唯一学术ID,这个想法很好,不过执行起来很困难,也有一些通用的产品,比如ORCID,ResearchID等,因其需要每位作者单独注册并及时更新,即要求作者自己上传论文,维护信息等等。使得作者使用的热情不高,导致很难推行,也因此数据库很难完整,达不到可用水平。而人名消歧研究进展缓慢,比如pubmed官方的消歧工作基本上是基于规则的,如比较重要的一条是:如果同名作者下面的两篇论文有一个共同协作者,那么即认为是两篇论文属于同一作者,经过验证,此方法能解决部分问题,但会引入很多噪声。目前算法基本上是基于文献对(pair)再加上基本的如k-means聚类方法,消歧效果不精准,不尽人意。

发明内容

本申请的主要目的为提供论文作者消歧的方法,旨在解决现有论文消歧效果不精准的技术问题。

本申请提出一种论文作者消歧的方法,包括:

获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;

判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;

若是,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;

判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;

若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

优选地,所述根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图的步骤,包括:

根据所述粗糙化类型确定节点排序因素;

根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序;

根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点;

将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图。

优选地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的权重和,所述根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:

获取与指定节点相连的所有机构边,其中,所述指定节点为所述无向图内所有节点中的任一个;

分别计算各所述机构边分别对应的权重;

根据各所述机构边分别对应的权重,计算所述指定节点对应机构边的权重和;

根据所述指定节点对应机构边的权重和的计算方式,计算所述无向图内所有节点分别对应的权重和;

将所述无向图内所有节点分别对应的权重和,由大到小形成所述第一排序。

优选地,所述分别计算各所述机构边分别对应的权重的步骤,包括:

获取形成指定机构边的第三节点和第四节点分别对应的机构信息,其中,所述指定机构边为与指定节点相连的所有机构边中的任一条,所述机构信息包括机构名称;

计算所述第三节点和第四节点分别对应的机构信息的相同字符数量;

将所述相同字符数量作为所述指定机构边对应的第一权重;

根据所述第一权重的计算方式,计算各所述机构边分别对应的权重。

优选地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的数量,所述根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:

统计与指定节点相连的所有机构边的数量,作为所述指定节点对应的边数量,其中,所述指定节点为所述无向图内所有节点中的任一个;

按照所述指定节点对应的边数量的统计方式,分别统计所述无向图内所有节点分别对应的边数量;

将所述无向图内所有节点分别对应的边数量,由大到小形成所述第一排序。

优选地,所述粗糙化后的目标节点数量依据多层的粗糙化层级结构逐层设置,所述根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点的步骤,包括:

获取所述粗糙化层级结构中的第一层级对应的第一数量;

将所述第一排序中排序靠前的第一数量的节点,确定为所述第一层级对应的第一节点;

将完成第一层级合并后的剩余节点,根据所述节点排序因素,形成第二排序;

获取所述粗糙化层级结构中的第二层级对应的第二数量;

将所述第二排序中排序靠前的第二数量的节点,确定为所述第二层级对应的第一节点;

按照所述第一层级对应的第一节点以及所述第二层级对应的第一节点的确定方式,确定所述粗糙化层级结构中各层级分别对应的第一节点。

优选地,所述将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图的步骤,包括:

将指定第二节点包括的边信息,归并至与所述指定第二节点相连的第一节点中,其中,所述指定第二节点为与所述第一节点关联的所有第二节点中的任一个;

在所述无向图删除所述指定第二节点;

按照所述指定第二节点的合并过程,完成所述无向图内所有所述第一节点分别关联的第二节点的合并,得到粗糙化后的无向图。

本申请还提供了一种论文作者消歧的装置,包括:

获取模块,用于获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;

第一判断模块,用于判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;

粗糙化模块,用于若接收到对所述无向图进行节点合并的粗糙化指令,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;

第二判断模块,用于判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;

判定模块,用于若属于所述粗糙化后的无向图中的同一团,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过粗糙化使无向图的骨架结构根据选择的粗糙化类型进行有针对性的浓缩、凸显,使无向图中每个论文对应的节点,均有一个唯一的、确定的、不同的特征信息,使被消歧论文在无向图中的关联关系更明确,提高论文作者消歧精准度,提高论文群的分类精准度。

附图说明

图1本申请一实施例的论文作者消歧的方法流程示意图;

图2本申请一实施例的论文作者消歧的系统流程示意图;

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

参照图1,本申请一实施例的论文作者消歧的方法,包括:

S1:获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;

S2:判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;

S3:若是,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;

S4:判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;

S5:若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

本申请实施例中,由于同一作者的论文领域、研究方向、协作者、科研机构等信息会在一定时间内稳定不变,这些信息很容易将一论文作者固定下来,形成论文作者的区别特征。将论文集合根据上述信息的关联关系构建成一个无向图。上述无向图表示为G=(V,E),其中V是非空集合,称为节点集,每个节点对应数据库中的一篇论文;E是V中元素构成的无序二元组的集合,无序二元组即两个具有关联关系的节点相连形成的边,E称为边集,无向图中的边均是节点的无序对,无序对用圆括号“()”表示。本申请的粗糙化指将无向图中不重要节点合并至重要节点的过程,使无向图的关联骨架更突显,提高论文作者消歧的精准度。上述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量,粗糙化类型决定于边的类型,边的类型根据论文之间的关联因素进行区分。举例地,两篇论文中作者的机构相同或相似,则会形成机构边;若两篇论文的作者研究领域相同或相似,则会形成研究领域边;若两篇论文的协作者相同,会形成协作者边,等等。上述目标节点数量比如为原节点数量的20%,若原节点为100个,则粗糙化指将80%的节点合并至20%的节点上,粗糙化后的无向图变为剩余20个节点的无向图,粗糙化后的无向图的节点和边集也随之发生改变。

论文作者消歧的过程,即是将无向图切分成不同的子图的过程,而不同子图属于不同作者。在切成子图的过程中,捕捉图上的结构信息至关重要,比如两篇论文有多个相同的合作者,则倾向于将此具有相同作者名字的两篇论文归为同一作者,属于无向图中的同一个团,同理属于不同团的两篇论文基本上属于不同作者。上述团的定义如下,若无向图中子图节点集U∈V,且对任意两个节点u、v∈U,满足(u,v)∈E,则称U是G的完全子图,G的完全子图U是G的团,即独立的子图。粗糙化后的无向图,骨架结构更突显,得到的团更精准,所以论文作者消歧效果更精准。

本申请中,粗糙化后合并的各节点使用同一个特征信息集,然后通过在粗糙后的无向图上进行随机游走,以边的权重作为选择概率输入到skip-gram模型中进行聚类,以获得不同的团。

本申请通过粗糙化使无向图的骨架结构根据选择的粗糙化类型进行有针对性的浓缩、凸显,使无向图中每个论文对应的节点,均有一个唯一的、确定的、不同的特征信息,使被消歧论文在无向图中的关联关系更明确,提高论文作者消歧精准度,提高论文群的分类精准度。

进一步地,所述根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图的步骤S3,包括:

S31:根据所述粗糙化类型确定节点排序因素;

S32:根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序;

S33:根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点;

S34:将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图。

本申请实施例中,粗糙化类型包括但不限于根据机构边粗糙化、根据研究领域边粗糙化以及根据协作者边粗糙化等。上述不同的粗糙化类型,对应的节点排序因素不同。举例地,根据机构边粗糙化时,节点排序因素为机构边的数量或机构边的权重和;而根据研究领域边粗糙化时,节点排序因素为研究领域边的数量或研究领域边的权重和。上述的第一排序包括降序排序或升序排序。举例地,根据研究领域边的数量,对原100个节点形成降序排序的第一排序,然后根据目标节点数量为20个,确定第一排序中排列前20的节点为保留的第一节点,剩余的80个节点为待合并的第二节点,然后根据第一节点和第二节点的连接关系,将第一节点周边连接的第二节点均合并至第一节点上,并在无向图中隐藏第二节点,得到粗糙化后的无向图。

进一步地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的权重和,所述根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤S32,包括:

S321:获取与指定节点相连的所有机构边,其中,所述指定节点为所述无向图内所有节点中的任一个;

S322:分别计算各所述机构边分别对应的权重;

S323:根据各所述机构边分别对应的权重,计算所述指定节点对应机构边的权重和;

S324:根据所述指定节点对应机构边的权重和的计算方式,计算所述无向图内所有节点分别对应的权重和;

S325:将所述无向图内所有节点分别对应的权重和,由大到小形成所述第一排序。

本申请实施例中,以根据机构边粗糙化的粗糙化类型为例,且以机构边的权重和作为节点排序因素,将无向图内所有节点分别对应的机构边的权重和,由大到小形成第一排序。本申请其他实施例中,以根据研究领域边粗糙化粗糙化为粗糙化类型,且以研究领域边的权重和作为节点排序因素,形成第一排序的过程同上,不赘述。本申请其他实施例中,以根据协作者边粗糙化粗糙化为粗糙化类型,且以协作者边的权重和作为节点排序因素,形成第一排序的过程同上,不赘述。

进一步地,所述分别计算各所述机构边分别对应的权重的步骤S322,包括:

S3221:获取形成指定机构边的第三节点和第四节点分别对应的机构信息,其中,所述指定机构边为与指定节点相连的所有机构边中的任一条,所述机构信息包括机构名称;

S3222:计算所述第三节点和第四节点分别对应的机构信息的相同字符数量;

S3223:将所述相同字符数量作为所述指定机构边对应的第一权重;

S3224:根据所述第一权重的计算方式,计算各所述机构边分别对应的权重。

本申请实施例中,以机构名称中具有相同的字符的数量,作为权重。对每一篇论文的作者名字进行建图的,节点是对应名字下面的每一篇论文。如论文的作者名字为“zhang,wei”,则由此论文为节点的每条边,关联信息的重要程度不同,表示为每条边的权重不同。比如,论文a的“zhang,wei”,对应的机构名称是“疾病防治与控制中心”,而论文b的“zhang,wei”,对应的机构名称是“疾控中心”,两个机构名称之间有多四个字符重复,则该机构边的权重为四。本申请实施例为提高计算精准度,在对机构名称预处理过程时,去掉了无意义的虚词,以免影响构建机构边的精准度。

进一步地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的数量,所述根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤S32,包括:

S3201:统计与指定节点相连的所有机构边的数量,作为所述指定节点对应的边数量,其中,所述指定节点为所述无向图内所有节点中的任一个;

S3202:按照所述指定节点对应的边数量的统计方式,分别统计所述无向图内所有节点分别对应的边数量;

S3203:将所述无向图内所有节点分别对应的边数量,由大到小形成所述第一排序。

本申请实施例中,以根据机构边粗糙化的粗糙化类型为例,且以机构边的数量作为节点排序因素,将无向图内所有节点分别对应的机构边的数量,由大到小形成第一排序。捕捉无向图内图结构信息对于消歧是很关键的,通过对无向图进行粗糙化后获取图结构信息,更有针对性。无向图上的节点重要性是不一样的,对于同一作者论文的影响力也是不同的。比如一篇论文的与多篇其他论文有关联,即以该节点为对象的入度机构边的数量大,那么在无向图上该节点应该是比较重要的,更能代表其所属作者的属性特征,反之与其他论文联系少,则说明该节点的重要性不足。

本申请其他实施例中,以根据研究领域边粗糙化粗糙化为粗糙化类型,且以研究领域边的数量作为节点排序因素,形成第一排序的过程同上,不赘述。本申请其他实施例中,以根据协作者边粗糙化粗糙化为粗糙化类型,且以协作者边的数量作为节点排序因素,形成第一排序的过程同上,不赘述。

进一步地,所述粗糙化后的目标节点数量依据多层的粗糙化层级结构逐层设置,所述根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点的步骤S33,包括:

S331:获取所述粗糙化层级结构中的第一层级对应的第一数量;

S332:将所述第一排序中排序靠前的第一数量的节点,确定为所述第一层级对应的第一节点;

S333:将完成第一层级合并后的剩余节点,根据所述节点排序因素,形成第二排序;

S334:获取所述粗糙化层级结构中的第二层级对应的第二数量;

S335:将所述第二排序中排序靠前的第二数量的节点,确定为所述第二层级对应的第一节点;

S336:按照所述第一层级对应的第一节点以及所述第二层级对应的第一节点的确定方式,确定所述粗糙化层级结构中各层级分别对应的第一节点。

本申请实施例的粗糙化进而分层级进行,通过设置粗糙化层级结构,实现分层进行粗糙化,以获取不同层级的图结构信息,使特征信息更全面。举例地,第一层级合并原节点数量的80%,第二层级合并第一层级粗糙化后剩下节点数量的50%,第三层级合并第二层级粗糙化后剩下节点数量的20%等,以局部抽取该节点的局部信息,最后再通过回归到原无向图,获取该节点的全局信息。上述局部信息包括该节点对应论文与其他论文的相同或相似的信息,上述全局信息包括该节点对应论文与其他论文的不同的区别信息。通过将局部信息和全局信息均作为该节点的特征信息,才会使该节点具有唯一的、确定的、不同的特征信息集,以标识该节点,为后续的节点聚类划分子图提供更精准的依据。

本申请其他实施例中,也可通过各层级间依据不同粗糙化类型进行混合粗糙化。举例地,第一层级采用机构边的权重和,合并原节点数量的80%,第二层级采用研究领域边的数量,合并第一层级粗糙化后剩下节点数量的50%,第三层级采用协作者边的权重和,合并第二层级粗糙化后剩下节点数量的20%等,以更精细抽取该节点的局部信息,最后再通过回归到原无向图,获取该节点更全面的全局信息,提高该节点的特征信息的丰富度。

进一步地,所述将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图的步骤S34,包括:

S341:将指定第二节点包括的边信息,归并至与所述指定第二节点相连的第一节点中,其中,所述指定第二节点为与所述第一节点关联的所有第二节点中的任一个;

S342:在所述无向图隐藏所述指定第二节点;

S343:按照所述指定第二节点的合并过程,完成所述无向图内所有所述第一节点分别关联的第二节点的合并,得到粗糙化后的无向图。

本申请实施例通过将待合并的第二节点的边信息,合并至与其连接的第一节点的边信息上,同时在无向图中隐藏第二节点的方式,实现无向图基于不同的粗糙化类型,实现有效凸显骨架结构,凸显无向图的图结构信息,以获取节点的全局信息。上述边信息包括边数量以及边类型。两个节点归并后,边信息的合并有两种方式,一种是累加一种是吸收合并。举例地,比如节点b归并到节点a,合并前存在节点b和节点a,均与另一节点c相连,节点a、c对应的边的权重是3,节点b、c对应的边的权重是5。合并后,节点a、b两个节点变成一个节点,而与节点c连接的节点,从图上显示为合并后的节点a与节点c相连,那么之前与节点b相连的边需要重新处理,若为累加,即与节点a的边相加,即合并后的节点a与节点c的边的权重变为8,若为合并吸收,则取最大权重5,即合并后的节点a与节点c的边的权重为5。

参照图2,本申请一实施例的论文作者消歧的装置,包括:

获取模块1,用于获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;

第一判断模块2,用于判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;

粗糙化模块3,用于若接收到对所述无向图进行节点合并的粗糙化指令,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;

第二判断模块4,用于判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;

判定模块5,用于若属于所述粗糙化后的无向图中的同一团,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

本申请装置实施例的解释同方法的对应部分,不赘述。

进一步地,粗糙化模块3,包括:

第一确定子模块,用于根据所述粗糙化类型确定节点排序因素;

形成子模块,用于根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序;

第二确定子模块,用于根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点;

合并子模块,用于将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图。

进一步地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的权重和,形成子模块,包括:

第一获取单元,用于获取与指定节点相连的所有机构边,其中,所述指定节点为所述无向图内所有节点中的任一个;

第一计算单元,用于分别计算各所述机构边分别对应的权重;

第二计算单元,用于根据各所述机构边分别对应的权重,计算所述指定节点对应机构边的权重和;

第三计算单元,用于根据所述指定节点对应机构边的权重和的计算方式,计算所述无向图内所有节点分别对应的权重和;

第一形成单元,用于将所述无向图内所有节点分别对应的权重和,由大到小形成所述第一排序。

进一步地,第一计算单元,包括:

获取子单元,用于获取形成指定机构边的第三节点和第四节点分别对应的机构信息,其中,所述指定机构边为与指定节点相连的所有机构边中的任一条,所述机构信息包括机构名称;

第一计算子单元,用于计算所述第三节点和第四节点分别对应的机构信息的相同字符数量;

作为子单元,用于将所述相同字符数量作为所述指定机构边对应的第一权重;

第二计算子单元,用于根据所述第一权重的计算方式,计算各所述机构边分别对应的权重。

进一步地,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的数量,形成子模块,包括:

第一统计单元,用于统计与指定节点相连的所有机构边的数量,作为所述指定节点对应的边数量,其中,所述指定节点为所述无向图内所有节点中的任一个;

第二统计单元,用于按照所述指定节点对应的边数量的统计方式,分别统计所述无向图内所有节点分别对应的边数量;

第二形成单元,用于将所述无向图内所有节点分别对应的边数量,由大到小形成所述第一排序。

进一步地,所述粗糙化后的目标节点数量依据多层的粗糙化层级结构逐层设置,第二确定子模块,包括:

第二获取单元,用于获取所述粗糙化层级结构中的第一层级对应的第一数量;

第一确定单元,用于将所述第一排序中排序靠前的第一数量的节点,确定为所述第一层级对应的第一节点;

第三形成单元,用于将完成第一层级合并后的剩余节点,根据所述节点排序因素,形成第二排序;

第三获取单元,用于获取所述粗糙化层级结构中的第二层级对应的第二数量;

第二确定单元,用于将所述第二排序中排序靠前的第二数量的节点,确定为所述第二层级对应的第一节点;

第三确定单元,用于按照所述第一层级对应的第一节点以及所述第二层级对应的第一节点的确定方式,确定所述粗糙化层级结构中各层级分别对应的第一节点。

进一步地,合并子模块,包括:

归并单元,用于将指定第二节点包括的边信息,归并至与所述指定第二节点相连的第一节点中,其中,所述指定第二节点为与所述第一节点关联的所有第二节点中的任一个;

隐藏单元,用于在所述无向图隐藏所述指定第二节点;

得到单元,用于按照所述指定第二节点的合并过程,完成所述无向图内所有所述第一节点分别关联的第二节点的合并,得到粗糙化后的无向图。

参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储论文作者消歧的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现论文作者消歧的方法。

上述处理器执行上述论文作者消歧的方法,包括:获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;若是,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

上述计算机设备,通过粗糙化使无向图的骨架结构根据选择的粗糙化类型进行有针对性的浓缩、凸显,使无向图中每个论文对应的节点,均有一个唯一的、确定的、不同的特征信息,使被消歧论文在无向图中的关联关系更明确,提高论文作者消歧精准度,提高论文群的分类精准度。

在一个实施例中,上述处理器根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图的步骤,包括:根据所述粗糙化类型确定节点排序因素;根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序;根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点;将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图。

在一个实施例中,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的权重和,上述处理器根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:获取与指定节点相连的所有机构边,其中,所述指定节点为所述无向图内所有节点中的任一个;分别计算各所述机构边分别对应的权重;根据各所述机构边分别对应的权重,计算所述指定节点对应机构边的权重和;根据所述指定节点对应机构边的权重和的计算方式,计算所述无向图内所有节点分别对应的权重和;将所述无向图内所有节点分别对应的权重和,由大到小形成所述第一排序。

在一个实施例中,上述处理器分别计算各所述机构边分别对应的权重的步骤,包括:获取形成指定机构边的第三节点和第四节点分别对应的机构信息,其中,所述指定机构边为与指定节点相连的所有机构边中的任一条,所述机构信息包括机构名称;计算所述第三节点和第四节点分别对应的机构信息的相同字符数量;将所述相同字符数量作为所述指定机构边对应的第一权重;根据所述第一权重的计算方式,计算各所述机构边分别对应的权重。

在一个实施例中,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的数量,上述处理器根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:统计与指定节点相连的所有机构边的数量,作为所述指定节点对应的边数量,其中,所述指定节点为所述无向图内所有节点中的任一个;按照所述指定节点对应的边数量的统计方式,分别统计所述无向图内所有节点分别对应的边数量;将所述无向图内所有节点分别对应的边数量,由大到小形成所述第一排序。

在一个实施例中,所述粗糙化后的目标节点数量依据多层的粗糙化层级结构逐层设置,上述处理器根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点的步骤,包括:获取所述粗糙化层级结构中的第一层级对应的第一数量;将所述第一排序中排序靠前的第一数量的节点,确定为所述第一层级对应的第一节点;将完成第一层级合并后的剩余节点,根据所述节点排序因素,形成第二排序;获取所述粗糙化层级结构中的第二层级对应的第二数量;将所述第二排序中排序靠前的第二数量的节点,确定为所述第二层级对应的第一节点;按照所述第一层级对应的第一节点以及所述第二层级对应的第一节点的确定方式,确定所述粗糙化层级结构中各层级分别对应的第一节点。

在一个实施例中,上述处理器将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图的步骤,包括:将指定第二节点包括的边信息,归并至与所述指定第二节点相连的第一节点中,其中,所述指定第二节点为与所述第一节点关联的所有第二节点中的任一个;在所述无向图删除所述指定第二节点;按照所述指定第二节点的合并过程,完成所述无向图内所有所述第一节点分别关联的第二节点的合并,得到粗糙化后的无向图。

本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现论文作者消歧的方法,包括:获取数据库中所有论文对应的无向图,其中,所述无向图中的节点与论文一一对应;判断是否接收到对所述无向图进行节点合并的粗糙化指令,其中,所述粗糙化指令携带粗糙化类型以及粗糙化后的目标节点数量;若是,则根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图;判断待消歧作者的论文是否属于所述粗糙化后的无向图中的同一团;若是,则判定待消歧作者的论文属于同一个作者,否者不属于同一个作者。

上述计算机可读存储介质,通过粗糙化使无向图的骨架结构根据选择的粗糙化类型进行有针对性的浓缩、凸显,使无向图中每个论文对应的节点,均有一个唯一的、确定的、不同的特征信息,使被消歧论文在无向图中的关联关系更明确,提高论文作者消歧精准度,提高论文群的分类精准度。

在一个实施例中,上述处理器根据所述粗糙化类型以及粗糙化后的目标节点数量,对所述无向图进行粗糙化,得到粗糙化后的无向图的步骤,包括:根据所述粗糙化类型确定节点排序因素;根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序;根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点;将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图。

在一个实施例中,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的权重和,上述处理器根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:获取与指定节点相连的所有机构边,其中,所述指定节点为所述无向图内所有节点中的任一个;分别计算各所述机构边分别对应的权重;根据各所述机构边分别对应的权重,计算所述指定节点对应机构边的权重和;根据所述指定节点对应机构边的权重和的计算方式,计算所述无向图内所有节点分别对应的权重和;将所述无向图内所有节点分别对应的权重和,由大到小形成所述第一排序。

在一个实施例中,上述处理器分别计算各所述机构边分别对应的权重的步骤,包括:获取形成指定机构边的第三节点和第四节点分别对应的机构信息,其中,所述指定机构边为与指定节点相连的所有机构边中的任一条,所述机构信息包括机构名称;计算所述第三节点和第四节点分别对应的机构信息的相同字符数量;将所述相同字符数量作为所述指定机构边对应的第一权重;根据所述第一权重的计算方式,计算各所述机构边分别对应的权重。

在一个实施例中,所述粗糙化类型包括根据一种边种类进行粗糙化,所述边种类包括论文作者对应的机构边,所述节点排序因素包括各节点对应的机构边的数量,上述处理器根据所述节点排序因素,形成所述无向图内所有节点对应的第一排序的步骤,包括:统计与指定节点相连的所有机构边的数量,作为所述指定节点对应的边数量,其中,所述指定节点为所述无向图内所有节点中的任一个;按照所述指定节点对应的边数量的统计方式,分别统计所述无向图内所有节点分别对应的边数量;将所述无向图内所有节点分别对应的边数量,由大到小形成所述第一排序。

在一个实施例中,所述粗糙化后的目标节点数量依据多层的粗糙化层级结构逐层设置,上述处理器根据粗糙化后的目标节点数量确定所述第一排序中保留的第一节点的步骤,包括:获取所述粗糙化层级结构中的第一层级对应的第一数量;将所述第一排序中排序靠前的第一数量的节点,确定为所述第一层级对应的第一节点;将完成第一层级合并后的剩余节点,根据所述节点排序因素,形成第二排序;获取所述粗糙化层级结构中的第二层级对应的第二数量;将所述第二排序中排序靠前的第二数量的节点,确定为所述第二层级对应的第一节点;按照所述第一层级对应的第一节点以及所述第二层级对应的第一节点的确定方式,确定所述粗糙化层级结构中各层级分别对应的第一节点。

在一个实施例中,上述处理器将所述无向图内与所述第一节点关联的第二节点,合并至所述第一节点,得到粗糙化后的无向图的步骤,包括:将指定第二节点包括的边信息,归并至与所述指定第二节点相连的第一节点中,其中,所述指定第二节点为与所述第一节点关联的所有第二节点中的任一个;在所述无向图删除所述指定第二节点;按照所述指定第二节点的合并过程,完成所述无向图内所有所述第一节点分别关联的第二节点的合并,得到粗糙化后的无向图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号