首页> 中国专利> 一种中文文献作者重名消歧的方法

一种中文文献作者重名消歧的方法

摘要

本发明公开了一种中文文献作者重名消歧的方法,该方法包括:对文献数据集进行规范化预处理;作者初次抽取及形式化表达;对有重名歧义的作者根据其基础属性计算两两间的基础属性相似度得分;构建重名作者关键词关系对应表并计算关键词相似度得分;对重名作者建立合作关系网络并计算两两间的合作关系相似度得分;根据相关基础属性、关键词及合作关系网络计算综合相似度指数进行重名作者判定;根据判定结果更新作者相关信息。通过本发明可以实现对中文文献中存在的作者重名现象进行消歧,为通过学术文献分析进而应用在科技评价、学术研究等方面提供了一种提高学术分析精准化程度的方法。

著录项

  • 公开/公告号CN105653590A

    专利类型发明专利

  • 公开/公告日2016-06-08

    原文格式PDF

  • 申请/专利权人 青岛智能产业技术研究院;

    申请/专利号CN201510969129.8

  • 申请日2015-12-21

  • 分类号G06F17/30(20060101);G06F17/27(20060101);

  • 代理机构37227 青岛联信知识产权代理事务所;

  • 代理人徐艳艳

  • 地址 266109 山东省青岛市高新区创业大厦B座26楼

  • 入库时间 2023-12-18 15:42:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-26

    授权

    授权

  • 2016-07-06

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151221

    实质审查的生效

  • 2016-06-08

    公开

    公开

说明书

技术领域

本发明属于文献处理领域,尤其涉及一种中文文献作者重名消歧的方法。

背景技术

目前随着在线文献数据库的不断丰富和发展,越来越多的学者以及相关机构企业 单位开始注重通过文献分析的方法了解领域最新科研动态,掌握同行或竞争对手的科技活 动动向。在此基础上进一步研究发现领域重点及热点问题,把握领域发展概貌,辅助科技决 策与学术评价。然而通过设置特定关键词、作者、期刊方向等进而获取到相关领域文献后, 在进行文献分析时都普遍存在文献作者重名的问题,而仅仅通过相关机构属性,因为在线 文献数据库的标注、作者在文献中机构标注不统一存在作者无法准确定位的问题,同时对 已对应机构的作者重名,以及由于作者自己工作单位更换等原因造成的重名但机构不统一 等问题影响着文献分析结果的质量。

针对以上的相关问题,现有技术主要通过以下方法来解决:(1)、有监督的作者消 歧方法:需要先标注好训练样例数据,然后在此基础上创建分类模型,进而判断新出现的作 者与样例中的作者是否属于同一作者。通常此方法消歧效果较好,但在实际使用中人工给 大规模的文献数据进行标注要耗费大量时间,不切实际,实际应用的意义不大。(2)、无监督 的作者消歧方法:通常采用聚类的方法实现。首先利用文献相关的属性特征,计算出所有数 据点的相似度,通过特定的聚类算法得到的聚类团簇就是最后的消歧结果。除了传统的聚 类方法,如层次聚类、谱聚类等外,还有学者应用网络图的方法。无监督的消歧方法因为不 需要训练数据,不需要人工标注,具有较好的实用性。(3)、半监督的作者消歧方法,即以少 量的标注数据指导大量的未标注数据。但无监督方法中一般采用的聚类算法中预先设定的 聚类团数通常是不可预知的,同时现有的方法体系中没有综合考虑多种特征来解决作者消 歧问题。

发明内容

本发明克服现有中文文献作者消歧方法的不足,提供了一种中文文献作者重名消 歧的方法。该方法和系统可综合利用文献的多种特征,采用特征加权的方法实现重名作者 的消歧。本发明可直接应用中文文献的作者消歧,为通过学术文献分析进而应用在科技评 价、学术研究等方面提供了一种提高学术分析精准化程度的方法。本发明的具体技术方案 为:

一种中文文献作者重名消歧的方法,包括以下步骤:

步骤一:数据规范化处理:将采集到的中文文献数据集PS,其中的每篇文献记作P, 采集P的相关属性并对其做规范化处理,采用向量形式化表达其基础属性集,记作Pinfo,Pinfo=(Ptitle,Pauthor,Pauthor_en,Pinstitution,Pkeyword,Pabstract,Ppubtime,Pjournal);

其中:Ptitle为该篇文献的标题;

Pauthor为该篇文献的作者;

Pauthor_en为该篇文献的作者英文说明信息;

Pinstitution为该篇文献的机构;

Pkeyword为该篇文献的关键词;

Pabstract为该篇文献的摘要;

Ppubtime为该篇文献的发表时间;

Pjournal为该篇文献的来源期刊。

步骤二:作者初次抽取及形式化表达:根据每篇P作者Pauthor和Pauthor_en的基础属 性,抽取作者信息,初步建立作者与机构的匹配,采用向量形式化表示每位作者相关信息, 记作Ainfo,Ainfo=(Ainstituion,Akeywords,Acollaborators,Apset);同时将有把有重名的作者对象放 入一个列表中,记作Alist,将所有待处理的重名作者集合放入列表AprocessSet中;对每一个 Alisti中的两两之间进行以下步骤三至七:

其中:Ainstituion为该文献标注的作者的机构;

Akeywords为该作者的文章关键词表;

Acollaborators为该作者的合作者列表:

Apset为该作者在PS中的文献对象集合。

Alist={A1,A2,A3,…Ak},k≥2。是本作者姓名重名的个数,k。

AprocessSet={Alist1,Alist2,Alist3,…,Alistn};n是PS中所有有重名的作者列表的个 数。作者消歧的目标就是使得AprocessSet中每一个Alisti中的k值尽量等于或逼近真实的作者 个数tk。

步骤三:计算重名作者的相关基础属性特征相似度:根据选取作者机构特征、期刊 特征与标题(摘要)特征,用概率论计算重名作者的机构相似度得分Simscoreinsti,根据期刊 种类预定义期刊之间的相似度计算期刊相关度得分Simscorejournal,根据向量空间模型VSN 与余弦计算标题(摘要)相似度得分Simscoretitle&abstract,根据预定义的特征权重动态调正 后计算重名作者间的基础属性相似度并对结果归一化到0-100的区间范围;

步骤四:计算重名作者的关键词特征相似度得分:对重名作者,根据其文献在PS中 的文献对象集合A_pset中文献关键词,抽取作者文献关键词对应表并统计每个关键词的词 频,计算重名作者间的文章关键词相似度并对计算结果归一化;

步骤五:计算重名作者的合作者关系特征相似度得分:对重名作者,根据其A_pset 中文献的合作作者,构建其合作关系表,每个合作作者统计合作次数、合作时间,设定A_ collaborators。计算合作者关系特征相似度得分并对计算结果归一化;

步骤六:计算综合相似指数并重名消歧:综合重名作者的基础属性特征相似度得 分,文章关键词特征相似度得分,合作者关系特征相似度得分,对三项得分进行加权计算综 合相似指数;然后根据计算结果与预定义的阈值进行比较,对于超过阈值的两个作者判定 为同一作者;

步骤七:作者信息更新:对经过步骤106判断为同一作者的两个作者对象进行融 合,删除其中一个作者对象,然后更新保留作者的各项属性,包括作者机构、文献集合、合作 者集合、关键词集合等。对每一个重名作者列表中的作者重复步骤103到107:直到每一个重 名列表中的作者两两之间的相似度得分均低于融合阈值,程序结束。

优化地,所述步骤一中相关属性规范处理前要先对其进行过滤,过滤方法主要采 用过滤掉重要基础属性丢失的文献,包括没有机构信息、没有关键词信息等。

优化地,所述步骤一中机构信息的规范化处理是根据与定义的三级机构信息分级 抽取并标注保存,预定义的三级机构划分如下:一级机构:大学、科研院所、集团等;二级机 构:大学学院、科研院所下级直属单位、集团分公司等;三级机构:大学院系、实验室、具体分 公司部门等。

优化地,所述步骤一中的文章发表时间,规范化处理时只保留其发表年份。

优化地,所述步骤二中对每个作者对象设定其相关基础属性,对于文章作者所属 机构有标注的文章,设定并标注其机构信息;对于隶属于多家机构的作者,根据标注前后顺 序进行保存,同时保存对应机构的级别;对所属机构无标注的文章,临时设定文章的机构作 为其每个作者的机构。

优化地,所述步骤三中标题与摘要相似度的计算也可以采用文本相似度算法。

优化地,所述步骤三中使用空间向量与余弦计算相似度时要先根据词性去掉标题 与摘要中的副词、虚词与数词;具体的算法为:设作者Ai,Aj的标题与摘要经过预处理(分词、 去停用词等)后的词序列分别为Wi(Wi1,Wi2,Wi3,...Wim)与Wj(Wj1,Wj2,Wj3,...Wjn),则Wi与Wj的 相似度计算公式为:

其中,Wik、Wjk分别表示Wi和Wj第k个特征项的权值。

一般情况下,根据概率论来计算机构相似度得分Simscoreinsti。机构信息越详细 (三级机构)如果两个作者的信息相同,则为同一个人的概率更大。首先比较一级机构,如果 一级机构一样;再分别匹配二级机构与三级机构。定义为如果一级机构相同,则机构相似度 为90,如果到二级机构相同,则相似度得分为95,如果三级机构相同,则为100。都不同相同 则为0。

一般情况下,期刊相似度Simscorejournal的得分也通过概率论来计算。,作者发文 相对会集中在领域相关的几个特定的期刊上,因此可以将期刊作为作者消歧的一个基础属 性特征。期刊之间的相似度计算需要预先定义期刊之间的相似度表,由于期刊种类繁多,人 工定义相似度存在较大的工作量和随机误差,因此这里采用从CNKI期刊库里根据期刊所属 学科领域采集相关期刊列表,期刊大类分为“自然科学与工程技术”与“人文社会科学”,共 包含8260种期刊,基本覆盖国内中文绝大部分期刊。同时,每个大类下又分为若干二级类 别,如“自然科学与工程技术”类目下包含:基础科学、工程科技I、工程科技II、农业科技、医 药卫生科技、信息科技6个类目。二级类目下又分为三级类目,如“信息科技”分为:电子信息 科学综合、无线电电子学、电信技术、计算机硬件技术等11个三级类别。定义期刊间的相似 度如下:两本期刊如果只同属一样的一级大类则相关度为40;如果所属的二级类目也相同, 则相关度增为60;如果所属的三级类目也相同,则相关度增为80。

优化地,所述步骤三中基础属性得分为

Simscorebasic(Ai,Aj)=Simscoreinsti*α+Simscorejournal*β+Simscoretitle&abstract* γ,其中,α,β,γ分别为机构特征、期刊特征、标题与摘要特征的影响权重因子,可以根据使 用者需求自行设定,随后对计算结果归一化到0-100点区间范围。归一化的计算为 Simscorebasic=Simscorebasic/100。

优化地,所述步骤四中文章关键词的算法采用完全匹配法。

定义两个重名作者的文章关键词相同数目为key_num(Ai,Aj):

key_num(Ai,Aj)=|Ai-keywords∩Aj-keywords|

然后定义归一化的关键词特征的相似度Simscorekeyword(Ai,Ai):

Simscorekeyword(Ai,Aj)=key_num(Ai,Aj)min|nKAi,nKAj|*100

分别为Ai-keywords与Aj-keywords的关键词个数。

优化地,一般认为,如果两篇文献拥有共同的合作者,则很有可能属于同一个同名 作者。合作者重复越多,相似性越大,为同一个作者的几率越大。基于此,所述步骤五中合作 作者特征相似度的计算为:co_num(Ai,Aj)=|Ai-collaborators∩Aj-collaborators|。

然后定义归一化的合作者特征的相似度Simscorecoauthor(Ai,Aj):

Simscorecoauthor(Ai,Aj)=conum(Ai,Aj)min|nCAi,nCAj|*100

分别为Ai-collaborators与Aj-collaborators的作者个数。

优化地,所述步骤六中两个重名作者的综合相似度得分为

Simscore(Ai,Aj)=Simscorebasic(Ai,Aj)*α1+Simscorekeyword(Ai,Aj)*α2+ Simscorecoauthor(Ai,Aj)*α3,其中α1,α2,α3分别为基础属性特征、关键词特征、合作作者的权 重,可以根据使用者需求自行设定。

记θ为相似度判断阈值,即若Simscore(Ai,Aj)≥θ,则判断Ai,Aj为同一作者,转到 步骤107。Simscore(Ai,Aj)<θ则判断Ai,Aj为不同作者,不进行合并。如果仍有未处理的重 名作者,取出重名作者集中下一个作者,转到步骤103,否则结束。θ的设定同样根据用户实 际需求,通过多次测试进行设定,一般取0.9-1。

附图说明:

图1是本发明方法流程示意图;

图2是本发明方法具体操作的示意图

具体实施方式

本发明中,用户可以根据其关注的领域,使用设定关键词、指定相关期刊、设定领 域分类方向、起止年份等方式在CNKI、万方等文献平台采集相关中文文献数据集,记作PS。 一般情况下,平台中可以看到的文章属性都可以采集到,包括文献的标题、作者、机构、摘 要、关键词、期刊、发表时间等,默认采集所有基础属性,不下载正文。PS中的每篇文献记作 P,由于采集的个别属性表达方式上的多样性以及平台本身对个别录入文献的不规范性,需 要对PS进行初步过滤以及对过滤后的每篇有效文献P的相关属性,包括作者、机构、关键词 等进行规范化处理。过滤方法主要采用过滤掉重要基础属性丢失的文献,包括没有机构信 息、没有关键词信息等。由于每篇文献由于作者的习惯等标注的机构信息也具有多样性,需 要对机构信息进行处理,根据预定义的三级机构信息分级抽取并标注。机构分级定义如下: 大学、科研院所、集团等属于一级机构,大学学院、科研院所下级直属单位、集团分公司等属 于二级机构,大学院系、实验室、具体分公司部门等属于三级机构。

对每篇文献采集的机构通过命名实体识别以及文字处理匹配等处理后分级保存。 对文章发表时间只保留年份。

然后按照本发明的具体方法进行作者重名消歧。其中,CNKI中使用作者英文信息 进行机构标号,万方则直接在中文作者姓名后标注机构标号,对于隶属于多家机构的作者, 根据标注前后顺序进行保存,同时保存对应机构的级别。对于无标注的作者,临时设定文章 的所有机构信息作为其每个作者的机构。根据每篇文章的作者共现关系,设定其合作作者 列表。根据每篇文章的关键词信息,设定对应作者的关键词,同时每个关键词对象包括关键 词名称以及次序(第一关键词、第二关键词等)。

优化地,本发明所述的因子可取:α=0.8,β=0.1,γ=0.1,α1=0.4,α2=0.3,α3= 0.4。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号