公开/公告号CN114969368A
专利类型发明专利
公开/公告日2022-08-30
原文格式PDF
申请/专利权人 北京航空航天大学;
申请/专利号CN202210600146.4
申请日2022-05-27
分类号G06F16/36(2019.01);G06F16/215(2019.01);G06F40/30(2020.01);G06Q50/00(2012.01);
代理机构北京天汇航智知识产权代理事务所(普通合伙) 11987;
代理人黄川
地址 100191 北京市海淀区学院路37号
入库时间 2023-06-19 16:33:23
法律状态公告日
法律状态信息
法律状态
2022-09-16
实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022106001464 申请日:20220527
实质审查的生效
技术领域
本发明涉及数据处理技术领域,应用于数据挖掘和专家画像技术,具体涉及一种融合多源数据的领域专家科研关系网络构建方法。
背景技术
专家科研关系网络是专家的标签化描述及专家之间科研关系的集合,属于专家画像的一种表现形式,能为人才评价、项目评审、协同决策等应用提供重要的循证依据。特别是,在协同决策领域,某一领域的多个专家同时进行决策时难免遇到冲突,需要考虑到领域专家之间多维度的科研关系,才能正确模拟真实的冲突消解过程。
目前许多机构都在构建专家科研关系网络,取得了一些成果,如科技情报大数据挖掘与服务系统平台AMiner中的专家科研关系网络包含合作、学生、导师等多种关系,但中国专家的信息较少且存在很多重复词条;知网专家库中的专家科研关系网络包含合作、引用、被引关系,但这些关系还不够完善;地理信息专业知识服务系统中的专家科研关系网络考虑到了专家的地理信息,但只有合作这一种关系且数据来源匮乏。
现有技术中,公开号为CN112418695A的发明专利公开了一种面向烟草领域科研人员的多维度画像构建方法及推荐方法,其获取了科研人员、科研成果数据等数据,建立了科研人员参与科研成果的关联信息以及标记科研人员在所参与科研成果中的名次,构建了科研人员基本属性、学术影响力、学术影响力维度、科研成果及科研兴趣等多维度的科研画像。公开号为CN114329232A的发明专利公开了一种基于科研网络的用户画像构建方法和系统,其基于论文合著数据,以学者为节点,学者之间的合著关系为边,构建科研社交网络图,充分挖掘科研人员之间的关联,从学者的社交维度完善用户画像,并将其作为研究领域标签预测的输入特征,提高了标签预测的准确性。
然而,已有的专家科研关系网络存在很多不足,限制其发展的因素主要有以下几点:第一,缺少统一公开的数据源,专家科研关系网络构建的基础是文献大数据,而核心数据多来自于出版社、杂志社等,被国内少数知名文献数据商牢牢掌控,因此研究成果的通用性很难大规模验证;第二,数据整合难度较大,缺少中文及外文文献类数据的统一融合标准,数据去重、去冗余、消歧等工作很难高效完成,在一定程度上影响了专家科研关系网络的准确性和权威性;第三,数据的挖掘强度不够,无法准确、全面地反映专家之间的科研关系,例如挖掘合作关系时只考虑到合作论文数量,其实合作论文中的作者排序、论文的发表时间也是值得关注的;第四,缺少影响关系层面的建模,已有的网络大多停留于语义关系层面,无法直接服务于实际应用,例如语义关系不能直接用于决策问题,还需要进一步量化专家之间的影响关系。
可见,目前已有的专家科研关系网络,关系数据缺乏准确性和权威性,考虑到的关系类别单一、片面,无法支撑各类实际应用。因此,如何整合多源数据并挖掘高质量关系,从而构建多维度、多层次的专家科研关系网络,是本领域技术人员亟需解决的问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种融合多源数据的领域专家科研关系网络构建方法,服务于协同决策问题,可以融合多源数据构建多维度、多层次的领域专家科研关系网络,数据更具准确性,且网络更真实、准确地反映领域专家之间的影响关系。
本发明提供了一种融合多源数据的领域专家科研关系网络构建方法,包括如下步骤:
S1:从多源库中获取领域专家多源数据;
S2:对领域专家多源数据进行清洗、集成、转换等预处理,去除重复的领域专家数据,将专家姓名和论文数据集成对应,构造领域专家多维度的属性数据;
S3:基于领域专家多维度的属性数据,分别构建领域专家多维度语义关系网络;
S4:基于领域专家多维度的属性数据,分别构建领域专家多维度影响关系网络。
具体地,所述步骤S1具体包括如下步骤:
S101:根据研究领域在第一数据库中获取领域专家初始检索列表;
S102:根据初始检索列表在第二数据库中获取数据,并扩充检索列表;
S103:根据扩充后的检索列表在第三数据库中获取数据。
具体地,所述第一、二、三数据库分别为公开专家库、中文数据库和外文数据库。
具体地,所述步骤S2中构造领域专家多维度的属性数据,具体为:学术、合作和社交三个方面的属性;
其中,学术属性数据包括论文总数、第一作者论文数、期刊数量、会议数量、影响因子和、H指数中的至少一种;
合作属性数据包括合作者姓名、合作者工作单位、合作论文数、排序靠前数、排序靠后数中的至少一种;
社交属性数据包括另一专家姓名、另一专家工作单位、师生关系中的至少一种。
具体地,所述步骤S3中具体包括如下步骤:
S301:根据学术属性数据构建领域专家学术属性语义关系网络:提取学术属性数据,将领域专家作为头实体,属性名称作为语义关系,属性值作为尾实体,形成学术属性语义关系网络;
S302:根据合作属性数据构建领域专家合作属性语义关系网络:提取合作属性数据,将领域专家作为头实体,合作信息作为语义关系,合作者作为尾实体,形成合作属性语义关系网络;
S303:根据社交属性数据构建领域专家社交属性语义关系网络:提取社交属性数据,将领域专家作为头实体,师生关系作为语义关系,另一专家作为尾实体,形成社交属性语义关系网络。
具体地,所述合作信息包括合作论文数、排序靠前数、排序靠后数中的至少一种;所述师生关系包括博士导师、硕士导师、博士生和硕士生这四种关系中的至少一种。
具体地,所述步骤S4中具体包括如下步骤:
S401:考虑时间衰减因素,构建领域专家学术属性影响关系网络;
S402:考虑时间衰减因素,构建领域专家合作属性影响关系网络;
S403:构建领域专家社交属性影响关系网络。
具体地,所述步骤S401具体包括:
学术属性影响关系考虑3个因素:论文总数,影响因子和,H指数,并将衰减时间划分为3段:3年以内,3年至10年之内,10年以上;
假设共有N位领域专家,在第t个时间段内第i个专家的第k个因素取值为
则在第t个时间段内第i位专家与第j位专家的第k个因素取值之差为学术属性直接影响值
在每个学术属性直接影响值前加上时间衰减系数,得到学术属性综合影响值:
其中,e
对学术属性综合影响值进行最小最大规范化得到综合影响规范值:
那么,由第k个因素导致的第i位专家对第j位专家的影响强度定义为:
其中,0表示无影响,1表示影响强度较弱,2表示影响强度一般,3表示影响强度较大,4表示影响强度极大;
不考虑专家对自身的影响,统一定义为:
将所有因素导致的影响加权求和得到专家在学术属性上的影响强度,计算公式如下:
其中,为不失一般性,取λ
最后,构成学术属性影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小,表示为学术属性影响强度矩阵:
具体地,所述步骤S402具体包括:
合作属性影响关系考虑3个因素:合作论文数,排序靠前数,排序靠后数,并将衰减时间划分为3段:3年以内,3年至10年之内,10年以上;
假设共有N位领域专家,在第t个时间段内第i个专家的第k个因素取值为
在每个合作属性直接影响值前加上时间衰减系数,得到合作属性综合影响值:
其中,e
对合作属性综合影响值进行最小最大规范化得到综合影响规范值:
那么,由第k个因素导致的第i位专家对第j位专家的影响强度定义为:
其中,0表示无影响,1表示影响强度较弱,2表示影响强度一般,3表示影响强度较大,4表示影响强度极大;
不考虑专家对自身的影响,统一定义为:
将所有因素导致的影响加权求和得到专家在合作属性上的影响强度,计算公式如下:
其中,为不失一般性,取λ
最后,构成合作属性影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小,表示为合作属性影响强度矩阵:
具体地,所述步骤S403具体包括:
社交属性影响关系考虑1个因素,即师生关系;师生关系有5个取值:无、博士导师、硕士导师、博士生和硕士生;
根据具体取值直接进行量化,其中量化原则为:导师对学生的影响比学生对导师的影响大;博士生对导师的影响比硕士生对导师的影响大;
假设共有N位领域专家,专家之间师生关系的取值集合为REL
那么,由师生关系导致的第i位专家对第j位专家的影响强度定义为:
其中,0表示无影响,1表示影响强度较弱,2表示影响强度一般,3表示影响强度较大,4表示影响强度极大;
不考虑专家对自身的影响,统一定义为:
专家在社交属性上的影响强度就是师生关系导致的影响,计算公式如下:
最后,构成社交属性影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小,表示为社交属性影响强度矩阵:
本发明的融合多源数据的领域专家科研关系网络构建方法,可以实现:
1)融合了从多个数据源获取的领域专家数据,包括公开的专家库、中文数据库和英文数据库,相比于单一数据来源,提高了领域专家数据的准确性和可信度。
2)从学术属性、合作属性和社交属性三个维度构建了领域专家语义关系网络,相比于现有的专家科研关系网络,关系种类更全面,能更加真实、准确地反映领域专家之间的影响关系。
3)提供考虑时间衰减因素的影响关系量化方法,可以据此从语义关系网络得到影响关系网络,对后续的其他应用如协同决策等提供了数据和技术支撑。
附图说明
图1为融合多源数据的领域专家科研关系网络构建方法整体流程图;
图2为融合多源数据的领域专家科研关系网络构建方法详细流程图;
图3为领域专家原始数据结构;
图4为领域专家多维度数据结构;
图5为学术属性语义关系网络示意图;
图6为合作属性语义关系网络示意图;
图7为社交属性语义关系网络示意图;
图8为学术属性影响关系网络示意图;
图9为合作属性影响关系网络示意图;
图10为社交属性影响关系网络示意图;
图11为综合影响关系网络示意图。
具体实施方式
下面详细说明本发明的具体实施,有必要在此指出的是,以下实施只是用于本发明的进一步说明,不能理解为对本发明保护范围的限制,该领域技术熟练人员根据上述本发明内容对本发明做出的一些非本质的改进和调整,仍然属于本发明的保护范围。
本发明提供了一种融合多源数据的领域专家科研关系网络构建方法,通过从多个数据源获取的领域专家数据,构建多维度、多层次的领域专家科研关系网络,数据更具准确性,且网络更真实、准确地反映领域专家之间的影响关系,以支撑协同决策的实现,其完整流程和详细流程分别如附图1和2所示。
本发明提供的上述融合多源数据的领域专家科研关系网络构建方法,从公开的专家库、中文数据库和英文数据库等数据源获取的领域专家原始数据,经过数据清洗、集成、转换等预处理过程后,获得学术属性、合作属性和社交属性三个维度的领域专家数据,形成领域专家语义关系网络,考虑时间衰减因素进一步量化得到影响关系网络,数据更具准确性和可信度,且网络更能真实、准确地反映领域专家之间的影响关系,尤其可以支撑协同决策的实现,下面进行具体的介绍。
本发明建立了一种融合多源数据的领域专家科研关系网络构建方法,包括以下步骤。
S1:领域专家多源数据获取;
在具体实施时,如图2所示,具体可以通过以下方式来实现:
S101:根据研究领域在公开专家库中获取领域专家初始检索列表;
具体地,中国知网学者库等数据库包含大量中文专家信息。学者库能很方便地检索出某一研究方向的相关专家,在学者库中以“研究方向=轨道交通”作为检索条件,检索出轨道交通领域专家的相关信息。最终获取了610个轨道交通领域专家的姓名及工作单位,作为专家初始检索列表。
S102:根据初始检索列表在中文数据库中获取数据,并扩充检索列表;
具体地,中国知网学者库等数据库包含大量中文论文信息。根据专家初始检索列表中的专家姓名及工作单位在中国知网学者库等数据库进行检索,可以获取专家发表论文信息,包括期刊论文、会议论文、学位论文等数据;如果存在专家发表的学位论文数据,还可以进入学位论文详情页,获取专家的导师信息;此外,初始专家数量较少,为了扩充专家库,可以进入当前专家的“作者知网节”,获取专家合作者的相关信息,形成新的专家检索列表。最终获取了3939条专家基础数据。
S103:根据扩充后的检索列表在英文数据库中获取数据。
具体地,Web of Science平台的CPCI数据库包含大量英文会议论文信息,SCIE数据库包含大量英文期刊论文信息。根据专家检索列表的名单,在CPCI数据库中获取专家发表的会议论文信息,包括论文标题、论文作者、论文发表日期、论文被引数等;在SCIE数据库中检索专家发表的期刊论文信息,包括论文标题、论文作者、论文发表日期、论文被引数、对应期刊的影响因子等。这些数据是对专家基础数据的补充,最终得到了3939条专家原始数据,数据结构如图3所示。
S2:领域专家数据清洗、集成、转换等预处理;
在具体实施时,如图2所示,具体可以通过以下方式来实现:
S201:数据清洗,主要是去除重复的领域专家数据;
具体地,回顾上述数据获取过程,除了初始专家,还会统计合作者信息,因此很有可能对同一专家重复统计。专家数据清洗主要就是数据去重,如果专家信息和工作单位均相同,则视作重复信息,予以删除。剔除重复专家后,剩余专家数为3156条。
S202:数据集成,主要是专家姓名和论文数据的中英对应;
具体地,原始数据来源于多个数据库,集成时可能存在中英人名歧义、中英论文冗余等问题。
中英人名歧义是由中文名同音不同字、英文名缩写等导致,如“Su Jian”对应的中文名可以是苏建,也可以是苏剑,“苏建”对应的英文名可以是Su Jian,也可以是SU.J。为了将中英人名对应起来,既要判断专家姓名本身是否一致,还要判断专家的工作单位是否也一致,如果姓名和工作单位均一致,则视作同一名专家。
中英论文冗余是由不同数据库收录相同论文数据导致,如中国知网收录了不少SCI、EI等英文论文数据。为了去除冗余的论文数据,要将中英论文对应起来。首先判断论文标题是否一致,计算中文标题与翻译为中文的英文标题的字段相似度(两个字符串的相同字符数占总字符数的比例),如果字段相似度大于设定的阈值,表示论文标题一致。然后判断论文作者的姓名与排序是否一致,如果论文标题和论文作者均一致,则视作同一篇论文,剔除其中一篇。
S203:数据转换,主要是构造领域专家多维度的属性。
具体地,从原始数据中构建学术、合作和社交三个方面的属性,为领域专家科研关系网络的构建提供数据支撑。
学术属性数据包括论文总数、一作论文数、期刊数量、会议数量、影响因子和、H指数。论文总数指该专家的中文论文和英文论文数量之和,一作论文数指所有论文中该专家是第一作者的论文数量,期刊数量指该专家的中文期刊论文和英文期刊论文数量之和,会议数量指该专家的中文会议论文和英文会议论文数量之和,影响因子和指该专家的SCI论文所在期刊影响因子之和,H指数指该专家至多有h篇论文分别被引用了至少h次。
合作属性数据包括合作者姓名、合作者工作单位、合作论文数、排序靠前数、排序靠后数。合作论文数指该专家与合作者共同发表的论文数量,排序靠前数指在合作论文中该专家比合作者排序靠前的论文数量,排序靠后数指在合作论文中该专家比合作者排序靠后的论文数量。
社交属性数据包括另一专家姓名、另一专家工作单位、师生关系。师生关系包含博士导师、硕士导师、博士生和硕士生这四种关系。
最后生成了领域专家多维度数据,数据结构如图4所示。
S3:领域专家多维度语义关系网络构建;
在具体实施时,具体可以通过以下方式来实现:
S301:根据学术属性数据构建领域专家学术属性语义关系网络;
具体地,提取学术属性数据,将领域专家作为头实体,属性名称作为语义关系,属性值作为尾实体,这就形成了学术属性语义关系网络,如图5所示。
S302:根据合作属性数据构建领域专家合作属性语义关系网络;
具体地,提取合作属性数据,将领域专家作为头实体,合作信息(包括合作论文数、排序靠前数、排序靠后数)作为语义关系,合作者作为尾实体,这就形成了合作属性语义关系网络,如图6所示。
S303:根据社交属性数据构建领域专家社交属性语义关系网络。
具体地,提取社交属性数据,将领域专家作为头实体,师生关系作为语义关系,另一专家作为尾实体,这就形成了社交属性语义关系网络,如图7所示。
S4:领域专家多维度影响关系网络构建。
在具体实施时,具体可以通过以下方式来实现:
S401:考虑时间衰减因素,构建领域专家学术属性影响关系网络;
具体地,学术属性影响关系主要考虑3个因素:论文总数,影响因子和,H指数。
学术属性是用来衡量专家学术水平高低的,论文总数/影响因子和/H指数越大,专家之间学术水平越高,对其他专家的影响强度就越大。因此,可以根据专家之间这3个因素取值的差值来衡量专家之间的影响强度。
另外,还需要考虑时间衰减因素。专家近些年的学术成果更能反映专家当前的学术水平,由学术水平差距导致的影响会随时间的推进而衰减。将时间划分为3段:3年以内,3年至10年之内,10年以上。
假设共有N位领域专家,在第t个时间段内第i个专家的第k个因素取值为
其中,
各个时间段的学术属性直接影响值对当前时间点的贡献度不同,因此要在每个直接影响值前加上时间衰减系数,得到学术属性综合影响值:
其中,e
由于各个因素的量纲不同,给影响强度的量化带来了困难,为了方便量化,对学术属性综合影响值进行最小最大规范化得到综合影响规范值:
那么,由第k个因素导致的第i位专家对第j位专家的影响强度定义为:
其中,0表示无影响,1表示影响强度较弱,2表示影响强度一般,3表示影响强度较大,4表示影响强度极大。
这里不考虑专家对自身的影响,统一定义为:
将所有因素导致的影响加权求和得到专家在学术属性上的影响强度,计算公式如下:
其中,为不失一般性,取λ
最后构成学术属性影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小,也可以表示为学术属性影响强度矩阵:
选取5名轨道交通领域专家:1.王××(吉林大学)、2.王××(中国兵器工业集团中国北方车辆研究所)、3.任×(吉林大学)、4.谭××(长春轨道客车股份有限公司)、5.苏×(吉林大学)。他们的学术属性数据如表1所示,列表的3个取值分别表示3年以内、3年至10年之内、10年以上。
表1专家学术属性数据
经过综合、规范、量化等步骤,得到的学术属性影响强度矩阵如表2所示,相应的学术属性影响关系网络如图8所示。
表2学术属性影响强度矩阵
S402:考虑时间衰减因素,构建领域专家合作属性影响关系网络;
具体地,合作属性影响关系主要考虑3个因素:合作论文数,排序靠前数,排序靠后数。
合作属性中的合作论文数是用来衡量专家之间合作强度大小的,合作论文数越多,合作关系强度越大,互相之间产生的影响强度越大。因此,可以根据专家之间的合作论文数来衡量专家之间的影响强度。
合作属性中的排序是用来衡量专家对文章贡献度大小的,一篇合作论文中,专家排序越靠前,对文章的贡献度越大,对其他专家的影响越大;反之,排序越靠后,影响越小。因此,可以将排序靠前数与排序靠后数合并为一个新的因素,即排序靠前数与排序靠后数之差(简称排序差值),用来衡量专家之间的影响强度。
另外,还需要考虑时间衰减因素。专家近些年合作的论文会比以前合作的论文产生的影响要大,由合作论文导致的影响会随时间的推进而衰减。将时间划分为3段:3年以内,3年至10年之内,10年以上。
假设共有N位领域专家,在第t个时间段内第i个专家的第k个因素取值为
各个时间段的合作属性直接影响值对当前时间点的贡献度不同,因此要在每个直接影响值前加上时间衰减系数,得到合作属性综合影响值:
其中,e
由于各个因素的量纲不同,给影响强度的量化带来了困难,为了方便量化,对合作属性综合影响值进行最小最大规范化得到综合影响规范值:
那么,由第k个因素导致的第i位专家对第j位专家的影响强度定义为:
其中,0表示无影响,1表示影响强度较弱,2表示影响强度一般,3表示影响强度较大,4表示影响强度极大。
这里不考虑专家对自身的影响,统一定义为:
将所有因素导致的影响加权求和得到专家在合作属性上的影响强度,计算公式如下:
其中,为不失一般性,取λ
最后构成合作属性影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小,也可以表示为合作属性影响强度矩阵:
选取5名轨道交通领域专家(同S401)。他们在各个时间段内的合作属性数据分别如表3-a、表3-b、表3-c所示,列表的3个取值分别表示合作论文数,排序靠前数,排序靠后数。
表3-a 3年以内专家合作属性数据
表3-b 3年至10年之内专家合作属性数据
表3-c 10年以上专家合作属性数据
经过综合、规范、量化等步骤,得到的合作属性影响强度矩阵如表4所示,相应的合作属性影响关系网络如图9所示。
表4合作属性影响强度矩阵
S403:构建领域专家社交属性影响关系网络;
具体地,社交属性影响关系主要考虑1个因素:师生关系。
师生关系只有5个取值:无、博士导师、硕士导师、博士生和硕士生。可以根据具体取值直接进行量化即可,量化原则:导师对学生的影响比学生对导师的影响大;博士生对导师的影响比硕士生对导师的影响大。
假设共有位领域专家,专家之间师生关系的取值集合为REL
那么,由师生关系导致的第i位专家对第j位专家的影响强度定义为:
其中,0表示无影响,1表示影响强度较弱,2表示影响强度一般,3表示影响强度较大,4表示影响强度极大。
这里不考虑专家对自身的影响,统一定义为:
专家在社交属性上的影响强度就是师生关系导致的影响,计算公式如下:
最后构成社交属性影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小,也可以表示为社交属性影响强度矩阵:
选取5名轨道交通领域专家(同S401)。他们之间的社交属性数据仅有两条:专家1的博士导师是专家5,专家5的博士生是专家1。
经过量化后,得到的社交属性影响强度矩阵如表5所示,相应的社交属性影响关系网络如图10所示。
表5社交属性影响强度矩阵
S404:将三个属性的影响关系加权求和得到综合影响关系网络。
具体地,将上述多个属性的影响强度矩阵加权求和,得到最终的综合影响强度矩阵,计算公式如下:
INF
其中,为不失一般性,取λ
利用综合影响强度矩阵构建综合影响关系网络,网络节点为领域专家,网络的边为专家之间的影响关系,边权值为影响强度大小。
选取的5名轨道交通领域专家,经过加权求和,最终得到的综合影响强度矩阵如表6所示,相应的综合影响关系网络如图11所示。该网络能真实、准确地反映领域专家之间的影响关系,尤其可以支撑协同决策的实现。
表6综合影响强度矩阵
尽管为了说明的目的,已描述了本发明的示例性实施方式,但是本领域的技术人员将理解,不脱离所附权利要求中公开的发明的范围和精神的情况下,可以在形式和细节上进行各种修改、添加和替换等的改变,而所有这些改变都应属于本发明所附权利要求的保护范围,并且本发明要求保护的产品各个部门和方法中的各个步骤,可以以任意组合的形式组合在一起。因此,对本发明中所公开的实施方式的描述并非为了限制本发明的范围,而是用于描述本发明。相应地,本发明的范围不受以上实施方式的限制,而是由权利要求或其等同物进行限定。
机译: 构建融合关系网络的方法,构建融合网络,电子设备,存储介质和程序的装置
机译: 构建融合关系网络,电子设备和介质的方法和装置
机译: 多源大数据融合的城市空间全息图构建方法