首页> 中国专利> 科技文献异构网络中节点的学术影响力协同排序方法

科技文献异构网络中节点的学术影响力协同排序方法

摘要

本发明公布了科技文献异构网络中节点(论文、作者、期刊/会议)的学术影响力协同排序方法,由于科技文献网络的异构性,本发明采用两个级别的随机游走计算科技文献中节点的学术影响力并排序,分别是在科技文献异构网络上的节点网络拓扑驱动下的随机游走和在科技文献网络的极小网络模式上的学术类型驱动下的随机游走,在科技文献异构网络中计算各条边权重以配置节点网络拓扑驱动下的随机游走,根据科技文献异构网络的最小网络模式,统计不同领域的各种关系边的平均边介数,计算传播因子并配置节点学术类型驱动下的随机游走,此方法不仅克服了异构网络的异构性带来的难题以及避免了节点影响力与入度正相关的现象,从而使得排序结果相对准确。

著录项

  • 公开/公告号CN104133843A

    专利类型发明专利

  • 公开/公告日2014-11-05

    原文格式PDF

  • 申请/专利权人 福州大学;

    申请/专利号CN201410292725.2

  • 发明设计人 余春艳;吴志强;叶东毅;何振峰;

    申请日2014-06-25

  • 分类号G06F17/30(20060101);

  • 代理机构35100 福州元创专利商标代理有限公司;

  • 代理人蔡学俊

  • 地址 350108 福建省福州市闽侯县上街镇大学城学园路2号福州大学新区

  • 入库时间 2023-12-17 01:54:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-04

    授权

    授权

  • 2014-12-10

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140625

    实质审查的生效

  • 2014-11-05

    公开

    公开

说明书

技术领域

本发明提供了一种科技文献异构网络中节点(论文、作者、期刊/会议)的学术影响力协同排序方法,属于信息检索领域。 

背景技术

科技文献网络通常包含三种不同类型的学术节点:作者、论文和期刊/会议,不同类型学术节点之间还具有不同关系的连接边,比如:作者-论文间撰写和被撰写关系、论文-论文间的引用和被引用关系、会议-论文间的发表和被发表关系、作者-作者间的合作和引用等关系。 

一般情况下,一个信息网络可以用一个有向图G=(V,E)以及节点类型函数τ:V→A和连接边类型函数φ:E→R加以表征。其中,每个节点v∈V的节点类型τ(v)∈A;每条边e∈E的边类型φ(e)∈R。当|A|>1或者|R|>1时,该网络为异构型信息网络,否则为同构型信息网络,因此科技文献网络是一种典型异构信息网络。 

异构信息网络的节点影响力排序方法主要分成同构方式和异构方式的方法,同构方式抽取一种类型节点生成同构网络,然后计算该类型节点的影响力并排序;异构方式同时考虑多种类型节点生成异构网络,然后计算多种类型节点的影响力并排序。同样对科技文献网络中的学术节点的排序方法也存在着两种方式,目前为止,对科技文献网络的现有排序方法包括: 

1.提取科技文献网络中一种节点生成同构网络,然后应用pagerank算法对该种类型的节点进行排序。Bol了n J,Rodriquez M A等人应用pagerank于期刊-期刊引用网络中,对期刊进行排序;Ding Y应用pagerank于作者-作者引用网络中,对作者进行排序;Ma N,Guan J等人应用pagerank于论文-论文引用网络中,对论文进行排序,这些方法无法利用文献网络中的所有语义信息,并只对一种类型的节点排序。 

2.将科技文献网络看成异构网络,对科技文献网络中三种类型的节点同时进行排序,Deng,Z.H,Lai B Y等人提出PAV模型对三种类型的节点同时进行排序,此方法中的文献网络包括了间接关系作者-作者合作关系,可以由作者-论文的撰写关系和被撰写关系复合而成,不足在于其在处理网络异构性的方法仅仅是对不同类型的边定义不同的权重,但是此权重在定义时潜意识地是比较同类型边的之间的关系强弱,并没有很好处理不同类型边之间的关系,并且会出现节点影响力与入度相关的现象,即发表论文数量越多的作者和期刊会排的越靠前面。 

发明内容

本发明针对目前科研文献网络排序方法存在的问题,提出了科技文献异构网络中节点(论文、作者、期刊/会议)的学术影响力协同排序方法。 

本发明的具体技术方案如下: 

一种科技文献异构网络中节点的学术影响力协同排序方法,其特征在于:步骤包括如下: 

A.获取科技文献异构网络,抽取出科技文献异构网络的极小网络模式; 

B.在科技文献异构网络中计算各条边权重以配置节点网络拓扑驱动下的随机游走; 

C.根据科技文献异构网络的最小网络模式,统计不同领域的各种关系边的平均边介数,计算传播因子并配置节点学术类型驱动下的随机游走; 

D.结合节点的网络拓扑驱动下的随机游走和学术类型驱动下的随机游走的两级随机游走计算科技文献异构网络中的论文、作者、期刊/会议三种不同类型的学术节点的影响力排序。 

在本发明一实施例中,步骤A中,文献网络的网络模式中,节点对应文献网络的三种学术对象,分别为作者、论文、期刊/会议、边代表学术对象之间的关系;学术对象之间可能的关系包括:作者-论文间撰写和被撰写关系、论文-论文间的引用和被引用关系、会议-论文间的发表和被发表关系、作者-作者间的合作和引用关系;上述关系可以划分为直接关系和间接关系,直接关系为语义上无法由其它关系复合而成的关系,间接关系为语义上可以由直接关系复合而成的关系;文献网络的极小网络模式是一个极小化网络元模板,仅保留学术对象间的直接关系,去掉其中的间接关系,包括5种直接关系:作者-论文间撰写和被撰写关系、论文间的引用关系、会议-论文间的发表和被发表关系。 

在本发明一实施例中,步骤B中,基于科技文献异构网络设计其中学术节点在网络拓扑驱动下的随机游走行为,并配置各权重量化计算,具体计算如下: 

1)撰写关系边的权重计算公式:其中Cp,a表示作者a对论文p的贡献,计算公式为Sp,a表示作者a是论文p的第几作者,P(a)是作者a的所有撰写的论文集合,A(p)是论文p的作者列表; 

2)被撰写关系边的权重计算公式:Hinp是论文在引用关系中的入度; 

3)引用关系边的权重计算公式:其中Num(p1,P)是论文p1在引用关系中的出度; 

4)被发表关系边的权重计算公式:其中P(v)是期刊/会议v发表的论文列表; 

5)发表关系边的权重计算公式:其中Num(v,P)是期刊/会议v在发表关系中的出度。 

在本发明一实施例中,步骤C中,基于科技文献异构网络的极小网络模式设计学术节点的学术类型驱动的随机游走行为,并配置科技文献异构网络的极小网络模式中五种不同类型边的传播因子(PF)量化,PF包括λpapppvapvp,分别代表撰写关系、被撰写关系、引用关系、发表关系、被发表关系上的传播因子,PF的设置方法如下: 

C1.获取n个领域的强连通图,n>3; 

C2.统计n个领域强连通图中被撰写关系边、引用关系边、被发表关系边的平均边介数,并得到相近的λpapppv比值,取n组比值的平均值为这三个传播因子的比值; 

C3.最后根据λpapppv=1算出三个传播因子,而λap=1λvp=1。 

在本发明一实施例中,步骤D中,结合节点的网络拓扑驱动下的随机游走和学术类型驱动下的随机游走的两级随机游走计算科技文献异构网络中的作者、论文、期刊/会议三种不同类型的学术节点的影响力排序,按照以下方法实现: 

D1.定义从学术节点i到学术节点j的转移概率为:TPMi,j=(1-ϵ)*TPMlevel(i,j)+ϵN,其中TPM是转移概率矩阵,TPMi,j为TPM的第i行第j列的转移概率,TPMlevel为网络拓扑驱动下和学术类型驱动下随机游走行为合成转移概率,TPMlevel(i,j)为TPMlevel第i行第j列的转移概率,计算公式为 ε是全图随机跳转的概率,λtypei,typej是i节点类型到j节点类型的传播因子,wi,j是节点i到节点j边的权重,N是整张网络节点总个数,计算得到TPMlevel; 

D2.设定两个长度为N的向量Vec_C,Vec_R,Vec_R中的值为文献网络中每个节点的影响力值,Vec_C初始为通过Vec_R=Vec_C*TPMlevel+ϵ*[1N]N×N公式计算Vec_R; 

D3.通过以下两个公式计算Vec_C和Vec_R 

Vec_C=Vec_R 

Vec_R=Vec_C*TPMlevel+ϵ*[1N]N×N

当||Vec_R-Vec_C||≥ξ时继续以上两个公式的计算,否则得到Vec_R,ξ为事先设定的误差阈值; 

D4.分别对Vec_R中作者、论文、期刊/会议的值进行排序,得到作者、论文、期刊/会议排序结果序列。 

本发明的有益成果是:本发明提出了科技文献异构网络中节点(论文、作者、会议)的学术影响力协同排序方法,建立在包含更丰富的语义信息的异构文献网络的基础上,结合了节点学术类型驱动下的随机游走和节点网络拓扑驱动下的随机游走的两级随机游走来克服异构网络的异构性带来的难题以及避免了节点影响力与入度正相关的现象,从而具有更好排序结果。 

附图说明

图1是本发明向科技文献的论文、作者、期刊会议的协同排序方法的一个实施例的流程图 

图2是异构文献网络的网络模式。 

图3是异构文献网络的一个实例。 

具体实施方式

下面通过实例对本发明做进一步的说明,但是需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。 

参见图1,为本发明科技文献异构网络中节点(论文、作者、期刊/会议)的学术影响力协同排序方法的一个实施例的流程图,该方法包括如下步骤: 

A.从网址(http://arnetminer.org/DBLP_Citation)获取DBLP科技文献,处理文献数据,提取科技文献实体,包括作者(A),论文(P),会议(V)三种实体,此数据中的这些实体间存在 关系有:作者-论文间撰写和被撰写关系、论文间的引用关系、会议-论文间的发表和被发表关系、作者间的合作关系,最终生成科技文献异构网络。 

科技文献网络模式中节点为作者(A),论文(P),会议(V),边代表点之间的关系,分别为作者-论文间撰写和被撰写关系、论文间的引用关系、会议-论文间的发表和被发表关系、作者间的合作关系。由于作者间的合作关系可以由作者-论文间撰写和被撰写关系复合而成(简写成A-P-A),所以从网络模式中去除作者间的合作关系,最终抽取的极小的文献网络网络模式如图2所示,包括3种节点,分别为作者(A),论文(P),会议(V)和5种关系,分别为作者-论文间撰写和被撰写关系、论文间的引用关系、会议-论文间的发表和被发表关系。科技文献网络的一个例子如图3所示。 

B.在科技文献异构网络中计算各条边权重以配置节点网络拓扑驱动下的随机游走,这些权重计算公式定义如下: 

1)撰写关系边的权重计算公式:其中Cp,a表示作者a对论文p的贡献,计算公式为Sp,a表示作者a是论文p的第几作者,P(a)是作者a的所有撰写的论文集合,A(p)是论文p的作者列表。 

2)被撰写关系边的权重计算公式:Hinp是论文在引用关系中的入度。 

3)引用关系边的权重计算公式:其中Num(p1,P)是论文p1在引用关系中的出度。 

4)被发表关系边的权重计算公式:其中P(v)是期刊/会议v发表的论文列表 

5)发表关系边的权重计算公式:其中Num(v,P)是期刊/会议v在发表关系中的出度。 

C.根据科技文献异构网络的最小网络模式,统计不同领域的各种关系边的平均边介数,计算传播因子并配置节点学术类型驱动下的随机游走。PF包括λpapppvapvp,分别代表撰写 关系、被撰写关系、引用关系、发表关系、被发表关系上的传播因子,PF的设置方法如下: 

C1.首先得到如下5个领域的强连通图:1.数据库/数据挖掘/信息检索领域强连通图2.人工智能/模式识别领域强连通图,3.网络信息安全领域强连通图,4.计算机图形和多媒体领域强连通图,5.模型软件/软件工程/程序设计语言领域连通图;得到某个领域强连通图的方法是:首先选取该领域的大多数期刊会议,以这些期刊会议为节点种子,得到这些期刊会议发表的论文,和这些论文的作者,然后再添加这些节点之间的边。 

C2.然后统计这5个领域强连通图中被撰写关系边、引用关系边、被发表关系边的平均边介数,并得到相近的λpapppv比值,取5组比值的平均值为这三个传播因子的比值; 

C3.最后根据λpapppv=1算出三个传播因子结果为[λpapppv]=[0.181,0.178,0.641],而λap=1λvp=1。 

此实施例的传播因子的结果如表1所示,表1是本发明实施例的五个领域边介数比值。 

强连通图名称 边介数比值(λpapppv)>数据库&数据挖掘&信息检索 1:0.90:3.69 人工智能&模式识别 1:1.18:3.75 网络信息安全 1:0.96:3.17 计算机图形&多媒体 1:0.97:3.41 系统软件&软件工程&程序设计语言 1:0.93:3.71

表1 

D.结合节点学术类型驱动下的随机游走和节点网络拓扑驱动下的随机游走的两级随机游走计算文献网络中的作者、文献、期刊/会议三种类型的学术节点的影响力并进行排序,排序实现方法流程如下: 

D1.定义从i到j的转移概率为:TPMi,j=(1-ϵ)*TPMlevel(i,j)+ϵN,其中TPM是转移概率矩阵,TPMi,j为TPM的第i行第j列的转移概率,TPMlevel为节点网络拓扑驱动下的随机游走和节点学术类型驱动下的随机游走合成转移概率,计算公式为TPMlevel(i,j)=λtypei,typej*wi,jΣe(i,k)Eλtypei,typek*wi,k,ε是全图随机跳转的概率,λtypei,typej是i节点类型到j节点类型的传播因子,wi,j是节点i到节点j边的权重,N是整张网络节点总个数,计算得到TPMlevel。 

D2.设定两个长度为N的向量Vec_C,Vec_R,Vec_R中的值为文献网络中每个节点的影响力值,Vec_C初始为通过Vec_R=Vec_C*TPMlevel+ϵ*[1N]N×N公式计算Vec_R。 

D3.通过以下两个公式计算Vec_C和Vec_R 

Vec_C=Vec_R 

Vec_R=Vec_C*TPMlevel+ϵ*[1N]N×N

当||Vec_R-Vec_C||≥ξ时继续以上两个公式的计算,否则得到Vec_R。 

D4.分别对Vec_R中作者、论文、期刊/会议的值进行排序,得到作者、论文、期刊/会议排序结果序列。 

上述实例的数据领域的排在前五的作者如表2所示,表2是本发明实施例的数据领域作者排序示例。可以看出排在前面的作者都是数据领域方面的权威作者。 

Author Rakesh Agrawal Hector Garcia-Molina H.V.Jagadish Jiawei Han Surajit Chaudhuri

表2 

上述实例的数据领域的论文排序结果如表3所示,表3是本发明实施例的数据领域论文排序示例。大部分数据领域高质量的高引用论文被排在前面,并且可以挖掘出低引用高质量的论文,如B Sarwar发表在www上的‘Item-based collaborative filtering’。 

表3 

上述实例的数据领域的会议排序结果如表4所示,表4是本发明实施例的数据领域会议排序示例。可以看出本发明的科技文献异构网络中节点(论文、作者、会议)的学术影响力协同排序方法在此实施例对数据领域会议的排序结果与现有排序系统,微软学术(MAS)、CSRank、CiteSeer排序基本是一致的,说明本发明的方法是可行的,并且克服了影响力与入度相关的现象,在异构文献网络中,作者的入度为作者撰写的论文数量vpum,由表4很容易看到本发明的方法得到的数据领域的会议的排序与入度并不成正相关。 

会议 CSRank CiteSeer(2007) MAS Vpnum SIGMOD rank1 0.12 2 396 VLDB rank1 0.1 1 153 PODS rank1 0.12 4 95 ICDE rank1 0.06 3 668 CIKM rank1 0.05 7 714 DEXA rank2 0.01 18 269 SSDBM rank2 Null 19 128 ICDT rank1 0.07 11 57 DASFAA rank2 0.05 28 260 WAIM Others Null 75 96

表4 

以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号