法律状态公告日
法律状态信息
法律状态
2017-11-17
授权
授权
2015-05-27
实质审查的生效 IPC(主分类):G06F17/30 申请日:20150130
实质审查的生效
2015-04-29
公开
公开
技术领域
本发明提供了一种科技文献异构网络下合作作者推荐方法,属于信息检索领域。
背景技术
科技文献网络是一个包含三种节点类型的异构网络,这三种节点类型为,作者、论文、期刊会议,五种边类型为撰写关系边、被撰写关系边、引用关系边、发表关系边、被发表关系边。
目前对异构的科技文献网络的合作关系预测方法更多是基于统计信息。这些统计信息无法体现出节点对彼此与对方建立目标关系的意愿度。比如在文献网络中,一个普通的研究者A因为引用了权威研究者B的许多论文而使他们之间存在很多链接,这些链接导致他们之间的相似度变大。显然地,作者B并没有与A合作的意愿。除此之外,基于统计信息的相似性没有考虑到路径中的点的建立时间和节点影响力对关系预测的作用。例如,一个作者常常优先考虑与自己近期工作内容相似的作者合作,同时若两个作者的影响力差距太悬殊,他们合作的概率也非常小。因此传统的合作者关系预测方法不尽合理。
发明内容
本发明的目的是提供了一种科技文献异构网络下合作作者推荐方法,能提高合作者关系的预测结果,提高作者的合作作者的推荐质量。
本发明的具体技术方案如下:
A.获取科技文献异构网络,计算网络中每个节点的未来关注度。文献网络中节点于未来时刻t+1受到领域专家的关注程度,简称为节点的未来关注度,计算公式为Ct+1,j=I′t+1,j*I″t+1,j*Tt+1,j,其中I′t+1,j代表节点j的未来影响力,它的一阶导数表示未来时刻影响力的增益大小,一个节点的影响力增加很多,说明其被很多人关注;而它的二阶导数表示未来时刻影响力增益快慢,一个节点的影响力增加得快,同样说明其越来越被关注;Tt+1,j表示节点的j的时间因素,因为科研工作者都希望跟踪学科领域前沿,计算公式为其中agej表示节点j的“年龄”,不同类型的节点的年龄定义有所不同,论文的年龄为其发表时间至今经过的时间,计算公式为agep=currentt-pt,其中currentt表示当前的时刻,pt表示论文p的发表时 间;作者的年龄为其撰写的论文的平均年龄,计算公式为其中P(a)表示作者a撰写的论文集合;期刊/会议的年龄为其发表的论文的平均年龄,计算公式为
B.获取当前时刻未合作的作者对候选集,计算候选集中每对作者因作者引用关系、间接合作者关系、共同期刊/会议关系、间接作者引用关系而产生的合作意愿度,计算公式分别如下:
1)作者a1通过作者引用关系R1(A-P→P-A)寻找到作者a2并与a2合作的意愿度计算公式如下:
其中INS(R1)表示文献网络中作者a1和a2间表示R1关系的所有路径,其中Ka1,pi表示作者a1通过其撰写的一篇论文pi的寻找潜在合作者的概率,计算公式为其中Ct+1,pi表示论文pi的未来时刻t+1的关注度,P(a1)表示作者a1撰写的论文集合;Kpi,pj表示作者a1在选定通过其撰写的一篇论文pi去寻找潜在合作者之后,通过pj的引用论文pj去寻找潜在合作的概率,计算公式为其中Lpi,pj表示一篇论文pi与其引用的任何一篇论文pj的未来关注度的接近程度,计算公式为Ka1,a2表示a1与其可能合作的候选作者a2之间因他们的未来关注度接近而产生合作意愿度,计算公式为其中La1,a2表示作者a1与其可能合作的作者a2的未来关注度的接近程,计算公式为中Candiadate(a)表示作者a1可能合作的作者候选集合;
2)作者a1通过间接合作者关系R2(A-P-A-P-A)寻找到作者a2并与a2合作的意愿度计算如下:
其中作者a1在选定通过其撰写的一篇论文pi去寻找潜在合作者之后,通过pi的另一作者ak所发表的其它任一篇论文pj去寻找潜在合作者的概率,计算公式为其中论文pi与其作者ak发表的其它任何一篇论文pj的未来关注度的接近程度,计算公式为
3)作者a1通过共同期刊/会议关系R3(A-P-V-P-A)寻找到作者a2并与a2合作的意愿度计算如下:
其中K(pi,pj)vk表示作者a1在选定通过其撰写的一篇论文pi去寻找潜在合作者之后,通过与pi所在的期刊/会议vk发表的其它任一篇论文pj去寻找潜在合作者的概率,计算公式为其中表示一篇论文pi与其所在期刊会议vk发表的其它任何一篇论文pj的未来关注度的接近程度,计算公式为
4)作者a1通过间接作者引用关系R4(A-P→P→P-A)寻找到作者a2并与a2合作的意愿度计算如下:
C.计算候选集中每对作者基于合作意愿的拓扑特征属性,以拓扑特征属性作为逻辑回归模型的自变量,通过历史数据集训练得到合作者预测模型,用于为每个作者推荐其合适的合作作者,其中基于合作意愿的拓扑特征属性的计算公式如下:
表示节点对<a1,a2>基于元路径Ri的拓扑特征属性,表示a1和a2两个作者因其间 的Ri关系在未来合作的可能性,表示节点a1因元路径Ri与a2合作的意愿度。
本发明方法通过计算两个作者未来合作的可能性来为作者推荐合作作者。该方法首先根据节点未来影响力增幅大小、增幅快慢和节点年龄定义了节点的关注度,然后基于关注度设计了两作者因为不同关系而产生的合作意愿度,之后基于不同关系的意愿度设计不同关系下的拓扑特征属性,最后将拓扑特征属性作为逻辑回归模型的自变量,利用现实数据训练模型的参数,用得到的函数模型计算一对作者在未来合作的概率。此方法考虑两作者与彼此合作的意愿度,同时意愿度是基于节点影响力和年龄的,从而提高合作者关系的预测结果,提高作者的合作作者的推荐质量。
附图说明
图1是本发明一种科技文献异构网络下合作作者推荐方法的一个实施例的流程图
图2是科技文献异构网络的网络模式。
图3是科技文献异构网络的一个实例。
具体实施方式
下面通过实例对本发明做进一步的说明,但是需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
参见图1,为本发明一种科技文献异构网络下合作作者推荐方法的流程图,该方法包括如下步骤:
A.从网址(http://arnetminer.org/DBLP_Citation)获取DBLP科技文献,处理文献数据,提取2001年到2014年所有科技文献实体,包括作者(A),论文(P),会议(V)三种实体,此数据中的这些实体间存在关系有:作者‐论文间撰写和被撰写关系、论文间的引用关系、会议‐论文间的发表和被发表关系、作者间的合作关系。
根据论文的发表时间将数据集划分为两个时间段T0=[2001,2007],T1=[2008,2014]。假设一对作者〈ai,aj〉,我们称ai为源作者,aj为目标作者。在本实施例中,我们分别取T0和T1时间阶段形成的异构科技文献网络中至少发表16篇论文的高产作者作为T0和T1时间阶段的源作者集,目标作者为源作者集中所有作者的3跳合作者,这里称之T0和T1时间阶段的3跳合作者候选集。T0时间阶段所有未合作的作者对〈ai,aj〉构成T0时刻未合作的作者对候选集,其中ai 属于源作者集,aj属于合作者候选集,若〈ai,aj〉在T1时间阶段建立合作关系则它们是一个正例,数据中被标为1,否则它们是一个负例,数据中的标签为‐1,所有的正例组合成正例集合,所有的负例组成负例集合。
计算T0和T1阶段形成的异构科技文献网络中所有学术节点的未来关注度计算公式如下:
Ct+1,j=I′t+1,j*I″t+1,j*Tt+1,j
其中I′t+1,j代表节点j的未来影响力,它的一阶导数表示未来时刻影响力的增益大小,一个节点的影响力增加很多,说明其被很多人关注;而它的二阶导数表示未来时刻影响力增益快慢,一个节点的影响力增加得快,同样说明其越来越被关注;Tt+1,j表示节点的j的时间因素,因为科研工作者都希望跟踪学科领域前沿,计算公式为其中agej表示节点j的“年龄”,不同类型的节点的年龄定义有所不同。
论文的年龄为其发表时间至今经过的时间,计算公式如下:
agep=currentt-pt
其中currentt表示当前的时刻,pt表示论文p的发表时间;
作者的年龄为其撰写的论文的平均年龄,计算公式如下:
其中P(a)表示作者a撰写的论文集合;
期刊/会议的年龄为其发表的论文的平均年龄,计算公式为
B.计算T0和T1时间阶段源作者集中所有作者和其3跳合作者候选集中每个作者间基于作者引用关系、间接合作者关系、共同期刊/会议关系、间接作者引用关系的合作意愿度,计算公式分别如下:
1)作者a1通过作者引用关系R1(A-P→P-A)寻找到作者a2并与a2合作的意愿度计算公式如下:
其中INS(R1)表示文献网络中作者a1和a2间表示R1关系的所有路径,其中Ka1,pi表示作者 a1通过其撰写的一篇论文pi的寻找潜在合作者的概率,计算公式为其中Ct+1,pi表示论文pi的未来时刻t+1的关注度,P(a1)表示作者a1撰写的论文集合;Kpi,pj表示作者a1在选定通过其撰写的一篇论文pi去寻找潜在合作者之后,通过pj的引用论文pj去寻找潜在合作的概率,计算公式为其中Lpi,pj表示一篇论文pi与其引用的任何一篇论文pj的未来关注度的接近程度,计算公式为Ka1,a2表示a1与其可能合作的候选作者a2之间因他们的未来关注度接近而产生合作意愿度,计算公式为其中La1,a2表示作者a1与其可能合作的作者a2的未来关注度的接近程,计算公式为中Candiadate(a)表示作者a1可能合作的作者候选集合;
2)作者a1通过间接合作者关系R2(A-P-A-P-A)寻找到作者a2并与a2合作的意愿度计算如下:
其中作者a1在选定通过其撰写的一篇论文pi去寻找潜在合作者之后,通过pi的另一作者ak所发表的其它任一篇论文pj去寻找潜在合作者的概率,计算公式为其中论文pi与其作者ak发表的其它任何一篇论文pj的未来关注度的接近程度,计算公式为
3)作者a1通过共同期刊/会议关系R3(A-P-V-P-A)寻找到作者a2并与a2合作的意愿度计算如下:
其中K(pi,pj)vk表示作者a1在选定通过其撰写的一篇论文pi去寻找潜在合作者之后,通过与pi所在的期刊/会议vk发表的其它任一篇论文pj去寻找潜在合作者的概率,计算公式为其中表示一篇论文pi与其所在期刊会议vk发表的其它任何一篇论文pj的未来关注度的接近程度,计算公式为
4)作者a1通过间接作者引用关系R4(A-P→P→P-A)寻找到作者a2并与a2合作的意愿度计算如下:
C.计算T0和T1时间阶段源作者集中所有作者和其3跳合作者候选集中每对作者间基于合作意愿的拓扑特征属性,计算公式如下:
表示节点对<a1,a2>基于元路径Ri的拓扑特征属性。
利用T0时间阶段正例和负例集合中的每一对作者的拓扑特征属性和标签训练逻辑回归模型的参数,得到合作者预测模型。
对于T1时间阶段生成的科技文献异构网络,给定其中一个作者a,选取其当前时刻为合作的3跳合作者作为可能推荐给作者a的合作作者候选集,然后计算该作者与其合作作者候选集中每一个作者间的拓扑特征属性,利用训练得到的合作者预测模型预测该作者与这些作者在未来是否合作,将预测会合作的作者推荐给作者a。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
机译: 基于已认证的媒体内容输入来推荐媒体内容合作者的方法,系统和媒体
机译: 基于已认证的媒体内容输入来推荐媒体内容合作者的方法,系统和媒体
机译: 基于授权的媒体内容输入来推荐媒体内容合作者的方法,系统和媒体