基于科研论文合作者关系图的同名排歧方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

大数据时代的到来造成知识更新瞬息万变，网络信息以不同的形式提供了各种各样的知识，造成了知识对象的歧义。如何从浩瀚的知识海洋中获取所需要的、正确、没有歧义的知识，正是当前亟需解决的问题。同名问题是典型的知识对象歧义问题，是一个人名对应多个真实个体的现象。在科学研究中，作者名字歧义问题不仅降低了文献和网络检索的准确性，而且对数据挖掘等研究造成了一定的影响。同名排歧的目的是要将这些混淆在一起的真实个体区分开。考虑到科研论文中存在着复杂的合作者关系，同时为了更准确地描述论文之间真实相似程度，本文基于合作者关系图模型，提出了合作者关联图上的多路径游走同名排歧算法和基于二分图的P-SimRank同名排歧算法。
　　本研究主要内容包括：⑴针对传统的相似度计算方法不能对复杂的合作者关系进行准确度量的问题，结合合作者关联图能传递合作者链接关系的特性，提出了基于合作者关联图的多路径游走(Multi-path Walk Based on Coauthorship Association Graph，MWCAG)同名排歧算法。首先，MWCAG利用论文间的合作者信息构建了合作者文章列表；然后，基于合作者文章列表构建了合作者关联图，并采用简单有效的、且根据同名排歧问题进行优化后的多路径游走策略进行合作者相似度的计算；接下来，用文本相似度方法计算了期刊与标题的相似性；最后，针对排歧集合规模的差异导致不同规模相似值的差异，进行动态层次聚类，实现排歧目的。选择数据格式规范度较高的DBLP数据进行实验，实验结果表明， MWCAG算法有较高的准确率和召回率。⑵分析合作者关系存在间接关联性的特点，结合合作者二分图网络的整体拓扑结构特征，提出了基于二分图的P-SimRank同名排歧算法。考虑到原始的SimRank算法无法直接适用于同名排歧问题，因此对其进行了两点改进：针对SimRank算法应用在完全二分图上，导致拥有不同共有邻居节点数目的节点相似值不准确的缺陷，引入了证据（evidence）因子，对其相似值进行了修正；针对排歧集合规模的差异造成了相似度差异的问题，引入了惩罚（penalty）因子，平衡了不同集合规模间的相似度。同时结合期刊与标题的文本相似性，进行层次聚类。本文选择了数据格式规范度较高的 DBLP数据进行实验，实验结果表明P-SimRank算法有较高的准确率和召回率。

著录项

作者
陈未路;
展开▼
作者单位

杭州电子科技大学;

展开▼
授予单位杭州电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名张伟;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
数据挖掘; 层次聚类; 关联分析; 程序语言;
入库时间 2022-08-17 11:21:15

相似文献

中文文献
外文文献
专利

1. 基于图卷积半监督学习的论文作者同名消歧方法研究 [J] . 盛晓光 ,王颖 ,钱力 . 电子与信息学报 . 2021,第012期
2. 基于合作作者与隶属机构信息的同名排歧方法 [J] . 尚玉玲 ,曹建军 ,李红梅 . 计算机科学 . 2018,第011期
3. 基于多特征融合的同名专家消歧方法研究 [J] . 曾健荣 ,张仰森 ,王思远 . 北京大学学报：自然科学版 . 2020,第4期
4. 基于机器学习的论文作者名消歧方法研究 [J] . 邓可君 ,华凯 ,邓昌明 . 四川大学学报（自然科学版） . 2019,第002期
5. 科研社交网络中基于联合概率矩阵分解的科技论文推荐方法研究 [J] . 吴燎原 ,蒋军 ,王刚 . 计算机科学 . 2016,第009期
6. 基于集成学习的科研合作者潜力预测:一种分类方法 [C] . Ai Ke ,艾科 ,Ma Guoshuai . 第六届中国计算机学会大数据学术会议 . -1
7. 科技专家库中同名消歧方法研究与实现 [A] . 江敏 . 2020

基于科研论文合作者关系图的同名排歧方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅