首页> 中文学位 >基于科研论文合作者关系图的同名排歧方法研究
【6h】

基于科研论文合作者关系图的同名排歧方法研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文的主要工作

1.4 本文的组织与结构

第2章 相关理论基础

2.1 文本分类处理方法

2.2 图论知识

2.3 图节点相似度计算

2.4 层次聚类

2.5 本章小结

第3章 基于合作者关联图的多路径游走同名排歧算法

3.1 框架设计

3.2 定义

3.3 特征选取

3.4 合作者

3.5 相似度计算

3.6 动态层次聚类

3.7 算法描述

3.8 本章小结

第4章 基于二分图的P-SimRank同名排歧算法

4.1 框架设计

4.2 定义

4.3 合作者

4.4 其他属性相似度

4.5 综合相似度

4.6 聚类

4.7 本章小结

第5章 实验与结果分析

5.1 实验准备

5.2 实验分析

5.3 本章小结

第6章 总结与展望

6.1 本文工作总结

6.2 未来展望

致谢

参考文献

附录

展开▼

摘要

大数据时代的到来造成知识更新瞬息万变,网络信息以不同的形式提供了各种各样的知识,造成了知识对象的歧义。如何从浩瀚的知识海洋中获取所需要的、正确、没有歧义的知识,正是当前亟需解决的问题。同名问题是典型的知识对象歧义问题,是一个人名对应多个真实个体的现象。在科学研究中,作者名字歧义问题不仅降低了文献和网络检索的准确性,而且对数据挖掘等研究造成了一定的影响。同名排歧的目的是要将这些混淆在一起的真实个体区分开。考虑到科研论文中存在着复杂的合作者关系,同时为了更准确地描述论文之间真实相似程度,本文基于合作者关系图模型,提出了合作者关联图上的多路径游走同名排歧算法和基于二分图的P-SimRank同名排歧算法。
  本研究主要内容包括:⑴针对传统的相似度计算方法不能对复杂的合作者关系进行准确度量的问题,结合合作者关联图能传递合作者链接关系的特性,提出了基于合作者关联图的多路径游走(Multi-path Walk Based on Coauthorship Association Graph,MWCAG)同名排歧算法。首先,MWCAG利用论文间的合作者信息构建了合作者文章列表;然后,基于合作者文章列表构建了合作者关联图,并采用简单有效的、且根据同名排歧问题进行优化后的多路径游走策略进行合作者相似度的计算;接下来,用文本相似度方法计算了期刊与标题的相似性;最后,针对排歧集合规模的差异导致不同规模相似值的差异,进行动态层次聚类,实现排歧目的。选择数据格式规范度较高的DBLP数据进行实验,实验结果表明, MWCAG算法有较高的准确率和召回率。⑵分析合作者关系存在间接关联性的特点,结合合作者二分图网络的整体拓扑结构特征,提出了基于二分图的P-SimRank同名排歧算法。考虑到原始的SimRank算法无法直接适用于同名排歧问题,因此对其进行了两点改进:针对SimRank算法应用在完全二分图上,导致拥有不同共有邻居节点数目的节点相似值不准确的缺陷,引入了证据(evidence)因子,对其相似值进行了修正;针对排歧集合规模的差异造成了相似度差异的问题,引入了惩罚(penalty)因子,平衡了不同集合规模间的相似度。同时结合期刊与标题的文本相似性,进行层次聚类。本文选择了数据格式规范度较高的 DBLP数据进行实验,实验结果表明P-SimRank算法有较高的准确率和召回率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号