首页> 中文学位 >科技文献作者消歧方法研究
【6h】

科技文献作者消歧方法研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文研究内容

1.4 本文组织结构

第二章 作者消歧相关理论与技术基础

2.1 消歧问题定义

2.2 相关技术介绍

2.3 本章小结

第三章 作者消歧数据预处理

3.1 作者消歧数据存在的问题

3.2 作者文档数据抽取框架

3.3 作者消歧相关实体构建

3.4 作者特征选择

3.5 本章小结

第四章 基于关系网络图的作者消歧模型

4.1 论文-作者关系图的构建

4.2 同名作者的属性相似度计算

4.3 同名作者的关系相似度计算

4.4 作者姓名模糊度

4.5 实验设计与结果分析

4.6 本章小结

第五章 基于二阶段层次聚类的作者消歧方法

5.1 可信合著者关系的发现

5.2 合著者关系的全局计算

5.3 二阶段层次聚类算法介绍

5.4 实验设计与结果分析

5.5 本章小结

第六章 结论与展望

6.1 工作总结

6.2 未来展望

致谢

参考文献

附录

展开▼

摘要

近年来,网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务,同时大量的作者同名现象降低了检索的准确性,因此作者消歧是该类知识库亟待解决的一个问题。作者消歧一般采用聚类方法来处理,针对目前聚类消歧方法没有充分利用作者间关系,本文研究提出一种基于二阶段层次聚类的作者消歧方法,用于解决同单位和不同单位的同名作者消歧问题,首先根据启发式策略从待消歧候选作者中发现同人的作者,通过聚类合并实现消歧,然后充分利用全局合著者关系,在聚类的迭代过程中补充合著者关系并结合作者的属性特征实现消歧。本文的主要研究工作如下:
  (1)作者消歧数据预处理。首先,针对网上不同文献知识库的文献格式不统一的问题,设计研发了科技文献数据的采集和抽取框架,将文献存储为标准的结构化数据;其次构建作者和论文实体,将结构化数据转化为RDF三元组来表示,利用D2R工具展示作者和文献实体及实体之间的关系;最后分析作者属性特征和关系特征的消歧能力,选择合适的特征用于作者消歧任务。
  (2)通过构建论文-合著者的关系图,研究提出一种基于图的作者消歧模型,建立消歧矩阵。研究提出利用词向量构建文档向量实现作者的属性相似度计算;研究提出基于图的合著者关系相似度计算;针对不同合著者对同名作者的区分度不同,研究提出利用姓名模糊度来衡量合著者的权重;最后提出一种基于属性特征和合著者关系的线性组合的相似度计算方法,结合作者的属性特征、合著者关系特征以及姓名模糊度,实现同名作者间的相似度计算。
  (3)充分利用合著者关系这一强特征,提出一种基于二阶段层次聚类的作者消歧方法。在第一阶段,针对可信合著者关系稀疏的问题,利用合著者扩展和共现关系实现待消歧候选作者的聚类合并;在第二阶段,针对合著者关系可信度低的问题,提出一种合著者关系的全局计算,结合线性组合的相似度计算方法进一步实现聚类合并。实验表明,本方法具有更优的准确性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号