科技文献作者消歧方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，网络海量科技文献知识库为科技工作者提供便捷的文献检索和学习研究服务，同时大量的作者同名现象降低了检索的准确性，因此作者消歧是该类知识库亟待解决的一个问题。作者消歧一般采用聚类方法来处理，针对目前聚类消歧方法没有充分利用作者间关系，本文研究提出一种基于二阶段层次聚类的作者消歧方法，用于解决同单位和不同单位的同名作者消歧问题，首先根据启发式策略从待消歧候选作者中发现同人的作者，通过聚类合并实现消歧，然后充分利用全局合著者关系，在聚类的迭代过程中补充合著者关系并结合作者的属性特征实现消歧。本文的主要研究工作如下：
　　（1）作者消歧数据预处理。首先，针对网上不同文献知识库的文献格式不统一的问题，设计研发了科技文献数据的采集和抽取框架，将文献存储为标准的结构化数据；其次构建作者和论文实体，将结构化数据转化为RDF三元组来表示，利用D2R工具展示作者和文献实体及实体之间的关系；最后分析作者属性特征和关系特征的消歧能力，选择合适的特征用于作者消歧任务。
　　（2）通过构建论文-合著者的关系图，研究提出一种基于图的作者消歧模型，建立消歧矩阵。研究提出利用词向量构建文档向量实现作者的属性相似度计算；研究提出基于图的合著者关系相似度计算；针对不同合著者对同名作者的区分度不同，研究提出利用姓名模糊度来衡量合著者的权重；最后提出一种基于属性特征和合著者关系的线性组合的相似度计算方法，结合作者的属性特征、合著者关系特征以及姓名模糊度，实现同名作者间的相似度计算。
　　（3）充分利用合著者关系这一强特征，提出一种基于二阶段层次聚类的作者消歧方法。在第一阶段，针对可信合著者关系稀疏的问题，利用合著者扩展和共现关系实现待消歧候选作者的聚类合并；在第二阶段，针对合著者关系可信度低的问题，提出一种合著者关系的全局计算，结合线性组合的相似度计算方法进一步实现聚类合并。实验表明，本方法具有更优的准确性。

著录项

作者
郑威杰;
展开▼
作者单位

杭州电子科技大学;

展开▼
授予单位杭州电子科技大学;
学科计算机科学与技术
授予学位硕士
导师姓名徐小良;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类检索机;
关键词
信息检索; 科技文献; 作者消歧; 层次聚类; 相似度计算; RDF三元组;
入库时间 2022-08-17 11:21:15

相似文献

中文文献
外文文献
专利

1. 文献数据库中作者名自动化消歧方法应用研究 [J] . 郭舒 . 情报杂志 . 2013,第009期
2. 基于图卷积半监督学习的论文作者同名消歧方法研究 [J] . 盛晓光 ,王颖 ,钱力 . 电子与信息学报 . 2021,第012期
3. 基于机器学习的论文作者名消歧方法研究 [J] . 邓可君 ,华凯 ,邓昌明 . 四川大学学报（自然科学版） . 2019,第002期
4. 基于融合特征的中文图书作者人名消歧方法研究 [J] . 李孟亚 . 电脑知识与技术 . 2018,第011期
5. 多特征融合的英文科技文献增量式人名消歧应用研究 [J] . 阮光册 ,涂世文 ,田欣 . 情报杂志 . 2021,第009期
6. 姓名消歧方法研究进展 [C] . Fu Yuan ,付媛 ,Zhu Lijun . 2015年中国科技信息资源管理与服务年会 . 2015
7. 基于多源异构数据的中文科技文献作者同名消歧研究 [A] . 昌宁 . 2020

科技文献作者消歧方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅