首页> 中文学位 >上下文感知的实体链接技术研究
【6h】

上下文感知的实体链接技术研究

代理获取

目录

声明

摘要

图目录

表目录

第1章 绪论

1.1 课题背景

1.2 研究目的和本文主要工作

1.3 论文组织结构

1.4 本章小结

第2章 国内外研究现状

2.1 实体链接的主要流程

2.1.1 名字扩展

2.1.2 候选生成

2.2 传统非协同方法

2.3 基于深度学习的方法

2.3.1 基于Stacked Denoising Auto-encoders的方法

2.3.2 基于卷积神经网络的匹配程度模型

2.4 协同方法

2.4.1 两个实体间关联程度的评估

2.4.2 多个实体间总体关联程度的评估

2.4.3 相关提及选择

2.5 本章小结

第3章 基于融合实体信息的文档向量的实体链接方法

3.1 名字扩展

3.2 候选生成

3.3 融合实体信息的文档向量表达模型

3.3.1 PV-DBOW模型简介

3.3.2 实体信息的融入

3.3.3 新文档向量表达学习

3.3.4 模型训练

3.3.5 模型训练复杂度分析

3.4 基于语义匹配程度模型的候选排序

3.4.1 候选实体与提及的语义匹配程度模型

3.4.2 候选实体的综合评分

3.5 NIL检测

3.6 NIL聚类

3.7 本章小结

第4章 实验设计与结果分析

4.1 实验数据

4.1.1 实体链接数据

4.1.2 知识库数据

4.2 评价指标

4.3 模型训练设定

4.4 实体链接实验与结果分析

4.4.1 总体链接性能

4.4.2 NIL检测的实验考察

4.4.3 NIL聚类的实验考察

4.4.4 不同实体类别的链接效果

4.4.5 典型链接错误分析

4.5 本章小结

第5章 实体链接系统应用

5.1 实体链接在知识库构建中的应用

5.1.1 实体发现与链接任务要求

5.1.2 针对任务要求的系统改进

5.1.3 实体发现与链接任务结果

5.2 中国工程科技知识中心建设项目中的应用

5.2.1 在知识计算引擎平台中的应用

5.2.2 以web API形式提供的服务

5.3 本章小结

第6章 总结与展望

6.1 全文总结

6.2 未来研究方向

参考文献

攻读硕士学位期间主要的研究成果

致谢

展开▼

摘要

将互联网上海量的非结构化文本数据转为应用所需的结构化知识,使其可被计算机高效地利用是改进搜索系统,实现智能问答与机器阅读的基础。在这个过程中,实体链接技术扮演了一个关键的角色,其主要目标是消除由于别名、指代、一词多意等语言学现象引发的歧义,建立文本中出现的专有名词(实体名)与知识库中其所指代的实体之间的对应关系。
  本研究主要内容包括:⑴提出了一种新颖的文档分布式向量表达学习模型,在传统文档向量表达学习过程中融合上下文实体、实体共现性等对于实体链接至关重要的额外信息,使得新的文档向量表达在实体链接中具有更好鉴别力;针对上述模型难以直接训练的问题,研究了一种通过随机采样训练样本,并结合Hierarchical Softmax或Negative Sampling进行训练的方法,不但使得信息融合成为可能,更提高了训练速度;随后,基于该模型学习得到的文档向量特征,本研究构建了候选实体与当前输入文档的语义匹配程度模型;最后,结合求出的语义匹配程度与候选实体本身的属性协同地探索实体链接最佳候选,形成了完整的实体链接系统。基于分布式向量表达的实体链接系统克服了传统方法需手工构造特征的缺点,自动地利用了同一文档中提及的不同实体之间通常存在一定关联的假设,在链接时联合感知了上下文中的普通词信息和提及实体信息。相比近年来提出的基于深度神经网络的方法,具有无需大量实体链接标注数据、模型训练时间短等突出优势。⑵在实体链接研究常用的TAC KBP实体链接数据集上的一系列实验结果表明,设计的实体链接系统性能优越,其准确率可高于现有最新实体链接方法2个百分点以上。基于本研究的实体链接系统,在2016年NIST(美国国家标准技术研究所)组织的国际知识库构建大赛(TAC KBP)英文EDL(实体发现与链接)任务的全部8项指标中,取得了6项第一,2项第二,综合性能排名第一的好成绩。同时参与任务的国内外高校与研究机构还包括CMU、IBM、科大讯飞等共13个参赛队伍。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号