上下文感知的实体链接技术研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

将互联网上海量的非结构化文本数据转为应用所需的结构化知识，使其可被计算机高效地利用是改进搜索系统，实现智能问答与机器阅读的基础。在这个过程中，实体链接技术扮演了一个关键的角色，其主要目标是消除由于别名、指代、一词多意等语言学现象引发的歧义，建立文本中出现的专有名词（实体名）与知识库中其所指代的实体之间的对应关系。
　　本研究主要内容包括：⑴提出了一种新颖的文档分布式向量表达学习模型，在传统文档向量表达学习过程中融合上下文实体、实体共现性等对于实体链接至关重要的额外信息，使得新的文档向量表达在实体链接中具有更好鉴别力;针对上述模型难以直接训练的问题，研究了一种通过随机采样训练样本，并结合Hierarchical Softmax或Negative Sampling进行训练的方法，不但使得信息融合成为可能，更提高了训练速度;随后，基于该模型学习得到的文档向量特征，本研究构建了候选实体与当前输入文档的语义匹配程度模型;最后，结合求出的语义匹配程度与候选实体本身的属性协同地探索实体链接最佳候选，形成了完整的实体链接系统。基于分布式向量表达的实体链接系统克服了传统方法需手工构造特征的缺点，自动地利用了同一文档中提及的不同实体之间通常存在一定关联的假设，在链接时联合感知了上下文中的普通词信息和提及实体信息。相比近年来提出的基于深度神经网络的方法，具有无需大量实体链接标注数据、模型训练时间短等突出优势。⑵在实体链接研究常用的TAC KBP实体链接数据集上的一系列实验结果表明，设计的实体链接系统性能优越，其准确率可高于现有最新实体链接方法2个百分点以上。基于本研究的实体链接系统，在2016年NIST（美国国家标准技术研究所）组织的国际知识库构建大赛(TAC KBP)英文EDL（实体发现与链接）任务的全部8项指标中，取得了6项第一，2项第二，综合性能排名第一的好成绩。同时参与任务的国内外高校与研究机构还包括CMU、IBM、科大讯飞等共13个参赛队伍。

著录项

作者
戴洪良;
展开▼
作者单位

浙江大学;

展开▼
授予单位浙江大学;
学科计算机科学与技术
授予学位硕士
导师姓名汤斯亮,吴飞;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
信息检索; 数据挖掘; 语义分析; 程序语言;

相似文献

中文文献
外文文献
专利

1. 实体链接技术研究述评 [J] . 张丹阳 ,李楠 ,陈翀 . 情报工程 . 2020,第006期
2. 实体链接技术研究述评 [J] . 张丹阳 ,李楠 ,陈翀 . 情报工程 . 2020,第001期
3. 实体链接技术研究述评 [J] . 张丹阳 ,李楠 ,陈翀 . 情报工程 . 2020,第001期
4. 实体链接技术研究述评 [J] . 张丹阳 ,李楠 ,陈翀 . 情报工程 . 2020,第006期
5. 基于领域图谱的实体链接技术研究 [J] . 陈渊 ,张豹 . 信息化研究 . 2019,第3期
6. 融入丰富信息的高性能神经实体链接 [C] . LI Ming Yang ,李明扬 ,JIANG Jia Wei . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 实体链接方法研究及信息安全领域实体链接系统实现 [A] . 王猛 . 2018

上下文感知的实体链接技术研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅