首页> 中文学位 >基于图的中文集成实体链接算法研究与实现
【6h】

基于图的中文集成实体链接算法研究与实现

代理获取

目录

声明

第一章 绪 论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的研究内容

1.4 本文的结构安排

第二章 相关技术背景及算法

2.1 中文分词

2.2 词性标注

2.3 文本相似度计算

2.4 图论基础

2.5 相关度及重要性计算算法

2.6 本章小结

第三章 基于图的中文集成实体链接算法研究

3.1 算法流程与框架

3.2 实体识别

3.3 候选实体生成

3.4 实体相关图构造

3.5 基于上下文图的集成实体链接算法

3.6 基于语义一致性的集成实体链接算法

3.7 本章小结

第四章 实验结果与分析

4.1 实验环境

4.2 知识库构建

4.3 实验数据

4.4 评估标准

4.5 对比方法

4.6 参数讨论

4.7 实验结果分析

4.8 本章小结

第五章 总结与展望

5.1 全文总结

5.2 不足与下一步展望

致谢

参考文献

攻读硕士期间取得的研究成果

展开▼

摘要

实体链接的定义是指把从纯文本中识别出来的命名指称项与其在知识库中所指的实体对象一一对应起来,如果它所指代的实体对象不在知识库中,则返回空标记NIL。在互联网技术高速发展的浪潮下,网络上以微博、论坛、新闻等方式存储的知识内容以指数级的速度在迅速增长,对这些海量数据的充分利用与深度挖掘对自然语言处理等相关技术提出了更严格的要求。其中,命名实体作为自然语言文本中一个关键组成部分,如何快速准确地识别出自然语言文本中命名实体所指代的具体对象(即实体链接),对人们理解自然语言文本的含义具有很大的帮助。因此,实体链接对自然语言处理领域的发展有着深刻的促进意义和广泛的应用价值。本文通过对实体链接领域的相关内容进行全面调研,并在国内外现有研究的基础上,针对中文提出了两种基于图的集成实体链接算法,包括基于上下文图的集成实体链接算法CGCEL和基于语义一致性的集成实体链接算法CCEL。
  本研究主要内容包括:⑴提出了一种新的实体相关图构建方法,该方法在建立实体顶点间的关系边时对实体间的关系进行了细分(划分为直接关联关系和间接关联关系),不仅可以保证实体间语义关联关系的强度,而且能够保证实体相关图的完整性。⑵为进一步对实体相关图进行完善和修正,在实体相关图构建阶段提出了一种增量证据挖掘算法,该方法通过利用外部知识源提供的实体相关知识,有效地减少了链接算法对本地知识库的(过度)依赖性,提高了算法的链接效果。⑶提出了一种基于上下文图的集成实体链接算法 CGCEL,该算法采用图的形式对输入文本中实体指称项对应候选实体间的语义相关性进行建模,然后求出候选实体的重要性程度得到正确的链接对象。实验结果显示,CGCEL算法可以有效地解决实体链接问题。⑷提出了一种基于语义一致性的集成实体链接算法CCEL,该算法通过更深入地考虑候选实体间的语义相关性以及通过综合考虑候选实体与实体指称项的相关性和候选实体与输入文本间的语义相关性,可以有效地减少噪音候选实体对实体链接结果所产生的负面影响,增强算法对概念上相近实体(即类别相近的实体)的区分能力,从而显著提高算法的链接效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号