首页> 中文学位 >一种基于BTM主题模型的命名实体链接方法研究
【6h】

一种基于BTM主题模型的命名实体链接方法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 命名实体链接研究现状

1.2.2 短文本主题模型研究现状

1.3 论文研究内容

1.4 论文章节安排

第2章 相关理论介绍

2.1 命名实体连接

2.1.1 命名实体链接概述

2.1.2 候选实体生成

2.1.3 候选实体排序

2.2 主题模型

2.2.1 语义分析发展过程

2.2.2 一元混合模型

2.2.3 LDA主题模型

2.2.4 BTM词对主题模型

2.3 本章小结

第3章 基于维基百科的知识库构建和词共现度量

3.1 基于维基百科的知识库构建

3.1.1 维基百科

3.1.2 维基百科的基本元素

3.1.3 基于维基百科的知识库构建方法

3.2 词共现度量

3.2.1 词共现现象

3.2.2 词共现度量

3.2.3 平均距离计算

3.3 实验与实验结果分析

3.4 本章小结

第4章 基于BTM主题模型的命名实体语义建模

4.1 命名实体识别

4.2 候选实体生成

4.3 基于BTM主题模型的命名实体语义建模

4.3.1 基于BTM主题模型的语义建模

4.3.2 实验与实验结果分析

4.4 本章小结

第5章 基于BTM主题模型的命名实体链接方法

5.1 基于BTM主题模型的命名实体链接系统框架

5.2 基于BTM主题模型的命名实体链接过程

5.3 实验与实验结果分析

5.3.1 评估指标

5.3.2 实验结果分析

5.4 本章小结

第6章 总结与展望

6.1 研究工作总结

6.2 对进一步研究工作的展望

参考文献

致谢

展开▼

摘要

随着网络资源的不断膨胀,信息的不断增多使得人们获取有价值的信息变得越来越困难。而Tweets、微博等短文本的发展和流行,使得人们更加无法从中获取更多感兴趣的内容,拓展命名实体条目的歧义问题成为研究的重点难点,命名实体链接技术是解决该问题的重要方法。命名实体链接是把文档中给定的命名实体链接到知识库中一个无歧义实体的过程,包括同义实体的合并、歧义实体的消歧等。该技术可以提升在线推荐系统、互联网搜索引擎等实际应用的信息过滤能力。本文针对短文本内容简短、语言随意不规范等特性,提出了一种基于BTM主题模型的命名实体链接方法。
  本文首先使用离线版维基百科来构建命名实体知识库,构建同义词表和歧义词表。本文使用基于规则和统计相结合的方法,识别短文本中的命名实体。由于短文本中出现的命名实体的多样性,根据知识库中的同义词表进行标准化,根据歧义词表获取候选命名实体集合并根据命名实体上下文特性进行剪枝,缩减候选实体集的大小,提高候选实体排序的效率。本文综合考虑词共同出现频率与单个出现频率的情况,改进了MPM词共现度量只考虑共现频率而不考虑单个词出现频率情况,来计算词共现程度系数。其次,本文基于同一文档下词与命名实体具有相似的主题分布的假设,在语义层面对文档进行建模和实体消歧,提出了一种基于BTM主题模型的命名实体链接方法。该方法使用基于词共现程度系数的BTM模型来对命名实体语义建模,并使用了吉普斯采样的方法求解参数,这使得模型更加简单准确,为后续处理数据提供了理论基础。最后本文根据命名实体所在主题空间的位置向量与候选实体的余弦相似度,把给定文本中的命名实体链接到知识库中一个无歧义的命名实体。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号