首页> 中文学位 >基于维基百科的语义相关度计算研究
【6h】

基于维基百科的语义相关度计算研究

代理获取

目录

文摘

英文文摘

声明

第1章 绪论

1.1 引言

1.2研究背景

1.3本文的工作

第2章 语义相关度计算相关技术介绍

2.1 语义相关度的概念

2.1.1语义相关度定义

2.1.2单词和概念的关系

2.1.3相关度、相似度和语义距离的含义与区别

2.2语义相关度评价体系

2.3文本表示模型

2.3.1布尔模型

2.3.2概率模型

2.3.3 向量空间模型

2.4特征项的选择

2.4.1 文档频率

2.4.2信息增益

2.4.3互信息

2.4.4特征选取方法的比较

2.5关键词权重

2.6本章小节

第3章 语义相关度计算研究现状

3.1 基于大规模语料库的相关度计算

3.2基于知识库方法的相关度计算

3.2.1 基于分类体系方法的相关度计算

3.2.2基于世界知识方法的相关度计算

3.3本章小结

第4章 基于维基百科的自适应显示语义分析方法

4.1 问题描述

4.2理论模型的建立

4.3 方法描述

4.3.1语义解释器的构造

4.3.2语境生成

4.3.3语义解释

4.3.4相关度比较

4.4算法设计

4.5 实验

4.5.1实验整体设计思想

4.5.2知识库的选取

4.5.3工具包及系统编程语言的选取

4.5.4具体实验内容

4.5.5实验结果分析

4.6本章小结

第5章 基于链接结构的显示语义分析方法

5.1 维基百科中链接结构介绍

5.2利用文章间的链接揭示概念之间的关系

5.3理论模型建立

5.4方法描述

5.4.1语义解释

5.4.2概念扩充

5.4.3概念泛化及其权重的实现

5.4.4相关度比较

5.5算法设计

5.6 实验

5.6.1实验整体设计思想

5.6.2概念扩充

5.6.3实验结果分析

5.7本章小结

第6章 结论与展望

6.1 全文总结

6.2下一步工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

语义相关度计算是自然语言处理的基础性工作之一,在很多领域都有着广泛的应用,例如信息检索、词义排歧、智能问答、自动摘要和机器翻译等。不同于长文本,短词语相关度计算最大的困难在于词语本身,因为它没有包含足以从中获取可靠语义特征的信息。而人类在比较词语的相关度时,不仅是根据词语本身,还利用了在日常生活学习中积累的大量常识。因此计算机也需要依赖大量的一般意义或专门领域的世界知识来进行语义概念的扩充,以在扩充后的概念空间中进行语义相关度的计算。
   目前,词语相关度计算主要有两种方法。一种是基于大规模文集的统计方法,另一种是基于某种分类体系或世界知识的知识库的方法。其中对基于统计和基于分类体系方法的研究比较多且很成熟,但在进一步提高计算精度方面遇到了瓶颈。而最近提出的以维基百科作为世界知识的方法在准确度提升上取得了很大的成功,但其仍然存在着一些不足和可以进一步完善的地方。
   本文以维基百科作为知识库,在分析和总结已有基于统计的传统方法和基于维基百科的最新方法基础上,对语义相关度计算中一词多义现象和维基百科中链接结构的利用问题进行了深入研究。本文的主要研究工作和贡献如下:
   (1)研究了语义相关度计算的背景和存在的问题,阐述了相关度的概念和评价体系,并对现有的相关度计算方法进行分析,对比了各自的优缺点。
   (2)通过建立模型,详细论述了现有基于维基百科的算法在一词多义或多词一义情况遇到的难题,并提出了一种考虑词对语境变化的自适应计算方法。
   (3)由于现有基于维基百科的方法都忽略了维基百科中存在的大量硬编码的、高质量的链接关系信息。本文提出利用链接结构进行语义概念的扩充和筛选的方法,来提高相关度计算的准确性和健壮性。
   (4)选取目前应用最广的标准测试集WordSimilarity-353对实验结果进行分析和比较。结果表明我们提出的两种方法都优于现存所有的方法,计算结果同人类判断之间的相关系数r从0.75分别提升到0.80和0.78。此外,我们的方法更具适应性,更容易为人类所理解和接受。
   最后,本文还指出了该领域值得进一步研究的问题。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号