基于维基百科的语义相关度计算研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语义相关度计算是自然语言处理的基础性工作之一，在很多领域都有着广泛的应用，例如信息检索、词义排歧、智能问答、自动摘要和机器翻译等。不同于长文本，短词语相关度计算最大的困难在于词语本身，因为它没有包含足以从中获取可靠语义特征的信息。而人类在比较词语的相关度时，不仅是根据词语本身，还利用了在日常生活学习中积累的大量常识。因此计算机也需要依赖大量的一般意义或专门领域的世界知识来进行语义概念的扩充，以在扩充后的概念空间中进行语义相关度的计算。
　　目前，词语相关度计算主要有两种方法。一种是基于大规模文集的统计方法，另一种是基于某种分类体系或世界知识的知识库的方法。其中对基于统计和基于分类体系方法的研究比较多且很成熟，但在进一步提高计算精度方面遇到了瓶颈。而最近提出的以维基百科作为世界知识的方法在准确度提升上取得了很大的成功，但其仍然存在着一些不足和可以进一步完善的地方。
　　本文以维基百科作为知识库，在分析和总结已有基于统计的传统方法和基于维基百科的最新方法基础上，对语义相关度计算中一词多义现象和维基百科中链接结构的利用问题进行了深入研究。本文的主要研究工作和贡献如下：
　　 (1)研究了语义相关度计算的背景和存在的问题，阐述了相关度的概念和评价体系，并对现有的相关度计算方法进行分析，对比了各自的优缺点。
　　 (2)通过建立模型，详细论述了现有基于维基百科的算法在一词多义或多词一义情况遇到的难题，并提出了一种考虑词对语境变化的自适应计算方法。
　　 (3)由于现有基于维基百科的方法都忽略了维基百科中存在的大量硬编码的、高质量的链接关系信息。本文提出利用链接结构进行语义概念的扩充和筛选的方法，来提高相关度计算的准确性和健壮性。
　　 (4)选取目前应用最广的标准测试集WordSimilarity-353对实验结果进行分析和比较。结果表明我们提出的两种方法都优于现存所有的方法，计算结果同人类判断之间的相关系数r从0.75分别提升到0.80和0.78。此外，我们的方法更具适应性，更容易为人类所理解和接受。
　　最后，本文还指出了该领域值得进一步研究的问题。

著录项

作者
陈鹏;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科管理科学与工程
授予学位硕士
导师姓名王卫平;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理 ;
关键词
语义相关度; 自然语言处理; 维基百科; 自适应计算;

相似文献

中文文献
外文文献
专利

1. 基于维基百科的语义相关度算法研究综述 [J] . 景雪芹 ,徐建良 . 微型机与应用 . 2015 ,第014期
2. 基于中文维基百科的词语语义相关度计算 [J] . 万富强 ,吴云芳 . 中文信息学报 . 2013 ,第006期
3. 基于维基语义图的词语语义相关度计算研究 [J] . 刘晓亮 . 情报学报 . 2014 ,第011期
4. 维基百科的中文语义相关词获取及相关度分析计算 [J] . 李赟 ,黄开妍 ,任福继 . 北京邮电大学学报 . 2009 ,第3期
5. 基于本体的语义相似度和相关度计算研究综述 [J] . 刘宏哲 ,须德 . 计算机科学 . 2012 ,第002期
6. 基于维基百科社区挖掘的词语语义相似度计算 [C] . PENG Li-zhen ,彭丽针 ,WU Yang-yang . 2015全国理论计算机科学学术年会 . 2015
7. 基于维基百科结构信息的语义关联度计算研究 [A] . 孙琛琛 . 2012

基于维基百科的语义相关度计算研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅