首页> 中文学位 >中文词汇语义相似度计算研究
【6h】

中文词汇语义相似度计算研究

代理获取

目录

声明

1 绪论

1.1 研究背景与意义

1.2 研究现状与分析

1.2.1 基于语义词典资源的方法

1.2.2 基于语料库的传统统计方法

1.2.3 基于语料库的词向量方法

1.2.4 基于组合多策略的方法

1.2.5 研究的重点和难点分析

1.3 本文的主要工作

1.3.1 本文的研究内容

1.3.2 本文的创新之处

1.4 本文的组织结构

2 理论基础

2.1 词汇语义相似度

2.1.1 基本概念

2.1.2 任务描述

2.2 语义词典资源

2.3 词表示及空间向量距离

2.3.1 词表示方法

2.3.2 Word2vec模型

2.3.3 空间向量相似度

2.4 语言模型与人工神经网络

2.4.1 统计语言模型

2.4.2 神经语言模型

2.4.3 循环神经网络

3 基于词向量的词汇语义相似度计算

3.1 标准Skip-gram词向量模型

3.2 基于机器翻译的改进方法

3.3 基于 LSTMs的改进方法

3.4 实验与分析

3.4.1 实验语料

3.4.2 评价方法

3.4.3 结果与分析

4 融入语义约束的词向量模型

4.1 模型构建

4.2 具体实现

4.2.1 预处理

4.2.2 计算词汇相似度

4.2.3 最优化词向量

4.3 实验与分析

4.3.1 改进模型参数调整实验

4.3.2 改进模型的稳定性分析

4.3.3 改进模型的有效性分析

4.3.4 不同模型上的对比实验

4.3.5 其它语料上的对比实验

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

词汇语义相似度是对两个词语对象所蕴含意义的相近程度的度量。词汇语义相似度计算是一项基础而核心的工作,可以将“词汇相似”这个抽象关系通过特定的计算方法映射成计算机可以处理的数值,从而将自然语言处理问题转化为机器学习问题,其性能的好坏将直接影响到自然语言处理与信息检索的各项任务。近年来,基于词向量的词汇语义相似度计算方法及其改进方法已成为该领域内的前沿、热点研究课题。
  本文研究中文词汇语义相似度计算,重点研究如何改进基于词向量的方法,并根据是否融入语义约束分为两部分研究:
  (1)无语义约束的词向量模型
  本文分别使用机器翻译和LSTMs网络改进标准Skip-gram模型:首先,分别利用标准Skip-gram模型根据不同的训练语料得到标准词向量,通过实验分析了语料规模和语料质量对词向量模型的影响。其次,尝试用机器翻译构建中、英文词向量的关系,并用公开大规模英文词向量选择性地替换中文向量,改进原有中文词向量计算性能。最后,将词汇相似度计算问题转化为词汇关系预测问题,并通过 LSTMs网络学习词对共现的句子序列,从而建模词汇关系。
  (2)融入语义约束的词向量模型
  本文提出了一种改进 Counter-fitting模型将语义约束融入已有词向量模型:首先,利用网络爬虫技术扩展词汇上下文。分别抓取词汇出现以及词对共现的句群作为词对“上下文”,并抓取同义词对、反义词对扩充现有人工语义词典。其次,计算词汇语义相似度。分别利用语义词典、检索结果、预训练好的词向量计算语义相似度。最后,利用改进 Counter-fitting方法优化预训练好的词向量,具体的做法是,通过语义约束、向量空间存留构造多项式目标函数,然后用梯度下降算法对目标函数求解,其中,语义约束不仅包括同义约束、反义约束,还包含了相似约束。
  实验结果表明,基于语义词典的方法在登录词覆盖率较高的情况下,有着先天优势,而当出现大量未登录词时,基于词向量方法和基于 Web检索的方法更具有实用性,此外,融入语义约束的词向量模型的实验结果达到目前 PKU-500数据集上的最佳水平,斯皮尔曼相关系数为0.552,其性能明显好于语义词典模型、Web检索模型和基本词向量模型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号