首页> 中文学位 >基于形态学信息与语义字典的词向量提升
【6h】

基于形态学信息与语义字典的词向量提升

代理获取

目录

声明

摘要

表格索引

插图索引

算法索引

第一章 绪论

1.1 研究背景

1.2 研究现状

1.3 研究内容

1.4 文章结构

第二章 词嵌入模型

2.2.2 谱词向量模型

2.3 基于神经网络的词嵌入模型

2.3.1 连续词袋模型CBOW

2.3.2 Skip-gram模型

2.3.3 求解算法

2.4 本章小结

第三章 基于形态学关系的词向量提升

3.1 均衡模型

3.2 相似度模型

3.3 词素匹配

3.4 本章小结

第四章 基于外部语义字典的词向量提升

4.1 符号规定

4.2 模型描述

4.3 正采样算法

4.4 类层次softmax算法

4.5 本章小结

第五章 实验

5.1 实验设定

5.1.1 语料与词素

5.1.2 参数设定

5.2 基于形态学关系的词向量提升

5.2.1 词意关联检测

5.2.2 句法类比

5.2.3 N近邻单词

5.2.4 参数分析

5.3 基于外部语义字典的词向量提升

5.3.1 反义词识别

5.3.2 正、反义词消歧

5.3.3 词意关联检测

5.3.4 参数分析

5.4 模型关联及优缺点分析

5.5 本章小结

第六章 总结与未来工作

6.1 全文总结

6.2 未来工作

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

针对当前传统词向量模型只能捕捉词层面的语义信息,忽视了单词内部语义信息以及无法有效区分反义词的不足,本文凝练出两个科学问题:1、如何将单词形态学信息融入词向量训练过程中,以此提升词向量的语义相似性以及形态相似性;2、如何提升词向量区分反义词的能力。
  针对科学问题1,本文以英文为例,将英文单词中的前缀、后缀、词根等形态学信息融入到词向量训练过程中,并提出两种隐式词向量提升模型:均衡模型和相似度模型。与相关工作对比,本文提出的模型具有较大不同,主要体现在:相关工作普遍直接利用单词的词素信息去提升词向量,而本文则利用词素在字典中的解释对单词进行建模。该方法的优点在于其不但可以很好的提高单词的语义相似性,同时能很大程度上提升单词的形态相似性。本文在词意关联检测、句法类比和N近邻单词实验上对均衡模型和相似度模型进行了测试。实验结果表明本文提出的隐式模型在所有任务上均取得最优结果。参数分析结果表明:在隐式模型的词向量空间中,形态相似的单词不但距离彼此较近,而且也都分布在其词素意义周边。此外,隐式模型具有补充语义的能力,其在小文本上取得了和基准模型在大文本上相当的表现。因此,隐式模型在处理资源匮乏的语言时具有优势。
  针对科学问题2,本文基于外部语义字典,提出一种词向量纠正模型LWET。该模型利用字典中单词的近义关系和反义关系来调整词向量在空间中的分布,使得词向量区分反义词的能力得到增强。模型的主要目标是使近义词离目标词最近,反义词离目标词最远,无关词位于近义词和反义词之间充当间隔。为降低模型求解的复杂度,本文提出两种近似算法,包括正采样算法和类层次softmax算法。其中正采样算法时间复杂度最低,类层次softmax算法复杂度略高,但效果更好。本文在反义词识别、正、反义词消歧和词意关联检测实验上对LWET进行了测试。其中,反义词识别和正、反义词消歧主要用于检测词向量区分反义词的能力,实验结果表明经由LWET调整,词向量能有效区分单词间的反义关系。词意关联检测实验结果显示,LWET在调整词向量空间分布时,不会对原有词向量的语义结构造成破坏。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号