基于形态学信息与语义字典的词向量提升

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

针对当前传统词向量模型只能捕捉词层面的语义信息，忽视了单词内部语义信息以及无法有效区分反义词的不足，本文凝练出两个科学问题:1、如何将单词形态学信息融入词向量训练过程中，以此提升词向量的语义相似性以及形态相似性;2、如何提升词向量区分反义词的能力。
　　针对科学问题1，本文以英文为例，将英文单词中的前缀、后缀、词根等形态学信息融入到词向量训练过程中，并提出两种隐式词向量提升模型:均衡模型和相似度模型。与相关工作对比，本文提出的模型具有较大不同，主要体现在:相关工作普遍直接利用单词的词素信息去提升词向量，而本文则利用词素在字典中的解释对单词进行建模。该方法的优点在于其不但可以很好的提高单词的语义相似性，同时能很大程度上提升单词的形态相似性。本文在词意关联检测、句法类比和N近邻单词实验上对均衡模型和相似度模型进行了测试。实验结果表明本文提出的隐式模型在所有任务上均取得最优结果。参数分析结果表明:在隐式模型的词向量空间中，形态相似的单词不但距离彼此较近，而且也都分布在其词素意义周边。此外，隐式模型具有补充语义的能力，其在小文本上取得了和基准模型在大文本上相当的表现。因此，隐式模型在处理资源匮乏的语言时具有优势。
　　针对科学问题2，本文基于外部语义字典，提出一种词向量纠正模型LWET。该模型利用字典中单词的近义关系和反义关系来调整词向量在空间中的分布，使得词向量区分反义词的能力得到增强。模型的主要目标是使近义词离目标词最近，反义词离目标词最远，无关词位于近义词和反义词之间充当间隔。为降低模型求解的复杂度，本文提出两种近似算法，包括正采样算法和类层次softmax算法。其中正采样算法时间复杂度最低，类层次softmax算法复杂度略高，但效果更好。本文在反义词识别、正、反义词消歧和词意关联检测实验上对LWET进行了测试。其中，反义词识别和正、反义词消歧主要用于检测词向量区分反义词的能力，实验结果表明经由LWET调整，词向量能有效区分单词间的反义关系。词意关联检测实验结果显示，LWET在调整词向量空间分布时，不会对原有词向量的语义结构造成破坏。

著录项

作者
刘佳伟;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机应用技术
授予学位硕士
导师姓名陈欢欢;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言处理; 词向量; 纠正模型; 形态学信息; 语义字典;

相似文献

中文文献
外文文献
专利

1. 融合语义信息的矩阵分解词向量学习模型 [J] . 陈培 ,景丽萍 . 智能系统学报 . 2017,第005期
2. 基于Word2Vec词向量维度媒体与公众潜在语义的网络议程设置研究 [J] . 孙强 . 长江师范学院学报 . 2021,第5期
3. 基于词向量的藏文语义相似词知识库构建 [J] . 龙从军 ,周毛克 ,刘汇丹 . 中文信息学报 . 2020,第010期
4. 基于词向量和多特征语义距离的文本聚类算法 [J] . 张弛 ,张贯虹 . 重庆科技学院学报（自然科学版） . 2019,第003期
5. 基于语义词向量的自媒体短文本主题建模 [J] . 黄婵 . 计算机时代 . 2019,第012期
6. 基于词向量的藏文语义相似词知识库构建 [C] . Congjun LONG ,龙从军 ,Huidan LIU . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于词向量生成的中文语义信息获取研究 [A] . 李南 . 2020

基于形态学信息与语义字典的词向量提升

目录

摘要

著录项

相似文献

相关主题

期刊订阅