中文词汇语义相似度计算研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

词汇语义相似度是对两个词语对象所蕴含意义的相近程度的度量。词汇语义相似度计算是一项基础而核心的工作，可以将“词汇相似”这个抽象关系通过特定的计算方法映射成计算机可以处理的数值，从而将自然语言处理问题转化为机器学习问题，其性能的好坏将直接影响到自然语言处理与信息检索的各项任务。近年来，基于词向量的词汇语义相似度计算方法及其改进方法已成为该领域内的前沿、热点研究课题。
　　本文研究中文词汇语义相似度计算，重点研究如何改进基于词向量的方法，并根据是否融入语义约束分为两部分研究：
　　（1）无语义约束的词向量模型
　　本文分别使用机器翻译和LSTMs网络改进标准Skip-gram模型：首先，分别利用标准Skip-gram模型根据不同的训练语料得到标准词向量，通过实验分析了语料规模和语料质量对词向量模型的影响。其次，尝试用机器翻译构建中、英文词向量的关系，并用公开大规模英文词向量选择性地替换中文向量，改进原有中文词向量计算性能。最后，将词汇相似度计算问题转化为词汇关系预测问题，并通过 LSTMs网络学习词对共现的句子序列，从而建模词汇关系。
　　（2）融入语义约束的词向量模型
　　本文提出了一种改进 Counter-fitting模型将语义约束融入已有词向量模型：首先，利用网络爬虫技术扩展词汇上下文。分别抓取词汇出现以及词对共现的句群作为词对“上下文”，并抓取同义词对、反义词对扩充现有人工语义词典。其次，计算词汇语义相似度。分别利用语义词典、检索结果、预训练好的词向量计算语义相似度。最后，利用改进 Counter-fitting方法优化预训练好的词向量，具体的做法是，通过语义约束、向量空间存留构造多项式目标函数，然后用梯度下降算法对目标函数求解，其中，语义约束不仅包括同义约束、反义约束，还包含了相似约束。
　　实验结果表明，基于语义词典的方法在登录词覆盖率较高的情况下，有着先天优势，而当出现大量未登录词时，基于词向量方法和基于 Web检索的方法更具有实用性，此外，融入语义约束的词向量模型的实验结果达到目前 PKU-500数据集上的最佳水平，斯皮尔曼相关系数为0.552，其性能明显好于语义词典模型、Web检索模型和基本词向量模型。

著录项

作者
裴家欢;
展开▼
作者单位

大连理工大学;

展开▼
授予单位大连理工大学;
学科计算机应用技术
授予学位硕士
导师姓名黄德根;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文词汇; 语义相似度计算; 词向量; 语义约束;

相似文献

中文文献
外文文献
专利

1. 利用词汇分布相似度的中文词汇语义倾向性计算 [J] . 赵煜 ,蔡皖东 ,樊娜 . 西安交通大学学报 . 2009,第006期
2. 一种基于搭配的中文词汇语义相似度计算方法 [J] . 王石 ,曹存根 ,裴亚军 . 中文信息学报 . 2013,第001期
3. 基于动态语义编码双向LSTM的中文语义相似度计算 [J] . 初雅莉 ,郑虹 ,侯秀萍 . 计算机应用与软件 . 2020,第006期
4. 基于《现代汉语词典》语义空间的中文文本语义相似度研究 [J] . 高俊芳 ,夏劲伟 . 情报探索 . 2018,第011期
5. 基于语义相似度计算的词汇语义自动分类系统 [J] . 李杰 ,曹谢东 ,余飞 . 计算机仿真 . 2008,第008期
6. 基于MeSH的语义相似度计算研究 [C] . 孙海霞 ,钱庆 ,吴英杰 . 数字图书馆高层论坛2010年年会 . 2010
7. 基于语义加权的中文文本相似度计算研究 [A] . 杜坤 . 2015

中文词汇语义相似度计算研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅