首页> 中文学位 >基于字词对齐的中文字词向量表示方法
【6h】

基于字词对齐的中文字词向量表示方法

代理获取

目录

声明

摘要

表格索引

插图索引

算法索引

第一章 绪论

1.1 研究问题概述

1.2 研究背景及现状

1.3 研究内容

1.4 本文的结构

第二章 分布式词向量表示方法

2.1 分布式语义表示

2.2 基于矩阵分解的分布式词向量技术

2.2.1 基于矩阵分解表示技术步骤

2.2.2 显式正定点互信息矩阵表示

2.2.3 分布式表示的奇异值分解

2.2.4 Global Vectors表示方法

2.3 基于神经网络的词向量表示技术

2.3.1 神经网络语言模型

2.3.2 语言模型

2.3.4 神经网络语言模型

2.3.5 CBOW和Skip-Gram模型

2.4 中文词向量表示技术

2.4.1 基于位置的消歧方法

2.4.2 基于聚类的表示方法

2.4.3 非参数化聚类方法

2.5 本章小结

第三章 中文字词联合学习

3.1 获取中文字词的翻译

3.2 基于字词对齐模型的相似度计算

3.2.1 预训练英文词向量

3.2.2 字语义合并

3.2.3 计算字词相似度和消歧

3.3 字词联合训练的字词向量模型

3.3.1 SCWE模型

3.3.2 基于相似度的字词联合学习方法

3.4 模型复杂度分析

3.5 本章小结

第四章 实验分析

4.1 词向量实验设置

4.1.1 英文词向量的训练

4.1.2 中文词向量的训练

4.2 语义相关性实验

4.2.1 语料库大小的影响

4.2.2 近邻词汇分析

4.3 文本分类

4.3.1 实验数据介绍

4.3.2 分类算法和评价标准

4.4 汉字消歧

4.4.1 汉字消歧的量化实验

4.4.2 字向量在二维平面的显示

4.5 参数分析

4.5.2 组合词判定阈值λ

4.5.3 汉字多义合并阈值δ

4.6 本章小结

5.1 总结

5.2 展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

词语是构成文本的最小语义单元,很多自然语言处理任务都会涉及词语表示的问题。词语表示的方法最常见的是独热表示.然而此方法存在稀疏问题,且不能捕捉词语间的语义联系。以表示学习为基础的词语表示旨在用稠密的低维向量来表示词语的语义信息,其中分布式语义表示是表示学习中最常见的词语表示方法。这种方法得到的词向量在很多自然语言处理问题上取得了成功。借鉴于英文的词向量表示方法,一些学者对中文词向量的表示进行了研究。最近的一些研究表明,中文词语内部的汉字也具有丰富的语义信息,基于字词联合学习的模型在一些中文自然语言处理任务上取得了一定的成功。然而现有的处理方法均没有考虑词语内部汉字对词语语义贡献的差异性,使得学习的词向量在一些任务上的表现不尽如人意。本文基于此问题,提出了一种计算组成词语的汉字对词语的语义贡献的方法,这种方法利用了其他语言的语义信息。我们使用了这种基于相似度的方法来联合学习字词向量。并且通过实验,这种方法对汉字消歧和识别非语义可组合词也有很好的效果。
  本文具体工作如下:
  (1)本文根据中文的特点,提出了一种基于字词相似度的字词向量学习模型。该方法在词语训练过程中,计算了不同内部汉字对词语的语义贡献,更好地对中文的词语进行建模,使汉字对学习到的词向量起到很好的平滑效果,并且通过字的关联使词的上下文信息更加丰富。
  (2)与传统的基于上下文聚类的汉字消歧方法不同,本文创新地融入了英文这种富信息语言的优势,提出了一种新的方法来对汉字进行消歧。这种方法利用了外部资源,使用了类似K-means的方式进行了分类。
  (3)并非所有的词都是语义可组合的。例如命名实体,舶来词等等。本文在现有工作的基础上,提出了一种辨别非语义可组合词的方法。
  (4)在实验部分,通过在多个不同数据集上,不同维度的比较,验证了本文提出算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号