首页> 中文学位 >迁移学习中预训练中文词向量优化方法研究
【6h】

迁移学习中预训练中文词向量优化方法研究

代理获取

目录

声明

致谢

摘要

缩略词表

1.1研究背景及意义

1.2国内外研究现状

1.2.1词、句表示研究现状

1.2.2文本分类研究现状

1.2.3迁移学习研究现状

1.3本论文的主要研究内容

1.4本论文的主要贡献

1.5本论文的组织结构

2技术背景

2.1词表示方法

2.1.1基于神经网络的词表示

2.2机器学习

2.2.1机器学习中的分类问题

2.2.2分类问题性能评价标准

2.2.3预处理与特征工程

2.2.4逻辑回归算法

2.2.5 k近邻算法

2.3深度学习

2.3.1前馈神经网络

2.3.1卷积神经网络(CNN)

2.3.2循环神经网络(RNN)

2.3.3自编码器(AutoEncoder)

2.4开发平台

2.4.2 Tensorflow与Keras开源软件库

2.5本章小结

3词向量无监督二次优化研究

3.1研究问题阐述

3.2数据集

3.2.1数据集介绍

3.2.2数据集预处理

3.3 word2vec词向量训练

3.3.1词向量训练方法

3.3.2训练设置及结果分析

3.4词向量二次训练优化方法

3.4.1词向量无监督优化模型

3.4.2评价指标

3.4.3自编码二次训练效果分析

3.5本章小结

4结合中文字形的词向量扩展研究

4.1问题描述

4.2中文字词特性分析

4.3数据集介绍及预处理

4.3.1数据集及问题介绍

4.3.2数据集处理

4.4字形特征提取

4.4.1字形结构特征

4.4.2词向量特征扩展

4.5字形特征在文本分类中的应用

4.5.1文本分类模型

4.5.2 Add方式分类实验

4.5.3 kNN方式分类实验

4.6本章小结

5总结及展望

5.1本文工作总结

5.1.1无监督二次训练研究

5.1.2中文字形特征研究

5.2未来工作展望

参考文献

作者简历及攻读硕士学位期间取得的研究成果

展开▼

摘要

随着深度学习方法的兴起,在自然语言处理领域中,分布式词嵌入方法已成为最常见的特征表示方法之一。利用这类方法生成的词向量里包含了词语对应上下文中的关键信息,具有很强的适用性,能作为机器翻译、文本分类、自动摘要等多种自然语言处理任务的输入特征。词嵌入特征表示的性能取决于训练语料的规模。实际系统中目标任务领域语料规模非常有限,通常使用在大规模语料上预训练出的词向量特征,即采用词向量迁移学习。
  词向量迁移在应用中还存在诸多问题。由于预训练语料与目标任务语料之间存在显著差异,不仅会导致部分词语的词向量在语义上的偏差,还会有低频词和陌生词的表示困难问题,最终给模型训练引入噪声,降低模型性能。目前常用的改进办法是:针对具体自然语言处理任务,对预训练的词向量进行修正。可是,由于实际系统往往不是单一任务,不论是逐次训练还是多任务同时训练,要同时兼顾多个任务都很困难。
  针对上述词向量迁移使用中存在的问题,本文就中文词向量的预训练和迁移学习开展研究,具体工作和贡献如下:
  (1)针对传统的词向量二次训练方法的不足,提出了一种适用范围更广,且无需已标注数据的无监督二次优化方法,能在词向量的迁移使用时针对目标语料对预训练的词向量进行适应性的调整,以优化词向量在各类自然语言处理任务上的实际性能。在搜狐网页新闻文本数据集上的实验显示,新的词向量能使语义相似度、文本分类任务上的性能均有提升,从特征层面将分类误差降低了7%。
  (2)针对词向量迁移使用时低频词和陌生词的表示困难问题,本文利用中文汉字的字形结构特征具有语义信息的特点,提出了将字形特征向量化以对词向量进行扩展和优化的方法,用于改善低频词和陌生词的词表示。这种方法完全不依赖训练语料的规模,适用于语料规模不丰富、专业术语低频词、陌生词较多的专业领域任务背景下的词向量表示。在搜狐网页新闻文本分类任务上的实验结果显示:由该方法得到的词向量在迁移性文本分类任务上的表现很好,在长度为250词的文本上将已有算法的分类误差降低了11.4%,且对于个别包含低频词较多的稀疏样本类别,性能提升更为明显。
  本文研究的问题是自然语言处理学科中的基础性研究课题,因此研究成果具有一定的学术价值。同时,本文设计的方法适用于各种中文自然语言处理的任务,是一种具有较广的实际应用价值的通用方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号