迁移学习中预训练中文词向量优化方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着深度学习方法的兴起，在自然语言处理领域中，分布式词嵌入方法已成为最常见的特征表示方法之一。利用这类方法生成的词向量里包含了词语对应上下文中的关键信息，具有很强的适用性，能作为机器翻译、文本分类、自动摘要等多种自然语言处理任务的输入特征。词嵌入特征表示的性能取决于训练语料的规模。实际系统中目标任务领域语料规模非常有限，通常使用在大规模语料上预训练出的词向量特征，即采用词向量迁移学习。
　　词向量迁移在应用中还存在诸多问题。由于预训练语料与目标任务语料之间存在显著差异，不仅会导致部分词语的词向量在语义上的偏差，还会有低频词和陌生词的表示困难问题，最终给模型训练引入噪声，降低模型性能。目前常用的改进办法是:针对具体自然语言处理任务，对预训练的词向量进行修正。可是，由于实际系统往往不是单一任务，不论是逐次训练还是多任务同时训练，要同时兼顾多个任务都很困难。
　　针对上述词向量迁移使用中存在的问题，本文就中文词向量的预训练和迁移学习开展研究，具体工作和贡献如下:
　　(1)针对传统的词向量二次训练方法的不足，提出了一种适用范围更广，且无需已标注数据的无监督二次优化方法，能在词向量的迁移使用时针对目标语料对预训练的词向量进行适应性的调整，以优化词向量在各类自然语言处理任务上的实际性能。在搜狐网页新闻文本数据集上的实验显示，新的词向量能使语义相似度、文本分类任务上的性能均有提升，从特征层面将分类误差降低了7％。
　　(2)针对词向量迁移使用时低频词和陌生词的表示困难问题，本文利用中文汉字的字形结构特征具有语义信息的特点，提出了将字形特征向量化以对词向量进行扩展和优化的方法，用于改善低频词和陌生词的词表示。这种方法完全不依赖训练语料的规模，适用于语料规模不丰富、专业术语低频词、陌生词较多的专业领域任务背景下的词向量表示。在搜狐网页新闻文本分类任务上的实验结果显示:由该方法得到的词向量在迁移性文本分类任务上的表现很好，在长度为250词的文本上将已有算法的分类误差降低了11.4％，且对于个别包含低频词较多的稀疏样本类别，性能提升更为明显。
　　本文研究的问题是自然语言处理学科中的基础性研究课题，因此研究成果具有一定的学术价值。同时，本文设计的方法适用于各种中文自然语言处理的任务，是一种具有较广的实际应用价值的通用方法。

著录项

作者
潘常玮;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科电子与通信工程
授予学位硕士
导师姓名郭宇春;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
自然语言处理; 迁移学习; 预训练; 词向量特征;

相似文献

中文文献
外文文献
专利

1. 基于预训练语言模型词向量融合的情感分析研究 [J] . 魏上斐 ,乔保军 ,于俊洋 . 计算机应用与软件 . 2021,第005期
2. DNAVec:基因组DNA序列的预训练词向量表示 [J] . 郎梅 ,郭志云 . 生物医学 . 2021,第003期
3. 文本词向量与预训练语言模型研究 [J] . 徐菲菲 ,冯东升 . 上海电力大学学报 . 2020,第004期
4. 文本词向量与预训练语言模型研究 [J] . 徐菲菲 ,冯东升 . 上海电力学院学报 . 2020,第004期
5. 基于同义词词林和预训练词向量的微调方法 [J] . 佘琪星 ,王必聪 ,刘铭 . 中文信息学报 . 2020,第010期
6. 基于预训练卷积网络的迁移学习故障诊断方法 [C] . SHAO Siyu ,邵思羽 ,YAN Ruqiang . 2018年全国设备监测诊断与维护学术会议暨第十六届全国设备故障诊断学术会议、第十八届全国设备监测与诊断学术会议、2018年全国设备诊断工程会议 . 2018
7. 基于词向量的中文分词方法研究 [A] . 刘澜 . 2017

迁移学习中预训练中文词向量优化方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅