首页> 中文学位 >基于深度学习的中文词表示学习技术研究
【6h】

基于深度学习的中文词表示学习技术研究

代理获取

目录

声明

摘要

论文说明

图目录

表目录

第1章绪论

1.1 引言

1.1.1 中文信息处理的机遇与挑战

1.1.2表示学习与自然语言处理

1.1.3语言表示的研究现状

1.2论文的主要研究工作

1.2.1 中文表示学习面临的挑战

1.2.2论文的主要工作

1.3论文的组织结构

第2章现有词表示学习方法

2.1 引言

2.2词表示方法

2.2.1离散表示

2.2.2基于矩阵的分布式表示

2.2.3基于神经网络的分布式表示

2.3小结

第3章基于笔画的汉字编码

3.1 引言

3.2 C2S:汉字转笔顺编码序列

3.3基于笔画的汉字识别

3.3.1手写汉字识别

3.3.2相关工作

3.3.3笔画的提取

3.3.4基于卷积神经网络的手写汉字模型

3.3.5实验和分析

3.4小结

第4章基于笔画的中文词向量表示学习

4.1 引言

4.1.1 中文细粒度划分

4.1.2语素文字特性分析

4.2相关工作

4.2.1 字符粒度表示学习

4.2.2犀利

4.3基于笔画的中文词向量

4.3.1 中文的拼音与笔画

4.3.2基于相似部件的笔画表示学习

4.3.3基于笔画的字词向量构建

4.4实验和分析

4.4.1 实验环境

4.4.2基于问卷调查的结果分析

4.4.3相似词分析

4.4.4基于笔画的文本分类

4.4.5基于笔画的文本摘要

4.5小结

第5章基于多维度的中文词向量表示学习

5.1 引言

5.2相关工作

5.2.1 基于字序的中文词向量

5.2.2基于偏旁的中文词向量

5.3基于多维度的中文词向量

5.3.1 基于多维度分层模型

5.3.2基于神经网络的多维度分层模型

5.3.3分布式多维度中文词表示学习模型构建

5.4实验和分析

5.4.1 基于问卷调查的结果分析

5.4.2基于多维度中文词向量的文本分类

5.5小结

第6章基于笔画的在中文词向量训练过程的性能优化

6.1 引言

6.2传统的解决策略

6.3基于内存的多备份迁移策略

6.4实验分析

6.5小结

第7章总结与展望

7.1本文工作总结

7.2未来工作展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

随着中国国力的日益增强,中文信息处理(CLP,Chinese Language Processing)受到越来越多的重视。目前基于深度学习的自然语言处理的研究主要集中在字母语言(Alphabetic Language)领域,中文基于深度学习的自然语言处理方法大多借鉴自字母语言。无论在词法、句法、语义等不同的层面上,还是在词汇、短语、句子和篇章等不同的语言单位上,中文与英语等字母语言相比即有共性也存在差异。字符级(Character-level)信息处理方法能够有效解决未登录词(Out of Vocabulary)问题和低频词(Low frequency Words)问题,现阶段中文信息处理并没有将处理粒度拆分到足够细的程度,因此中文依然面临未登录词和低频词的困扰。 由于汉字种类繁多,无法与其他字符进行统一处理。由于汉字编码的问题,数据处理开销较大。本文通过对中文词的构造特性以及汉字内部特征,构造了中文特有的基于笔画的中文词向量表示学习方法。在此基础上,结合中文语言各粒度和维度的层次特征,结合字、词、音、形等多种特征,构建全新的中文词表示,并运用到中文信息处理任务中。最后,针对数据训练过程中的数据预处理问题,结合分布式处理手段对模型训练进行加速。 本文针对上述问题分别展开研究,所做的主要工作及创新点包括: 1.本文提出了基于通用笔画的汉字编码方法,经过多次增补覆盖了CJK统一汉字20902个汉字,为基于笔画的表示学习奠定了坚实的基础。并将汉字笔画编码引入手写汉字识别,为手写汉字识别提供了新的解决思路。 2.本文提出了基于笔画的中文词向量表示学习方法,为中文自然语言处理提供了一种真正字符级(Character-level)的表示学习思路,有效解决了中文词表示学习的未登录词和低频词的问题。使用相似部件对笔画向量进行训练,能够更好地提取汉字之间的关联特征。 3.通过对不同粒度特征的分析,本文提出了基于多维度特征的中文词表示学习算法。该方法结合中文词的音、形、字、词多个维度的特征,在保证细粒度特征在未登陆词和低频词上优势的前提下,更好地结合更多维度的特征。在一定程度上,解决了形近错别字、谐音同音错别字对文本理解带来的影响。 4.针对模型预处理过程的效率问题,本文提出了基于内存的数据备份策略与数据迁移策略,以解决数据预处理的热点数据问题及热点数据汇聚问题。

著录项

  • 作者

    庄航;

  • 作者单位

    中国科学技术大学;

  • 授予单位 中国科学技术大学;
  • 学科 计算机系统结构
  • 授予学位 博士
  • 导师姓名 周学海;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    深度学习; 中文; 词表;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号