首页> 中文学位 >基于递归神经网络的中文自然语言处理技术研究
【6h】

基于递归神经网络的中文自然语言处理技术研究

代理获取

目录

声明

摘要

本论文专用术语

第一章 绪论

1.1 研究背景

1.2 研究内容

1.3 论文组织

第二章 相关研究

2.1 递归神经网络

2.1.1 前馈神经网络

2.1.2 递归神经网络

2.1.3 训练算法

2.2 神经网络语言模型

2.2.1 语言模型简介

2.2.2 前馈神经网络语言模型

2.2.3 递归神经网络语言模型

2.2.4 Embedding的训练

2.3 中文词法分析任务

2.3.1 任务概述

2.3.2 方法概述

2.3.3 技术评测

2.4 本章小结

第三章 基于Embedding递归神经网络的中文字语言建模

3.1 问题描述

3.2 模型描述

3.3 模型训练

3.3.1 Minibatch

3.3.2 预训练Embeddings

3.3.3 Dropout

3.4 实验结果与分析

3.4.1 实验数据集

3.4.2 实验环境

3.4.3 截断步长的选择

3.4.4 传统递归神经网络语言模型之间的比较

3.4.5 Embedding层的效果

3.4.6 Dropout的效果

3.5 本章小结

第四章 基于多Embedding递归神经网络的中文词法分析

4.1 问题描述

4.2 模型描述

4.2.1 标签推理

4.3 模型训练

4.3.1 双向训练

4.4 实验结果与分析

4.4.1 评价标准

4.4.2 实验环境

4.4.3 分词

4.4.4 词性标注

4.4.5 命名实体识别

4.5 本章小结

第五章 总结与展望

5.1 工作总结

5.2 未来展望

致谢

参考文献

展开▼

摘要

递归神经网络作为一种特殊的深层神经网络,近年来被成功地应用于英文的语言建模和句法分析等问题中。然而,递归神经网络在中文自然语言处理中的相关工作则相对较少。中文和英文之间存在很大的差别,因此在处理中文自然语言问题时,不能完全照搬英文的处理方法。
  本文分析了中文语言的特点,并使用基于递归神经网络的方法,对中文自然语言处理中的语言模型、分词、词性标注和命名实体识别问题进行了研究,主要工作包括;
  (1)针对中文汉字数量少且字与字之间的关系复杂的特点,提出了Embedding递归神经网络。该网络将字的表示与历史的表示分离开来,避免了增大隐藏层会导致网络参数过度增加的问题。本文借助Minibatch、预训练和Dropout方法优化了Embedding递归神经网络的训练过程,并成功地将该网络应用到中文字语言模型的构建中。
  (2)针对中文词法分析依赖上下文特征的特点,改进了已有的Embedding递归神经网络,提出了多Embedding递归神经网络。该网络不仅具备向后观察的能力,而且复用了语言模型训练出来的Embeddings作为中文字符的表示特征,从而避免了手工构造样本特征的过程,降低了人力成本。在该网络的基础上,本文进一步引入了一种双向训练策略,使得模型可以充分利用字符序列的上下文信息。本文成功地将该网络应用到分词、词性标注和命名实体识别任务的处理中。
  实验表明,使用预训练和Dropout方法的Embedding递归神经网络语言模型的混乱度性能要明显优于传统递归神经网络语言模型;使用双向训练策略的多Embedding递归神经网络在分词、词性标注和命名实体识别任务中可以取得较好的结果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号