基于递归神经网络的中文自然语言处理技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

递归神经网络作为一种特殊的深层神经网络，近年来被成功地应用于英文的语言建模和句法分析等问题中。然而，递归神经网络在中文自然语言处理中的相关工作则相对较少。中文和英文之间存在很大的差别，因此在处理中文自然语言问题时，不能完全照搬英文的处理方法。
　　本文分析了中文语言的特点，并使用基于递归神经网络的方法，对中文自然语言处理中的语言模型、分词、词性标注和命名实体识别问题进行了研究，主要工作包括;
　　(1)针对中文汉字数量少且字与字之间的关系复杂的特点，提出了Embedding递归神经网络。该网络将字的表示与历史的表示分离开来，避免了增大隐藏层会导致网络参数过度增加的问题。本文借助Minibatch、预训练和Dropout方法优化了Embedding递归神经网络的训练过程，并成功地将该网络应用到中文字语言模型的构建中。
　　(2)针对中文词法分析依赖上下文特征的特点，改进了已有的Embedding递归神经网络，提出了多Embedding递归神经网络。该网络不仅具备向后观察的能力，而且复用了语言模型训练出来的Embeddings作为中文字符的表示特征，从而避免了手工构造样本特征的过程，降低了人力成本。在该网络的基础上，本文进一步引入了一种双向训练策略，使得模型可以充分利用字符序列的上下文信息。本文成功地将该网络应用到分词、词性标注和命名实体识别任务的处理中。
　　实验表明，使用预训练和Dropout方法的Embedding递归神经网络语言模型的混乱度性能要明显优于传统递归神经网络语言模型;使用双向训练策略的多Embedding递归神经网络在分词、词性标注和命名实体识别任务中可以取得较好的结果。

著录项

作者
彭程;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科计算机科学与工程
授予学位硕士
导师姓名高志强;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类人工神经网络与计算;文字信息处理;
关键词
递归神经网络; 中文自然语言; 处理技术; 语言模型; 训练策略;

相似文献

中文文献
外文文献
专利

1. 基于字符的递归神经网络在中文语言模型中的研究与实现 [J] . 伍逸凡 ,朱龙娇 ,石俊萍 . 现代信息科技 . 2018,第008期
2. 基于递归神经网络的中文事件检测 [J] . 马晨曦 ,陈兴蜀 ,王文贤 . 信息网络安全 . 2018,第005期
3. 基于字符的递归神经网络在中文语言模型中的研究与实现 [J] . 伍逸凡 ,朱龙娇 ,石俊萍 . 现代信息科技 . 2018,第008期
4. 基于并行化递归神经网络的中文短文本情感分类 [J] . 谢铁 ,郑啸 ,张雷 . 计算机应用与软件 . 2017,第003期
5. 自然语言处理在其他学科领域的影响考察——基于CNKI的中文文献挖掘 [J] . 蒋彦廷 ,胡韧奋 . 情报杂志 . 2021,第12期
6. 从日本域名网站中抽取中文网页——基于自然语言处理 [C] . 魏小比 . 第七届中文信息处理国际会议 . 2007
7. 基于中文自然语言处理的糖尿病知识图谱构建 [A] . 杨佳琦 . 2020

基于递归神经网络的中文自然语言处理技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅