首页> 中文学位 >基于深度学习的中文词法分析模型算法研究
【6h】

基于深度学习的中文词法分析模型算法研究

代理获取

目录

声明

摘要

1.1研究背景与意义

1.2.1中文分词研究现状

1.2.2词性标注研究现状

1.3研究内容

1.4本文组织结构

2.1引言

2.2深度学习概述

2.2.1深度学习概念

2.2.2深度学习模型基本框架

2.3神经网络模型

2.3.1长短时记忆神经网络模型

2.3.2门控循环神经网络模型

2.3.3条件随机场模型

2.4测评数据集和测评指标

2.4.2测评指标

2.5本章小结

3.1引言

3.2中文分词标注集选择

3.3双向门控循环神经网络分词模型

3.4双向门控循环神经网络和条件随机场组合分词模型

3.4.1分词组合模型介绍

3.4.2模型计算

3.5实验与分析

3.5.1分词粒度选择

3.5.2实验环境搭建与实现

3.5.3分词实验与分析

3.6本章小结

4.1引言

4.2常用词性标注方法

4.2.1 HMM词性标注方法

4.2.2 CRF词性标注方法

4.3基于深度学习的中文词性标注模型

4.3.1预训练向量层

4.3.2双向门控循环神经网络处理层

4.3.3线性随机条件场处理层

4.3.4词性标注模型和标注算法

4.4实验与结果分析

4.4.1语料库及标注集设置

4.4.2词性标注实验

4.4.3实验结果分析

4.5本章小结

5.1引言

5.2歧义词分类

5.3歧义词识别方法及歧义词资源构建

5.3.1歧义词识别

5.3.2歧义词资源构建

5.4中文词法分析一体化模型

5.4.1一体化模型结构

5.4.2模型训练

5.5实验与分析

5.6本章小节

6.1工作总结

6.2工作展望

参考文献

致谢

攻读学位期间的研究成果

展开▼

摘要

在自然语言处理任务中,中文词法分析是一个关键的基础研究领域,其研究成果直接关系到中文句法分析和语义分析的精确度,深刻影响机器翻译、智能问答等高级应用处理的效率。中文词法分析由中文分词和中文词性标注两个任务组成,这两个任务是中文词法分析的关键所在。然而现有的中文词法分析研究以统计方法为主,存在模型复杂、训练时间过长等缺点。随着深度学习的兴起,基于深度神经网络解决现有方法的不足成为了自然语言处理领域热点问题。 首先,针对现有中文分词方法存在的训练时间长、不能有效利用长距离信息、模型结构复杂等缺点,本文提出了基于深度学习的双向门控循环神经网络和线性条件随机场组合模型。该组合模型利用门控循环神经网络强大的建模能力,通过前向和后向两个方面处理,快速得到评分矩阵,然后利用线性条件随机场模型考虑整个句子的局部特征加权,得到最终的分词结果。该组合模型突破了传统方法窗口的极限、结构简单、易于操作、可以自动学习特征、减少特定知识任务的学习、有效地利用上下文信息、真正实现端到端处理。通过在微软亚洲研究院分词语料库和北京大学分词语料库进行实验证明,本文提出的分词组合模型不仅提升了分词结果,而且在保证分词速度的基础上大大缩短了训练时间。 其次,针对中文词性标注任务现有研究方法严重依赖人工特征的不足,本文在分词组合模型基础上提出了预训练算法。基于预训练算法的组合模型不仅能够自动获取特征,而且模型误差更小,随着神经网络深度的增加,鲁棒性更好,平均方差更小。通过在北京大学人民日报语料库实验分析,基于预训练算法的组合模型有效地提高了词性标注的精确度和速率。 最后,针对中文词法分析任务中存在的歧义词识别问题进行研究,通过对双向门控循环神经网络进行外部权重加权,在处理常见的歧义词上取得了显著效果。在此基础上,本文进一步提出了一体化模型和针对一体化模型的优化算法。经过实验对比,一体化模型取得了比单独分词任务和词性标注任务模型更好的结果。

著录项

  • 作者

    王书培;

  • 作者单位

    浙江理工大学;

  • 授予单位 浙江理工大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 俞成海;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    深度学习; 中文; 词法; 分析模型;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号