首页> 中文学位 >融合深度学习特征与浅层机器学习特征的中文分词关键技术研究
【6h】

融合深度学习特征与浅层机器学习特征的中文分词关键技术研究

代理获取

目录

声明

摘要

1.1 研究背景和意义

1.1.1 中文分词的研究现状

1.1.2 中文分词的技术发展

1.1.3 中文分词与机器学习

1.1.4 中文分词与深度学习

1.2 论文主要工作和贡献

1.3 论文组织

第二章 深度学习与浅层机器学习理论基础

2.1 机器学习理论基础

2.1.1 隐马尔可夫模型

2.1.2 条件随机场模型

2.2 深度学习理论基础

2.2.1 神经网络模型

2.2.2 神经网络参数的训练方式

2.3 RNN和LSTM神经网络

2.4 本章小结

第三章 CRF与词向量的分词方法的优化

3.1 引出问题

3.2 基于条件随机场与word2vec的中文分词方法结合的优化

3.2.1 条件随机场的中文分词方法

3.2.2 word2vec的中文分词方法

3.2.3 条件随机场与word2vec结合的中文分词方法

3.2.4 模型整体框架

3.3 实验分析

3.3.1 实验数据集

3.3.2 实验环境

3.3.3 实验评价标准

3.3.4 实验的步骤

3.4 本章小结

第四章 双向LSTM模型中文分词模型的优化

4.1 问题概述

4.2 基于深度学习的中文分词方法

4.2.1 基于BP的中文分词方法

4.2.2 基于RNN的中文分词方法

4.2.3 基于LSTM的中文分词方法

4.2.4 双向LSTM模型的中文分词方法的优化

4.3 实验分析

4.3.1 实验数据集

4.3.2 实验环境

4.3.3 实验评价标准

4.3.4 实验的步骤

4.3.5 实验结果

4.4 本章小结

5.1 全文总结

5.2 工作展望

参考文献

攻读硕士期间发表的论文和科研项目

致谢

展开▼

摘要

近些年来,随着互联网时代的到来,我国互联网技术不断发展。在日常生活中,企业和用户都希望能够从计算机数据中获得快速精确的文本数据。对于很多自然语言处理任务来说,分词往往是任务实施的第一步,分词效果的好坏可能会直接影响相关任务的准确性。中文分词中也存在着一些问题制约着分词准确率的提升,如未登录词和歧义词的出现。通过研究,学者们提出了一系列试图解决这些问题的方法,这些方法主要有三种:基于概率统计模型的分词方法,基于词典匹配技术的分词方法和基于字标注的技术的分词方法。随着大量机器学习的方法被运用到自然语言处理领域,学者们提出了基于隐马尔可夫和基于条件随机场的分词模型。当标记数据量增大时,基于机器学习的中文分词方法相对于传统的方法会有大幅的提升。
  目前深度学习在图像处理领域被广泛运用,也取得了可喜的成绩,同时在自然语言领域也有不错的效果。本文将机器学习和深度学习的方法运用到中文分词领域,对传统的基于机器学习中文分词方法进行改进,提升分词效果。本文将标记语料按字向量化后,注入LSTM将语言中上下文关系添加到向量中,为接下来的条件随机场分词提供了充足的上下文信息,从而提升分词的准确率。LSTM相比于卷积神经网络优点在于能够保留上下文的依赖信息,相比于普通循环神经网络的优点在于不易产生梯度弥散和梯度爆炸保留长距离依赖信息,从而更好的支撑分词效果提升。
  本文在北京语言大学提供的语料库上对提出的模型进行实验验证,并对传统模型在同一数据集上实验,对比分词效果。实验表明,融合深度学习特征与浅层机器学习特征的中文分词相比于传统的机器学习分词、概率模型分词、字标注分词和词典分词效果有了一定程度的提升。在北京大学语料库的分词中,我们的实验结果取得了92.80%的F值,比常规的神经网络分词方法提升了1%的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号