基于改进的多层BLSTM的中文分词和标点符号预测

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目前流行的中文分词方法是把分词当做序列标注问题，同样，标点符号预测也可以当作序列标注来处理。一些传统机器学习模型在序列标注问题上取得了不错的效果，如：隐马尔可夫模型，条件随机场模型，支持矢量机模型，最大熵模型等。除此之外，深度学习的方法在序列标注任务以及其他自然语言处理任务中取得了比传统机器学习方法更好的效果。其中的RNN（Recurrent Neural Network，RNN）被广泛的应用于NLP(Natural Language Process，NLP)领域中的词性标注、机器翻译、实体命名等。因为LSTM（Long Short-term Memory，BLSTM）网络可以有效克服原始RNN中梯度消失的问题，因此在诸多NLP任务中得到了广泛的应用。关于LSTM单元组成的网络，原始的LSTM 网络是单向结构，但是单向的LSTM 网络只能检测到序列单侧的信息，为了克服这个缺点，双向LSTM网络出现了，同时为了能得到更加抽象的语义信息，有学者把多层的LSTM网络叠加起来，形成了多层LSTM的网络结构。　　现有的多层双向BLSTM网络结构是由正反两个方向的多层单向LSTM网络组成的，最后将两个网络的输出进行一次信息融合，融合之后的输出便包含了文本序列两个方向的信息。本文针对这种网络结构进行了研究，提出一种改进型的多层双向长短时记忆（Bidirectional Long Short-term Memory，BLSTM）网络，此网络每层的BLSTM都会进行一次信息融合，输出信息包含更丰富的上下文信息。同时找到一种联合任务方法可以并行执行中文分词和标点符号预测两项序列标注任务。对比原先的先执行中文分词再进行标点符号预测的级联方案，文本所述的方法可以极大的减少系统复杂度。此种方法可以用来处理不规范的社交网络数据，也可以应用在语音识别的后期处理中，并且此种处理方法和思想可以广泛的扩展应用在其他的NLP序列标注任务中。

著录项

作者
李雅昆;
展开▼
作者单位

广东工业大学;

展开▼
授予单位广东工业大学;
学科电子与通信工程
授予学位硕士
导师姓名潘晴,吴金龙;
年度 2018
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
自然语言处理,中文分词预测,标点符号预测,句边界检测,序列标注,BLSTM网络;

相似文献

中文文献
外文文献
专利

1. 基于改进的多层BLSTM的中文分词和标点预测 [J] . 李雅昆 ,潘晴 ,Everett X.WANG . 计算机应用 . 2018,第005期
2. 基于BLSTM-随机森林的短期光伏发电输出功率预测 [J] . 刘志超 ,袁三男 ,唐万成 . 电源技术 . 2021,第004期
3. 基于Autoencoder-BLSTM的涡扇发动机剩余寿命预测 [J] . 宋亚 ,夏唐斌 ,郑宇 . 计算机集成制造系统 . 2019,第007期
4. 基于互信息改进算法的新词发现对中文分词系统改进 [J] . 夏同飞 ,李志 ,王超 . 电子元器件与信息技术 . 2018,第009期
5. 基于互信息改进算法的新词发现对中文分词系统改进 [J] . 夏同飞 ,李志 ,王超 . 电子元器件与信息技术 . 2018,第009期
6. 一种基于Lucene的Hash改进中文分词算法的实现 [C] . 苏亮 ,孙斌 . 第十二届全国青年通信学术会议 . 2007
7. 基于改进LSTM单元的循环神经网络中文分词研究 [A] . 孙严伟 . 2018

基于改进的多层BLSTM的中文分词和标点符号预测

目录

摘要

著录项

相似文献

相关主题

期刊订阅