基于深度学习的中文词法分析模型算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在自然语言处理任务中，中文词法分析是一个关键的基础研究领域，其研究成果直接关系到中文句法分析和语义分析的精确度，深刻影响机器翻译、智能问答等高级应用处理的效率。中文词法分析由中文分词和中文词性标注两个任务组成，这两个任务是中文词法分析的关键所在。然而现有的中文词法分析研究以统计方法为主，存在模型复杂、训练时间过长等缺点。随着深度学习的兴起，基于深度神经网络解决现有方法的不足成为了自然语言处理领域热点问题。首先，针对现有中文分词方法存在的训练时间长、不能有效利用长距离信息、模型结构复杂等缺点，本文提出了基于深度学习的双向门控循环神经网络和线性条件随机场组合模型。该组合模型利用门控循环神经网络强大的建模能力，通过前向和后向两个方面处理，快速得到评分矩阵，然后利用线性条件随机场模型考虑整个句子的局部特征加权，得到最终的分词结果。该组合模型突破了传统方法窗口的极限、结构简单、易于操作、可以自动学习特征、减少特定知识任务的学习、有效地利用上下文信息、真正实现端到端处理。通过在微软亚洲研究院分词语料库和北京大学分词语料库进行实验证明，本文提出的分词组合模型不仅提升了分词结果，而且在保证分词速度的基础上大大缩短了训练时间。其次，针对中文词性标注任务现有研究方法严重依赖人工特征的不足，本文在分词组合模型基础上提出了预训练算法。基于预训练算法的组合模型不仅能够自动获取特征，而且模型误差更小，随着神经网络深度的增加，鲁棒性更好，平均方差更小。通过在北京大学人民日报语料库实验分析，基于预训练算法的组合模型有效地提高了词性标注的精确度和速率。最后，针对中文词法分析任务中存在的歧义词识别问题进行研究，通过对双向门控循环神经网络进行外部权重加权，在处理常见的歧义词上取得了显著效果。在此基础上，本文进一步提出了一体化模型和针对一体化模型的优化算法。经过实验对比，一体化模型取得了比单独分词任务和词性标注任务模型更好的结果。

著录项

作者
王书培;
展开▼
作者单位

浙江理工大学;

展开▼
授予单位浙江理工大学;
学科计算机科学与技术
授予学位硕士
导师姓名俞成海;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
深度学习; 中文; 词法; 分析模型;

相似文献

中文文献
外文文献
专利

1. 基于词法分析的维吾尔语元音弱化算法研究 [J] . 米热古丽·艾力 ,米吉提·阿不力米提 ,艾斯卡尔·艾木都拉 . 中文信息学报 . 2008,第004期
2. 基于异构数据联合训练的中文分词法 [J] . 姜猛 ,王子牛 ,高建瓴 . 电子科技 . 2019,第004期
3. 基于BI-GRU-CRF模型的中文分词法 [J] . 车金立 ,唐力伟 ,邓士杰 . 火力与指挥控制 . 2019,第009期
4. 基于LSTM网络的中文地址分词法的设计与实现 [J] . Zhang Wenhao ,Lu Shan ,Cheng Guang . 计算机应用研究 . 2018,第012期
5. 基于门循环单元神经网络的中文分词法 [J] . 李雪莲 ,段鸿 ,许牧 . 厦门大学学报（自然科学版） . 2017,第002期
6. 异种语料融合方法:基于统计的中文词法分析应用 [C] . Meng Fandong ,孟凡东 ,Xu Jinan . 第十一届全国计算语言学学术会议 . 2011
7. 中文词法句法语义联合分析模型研究 [A] . 张梅山 . 2014

基于深度学习的中文词法分析模型算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅