基于数据增广和复制的中文语法错误纠正方法

汪权彬; 谭营

首页> 中文期刊>智能系统学报 >基于数据增广和复制的中文语法错误纠正方法

基于数据增广和复制的中文语法错误纠正方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

中文作为一种使用很广泛的文字,因其同印欧语系文字的天然差别,使得汉语初学者往往会出现各种各样的语法错误。本文针对初学者在汉语书写中可能出现的错别字、语序错误等,提出一种自动化的语法纠正方法。首先,本文在自注意力模型中引入复制机制,构建新的C-Transformer模型。构建从错误文本序列到正确文本序列的文本语法错误纠正模型,其次,在公开数据集的基础上,本文利用序列到序列学习的方式从正确文本学习对应的不同形式的错误文本,并设计基于通顺度、语义和句法度量的错误文本筛选方法;最后,还结合中文象形文字的特点,构造同形、同音词表,按词表映射的方式人工构造错误样本扩充训练数据。实验结果表明,本文的方法能够很好地纠正错别字、语序不当、缺失、冗余等错误,并在中文文本语法错误纠正标准测试集上取得了目前最好的结果。

著录项

来源
《智能系统学报》|2020年第1期|99-106|共8页
作者
汪权彬; 谭营;
展开▼
作者单位

北京大学信息科学技术学院北京 100871;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工神经网络计算机;
关键词
自注意力机制; 复制机制; 序列到序列学习; 中文; 语法错误纠正; 神经网络; 文本生成; 通顺度;

相似文献

中文文献
外文文献
专利

1. 基于神经机器翻译的英语语法错误纠正方法分析 [J] . 王蕊 . 自动化技术与应用 . 2021,第008期
2. 基于语法树的程序代码复制检测方法及其评价机制的研究 [J] . 张丽萍 ,刘东升 ,李彦臣 . 内蒙古大学学报：自然科学版 . 2010,第5期
3. 基于改进DCGAN算法的遥感数据集增广方法 [J] . 张曼 ,李杰 ,朱新忠 . 计算机科学 . 2021,第0z1期
4. 基于图像梯度的数据增广方法 [J] . 刘之瑜 ,张淑芬 ,刘洋 . 应用科学学报 . 2021,第002期
5. 基于数据增广训练的深度神经网络方法压制地震多次波 [J] . 王坤喜 ,胡天跃 ,刘小舟 . 地球物理学报 . 2021,第011期
6. 基于Transformer增强架构的中文语法纠错方法 [C] . WANG Chencheng ,王辰成 ,YANG Liner . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于神经机器翻译方法的英语语法错误纠正研究 [A] . 邓俊锋 . 2019

基于数据增广和复制的中文语法错误纠正方法

摘要

著录项

相似文献

相关主题

期刊订阅