首页> 中文会议>第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 >CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战.现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练.本文提出一种基于预训练语言模型的错别字纠正方法,CPLM-CSC,能够显著地提高纠错性能.CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正.为了提高纠正性能,CPLM-CSC采用音近形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如:“的地得”误用,采取了专门的数据增强方法.CPLM-CSC在SIGHAN2015的评测数据集上进行了测试,并取得了0.654的F1值,性能优于其他模型.

著录项

来源
《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》|2018年|1-10|共10页
会议地点北京
作者
Haihua XIE; 谢海华; Aolin LI; 李奥林; Yabo LI; 李亚博; Zhiyou CHEN; 陈志优; Jing CHENG; 程静;
展开▼
作者单位

教育部华中师范大学;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类文字信息处理;
关键词
中文错别字; 自动纠正; 单字级别; 预训练语言模型; 掩字方式;
入库时间 2022-08-17 11:32:31

相似文献

中文文献
外文文献
专利

1. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [J] . 谢海华 ,李奥林 ,李亚博 . 中文信息学报 . 2021,第005期
2. 基于预训练语言模型的中文零指代消解 [J] . 申资卓 . 信息通信 . 2020,第005期
3. 预训练语言模型在中文电子病历命名实体识别上的应用 [J] . 吴小雪 ,张庆辉 . 电子质量 . 2020,第009期
4. 基于跨语种预训练语言模型XLM-R的神经机器翻译方法 [J] . 王倩 ,李茂西 ,吴水秀 . 北京大学学报:自然科学版 . 2022,第1期
5. 基于多语言预训练语言模型的译文质量估计方法 [J] . 陆金梁 ,张家俊 . 厦门大学学报（自然科学版） . 2020,第002期
6. 一种自适应概率语言模型的训练方法及其应用于中文分词 [C] . 徐志明 ,揭春雨 ,Jonathan Webster . 全国第七届计算语言学联合学术会议 . 2003
7. 基于预训练语言模型的中文短文本分类研究 [A] . 夏梓渊 . 2021

CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

摘要

著录项

相似文献

相关主题

期刊订阅