中文文本真词错误自动校对算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本校对是出版工作的关键环节，在信息检索、光学字符识别和语音识别等领域有着广泛的应用。随着信息技术和出版业电子化发展，传统人工校对的方式已无法适应迅速增长的电子文本数量。中文真词错误指一个词虽然存在于词典中但不符合上下文语境。目前传统的真词错误自动校对算法主要依据局部上下文特征，没有很好的利用词与词间的关系。近两年，有学者提出基于深度学习seq2seq算法进行文本校对，该算法的优点是可以利用词向量和LSTM，通过长短距离词的语义对目标词进行校对。但由于文本校对过程中完全通过上下文词向量判断，输入输出都是序列，不可控性较强，可能会输出一些语义奇怪且无法解释的句子。首先，本文改进了传统的基于统计模型的校对算法，提出了以混淆集和N-gram语言模型为基础的CS-N-gram文本校对算法。其次，本文借鉴传统的校对算法和序列标注算法，提出了一种基于混淆集和序列标注的CS-BiLSTM-CRF文本校对算法，既引入上下文词向量对目标词进行校对，又通过混淆集对算法进行一些限制。实验结果表明，CS-BiLSTM-CRF算法与CS-N-gram算法相比，取得了更高的校对召回率和准确率。同时，本文根据错误的成因，对CS-N-gram算法的错误进行归纳，分析CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点。CS-BiLSTM-CRF算法能在邻接词未登入情况下对目标词进行校对，有效解决CS-N-gram算法最为棘手的问题，同时能结合长距离词语义进行更好的校对。但在一些可以直接通过局部上下文进行校对的情况下，由于词向量包含了多个维度的信息，导致在部分语义的判断上会有一些误差，CS-BiLSTM-CRF算法效果略逊于CS-N-gram算法。通过对CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点进行分析，本文提出了一种自动校对混合算法。该混合算法在未使用外部语料，不添加规则词典等人工干预措施的前提下，整体校对效果与单一算法相比有较大的提升，且该算法通用性较强，可直接应用于不同语料的真词错误自动校对，对中文真词错误自动校对研究有较大的意义。

著录项

作者
王璐;
展开▼
作者单位

浙江工商大学;

展开▼
授予单位浙江工商大学;
学科应用统计学
授予学位硕士
导师姓名顾文涛;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;自动化基础理论;
关键词
中文文本; 自动校对;

相似文献

中文文献
外文文献
专利

1. 面向油田领域的中文真词错误自动校对方法研究 [J] . 王辉 ,Marius.Petrescu ,潘俊辉 . 计算技术与自动化 . 2021,第001期
2. 基于局部上下文特征的组合的中文真词错误自动校对研究 [J] . 刘亮亮 ,曹存根 . 计算机科学 . 2016,第12期
3. 中文文本自动校对中的语法错误检查 [J] . 龚小谨 ,罗振声 ,骆卫华 . 计算机工程与应用 . 2003,第008期
4. 面向OCR文本识别词错误自动校对方法研究 [J] . 郝亚男 ,乔钢柱 ,谭瑛 . 计算机仿真 . 2020,第009期
5. 基于上下文的真词错误检查及校对方法 [J] . 陆玉清 ,洪宇 ,陆军 . 中文信息学报 . 2011,第001期
6. 基于上下文的真词错误检查及校对方法 [C] . 陆玉清 ,洪宇 ,陆军 . 第六届全国信息检索学术会议 . 2010
7. 中文真词错误自动校对方法研究 [A] . 顾德之 . 2017

中文文本真词错误自动校对算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅