首页> 中文学位 >中文文本真词错误自动校对算法研究
【6h】

中文文本真词错误自动校对算法研究

代理获取

目录

摘要

第一章绪论

第一节研究背景与研究意义

一、研究背景

二、研究意义

第二节研究现状

一、英文文本自动校对现状

二、中文文本自动校对现状

三、研究难点及现状总结

第三节研究内容及研究框架

一、研究内容

二、研究框架

第四节创新点

第二章相关理论阐述

第一节词法分析

一、分词

二、词性标注

第二节N-gram语言模型

第三节序列标注

一、词向量化

二、长短时记忆循环神经网络

三、条件随机场

第三章数据准备和预处理

第一节中文真词错误分类

一、中文错别字分类

二、中文真词错误分类

第二节数据集介绍

一、实验数据集

二、混淆集

三、训练集和测试集

四、外部数据

第四章中文真词错误自动校对算法

一、基于局部特征的N-gram模型

二、CS-N-gram算法自动校对

第二节基于混淆集和序列标注的自动校对算法

一、BiLSTM-CRF模型

二、CS-BiLSTM-CRF算法自动校对

第三节实验结果分析

一、实验评估指标

二、实验结果

三、算法优缺点分析

第四节实验改进——自动校对混合算法

一、混合算法自动校对

二、相关实验分析

第五节本章小结

第五章总结与展望

第一节总结

第二节展望

参考文献

致谢

声明

展开▼

摘要

文本校对是出版工作的关键环节,在信息检索、光学字符识别和语音识别等领域有着广泛的应用。随着信息技术和出版业电子化发展,传统人工校对的方式已无法适应迅速增长的电子文本数量。 中文真词错误指一个词虽然存在于词典中但不符合上下文语境。目前传统的真词错误自动校对算法主要依据局部上下文特征,没有很好的利用词与词间的关系。近两年,有学者提出基于深度学习seq2seq算法进行文本校对,该算法的优点是可以利用词向量和LSTM,通过长短距离词的语义对目标词进行校对。但由于文本校对过程中完全通过上下文词向量判断,输入输出都是序列,不可控性较强,可能会输出一些语义奇怪且无法解释的句子。 首先,本文改进了传统的基于统计模型的校对算法,提出了以混淆集和N-gram语言模型为基础的CS-N-gram文本校对算法。其次,本文借鉴传统的校对算法和序列标注算法,提出了一种基于混淆集和序列标注的CS-BiLSTM-CRF文本校对算法,既引入上下文词向量对目标词进行校对,又通过混淆集对算法进行一些限制。实验结果表明,CS-BiLSTM-CRF算法与CS-N-gram算法相比,取得了更高的校对召回率和准确率。同时,本文根据错误的成因,对CS-N-gram算法的错误进行归纳,分析CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点。CS-BiLSTM-CRF算法能在邻接词未登入情况下对目标词进行校对,有效解决CS-N-gram算法最为棘手的问题,同时能结合长距离词语义进行更好的校对。但在一些可以直接通过局部上下文进行校对的情况下,由于词向量包含了多个维度的信息,导致在部分语义的判断上会有一些误差,CS-BiLSTM-CRF算法效果略逊于CS-N-gram算法。 通过对CS-N-gram算法和CS-BiLSTM-CRF算法的优缺点进行分析,本文提出了一种自动校对混合算法。该混合算法在未使用外部语料,不添加规则词典等人工干预措施的前提下,整体校对效果与单一算法相比有较大的提升,且该算法通用性较强,可直接应用于不同语料的真词错误自动校对,对中文真词错误自动校对研究有较大的意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号