中文文本错误自动校对方法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

Kukich从智能处理技术的角度将英文的文本错误分成两大类：孤立词错误(isolated-worderror)和上下文依赖词错误(context-dependentworderror)。孤立词错误是一些拼写上的错误；上下文依赖的词错误，又称文本错误，本身没有拼写上的问题，即它是个正确的词，但该词不是当前文本所需要的。与孤立词错误校对技术比较，文本错误校对技术更加复杂，因为它涉及到几乎所有自然语言处理技术。汉语的语言特点决定了它只存在上下文依赖错误，文中称为中文文本错误，而没有孤立词错误。本文围绕中文文本错误的自动校对问题进行了深入研究。传统的文本错误由人工进行校对，耗费大量人力、物力、财力，无法适应信息社会的需要。因此，中文文本错误自动校对模型的研究具有广泛的社会应用背景和促进社会进步的实用价值。本文首先讨论了文本校对任务的一般解决方案、常用方法及校对方法的评价标准；通过对实验结果，详尽地分析了校对工作中的关键问题，进而提出本文的基于受限N元文法与权重动态分配的中文错误校对模型的总体框架。其次，本文阐述了基于受限N元文法与权重动态分配的中文错误校对模型之错误检测部分。利用中文文本错误的字词特性及错误检测中的常用方法，提出了基于受限N元文法的文本错误自动检测方法。由于发生错误的字词很可能造成其周边文本的语义断续，该方法首先设定被检测词的局部文本窗口，通过观察被检测词的前项概率和后项概率，寻找局部文本上的语义断点，从而确定可能存在文本错误的可疑文本区间。区分因文本错误造成的数据稀疏同因训练语料规模过小造成的正常数据稀疏是文本校对中的难题，本文采用三种平滑策略来解决，即收缩文本窗口、后延平滑及词聚类平滑。本文还通过大量实验数据分析说明了错误断点阈值对自动检测方法性能的影响。实验显示，该错误检测方法的错误警告准确率高于其他相比较的检测模型。另外，本文还探索了利用词的语义知识对文本错误进行自动检测的方法，分析汉语词的语义氛围，提出词语义支持集的概念，利用语境信息给出词语义节点投票函数，并将词语义节点投票机制运用于文本错误的自动检测，详细讨论了投票阈值对该错误检测方法性能的影响。再次，本文阐述了基于受限N元文法与权重动态分配的中文错误校对模型之错误修正部分。在编辑距离及易混淆集的概念基础上，给出错误字符易混淆集的自动构建方法及中文文本最小编辑距离算法；分析了易混淆集字符的分类特征，进而给出易混淆集中候选字符的权重动态二次分配算法，提出基于字符权重动态自动分配的错误修正策略。通过实验数据，分析了这种权重分配算法的效率及对错误修正策略的影响。在同一开放测试集上，对多个文本错误修正平台进行了测试并比较，数据表明本文的基于字符权重动态自动分配的错误修正策略优于其它相比较的错误修正模型。最后，为降低文本中的专有名词对校对模型性能的干扰，本文讨论了中文人名的构成规律、姓氏用字规律，分析了中文人名存在的上下文环境信息，从而提出校对环境下的统计加规则的中文人名自动识别方法。实验表明该方法可以使人名识别的准确率和召回率达到90％以上，基本满足校对模型的需要。鉴于确定多义词词义对利用语义知识进行文本校对工作的重要性，本文还对Karov的基于相似度转移的多义词词义排岐算法进行了改进，改进后的算法取得了较好的汉语多义词的排岐效果。为验证本文提出的错误检测与修正模型的合理性和可操作性，本文还完成了一个校对模型的验证系统。

著录项

作者
李建华;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机应用技术
授予学位博士
导师姓名王晓龙;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类翻译机;多媒体情报检索系统;
关键词
文本错误; 自动校对; 统计语言模型; N元文法; 编辑距离; 动态权重自动分配;

相似文献

中文文献
外文文献
专利

1. 中文文本敏感信息自动校对方法研究 [J] . 龚永罡 ,汪昕宇 ,李玉莹 . 电脑与电信 . 2018,第012期
2. 一种基于窗口技术的中文文本自动校对方法 [J] . 汪维家 ,陈笑蓉 ,秦进 . 贵州大学学报（自然科学版） . 2003,第002期
3. 面向油田领域的中文真词错误自动校对方法研究 [J] . 王辉 ,Marius.Petrescu ,潘俊辉 . 计算技术与自动化 . 2021,第001期
4. 面向OCR文本识别词错误自动校对方法研究 [J] . 郝亚男 ,乔钢柱 ,谭瑛 . 计算机仿真 . 2020,第009期
5. 中文“非多字词错误”自动校对方法研究 [J] . 刘亮亮 ,曹存根 . 计算机科学 . 2016,第010期
6. 基于持征与学习的中文文本的自动校对方法 [C] . 张磊 ,鲁明羽 ,周明 . 第三届全球智能控制与自动化大会 . 2000
7. 中文文本编辑错误记忆校对方法研究 [A] . 袁妲 . 2013

中文文本错误自动校对方法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅