首页> 中文学位 >中文文本错误自动校对方法的研究
【6h】

中文文本错误自动校对方法的研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1研究的目的与意义

1.2中英文文本错误的特点与差异

1.2.1英文文本错误特点

1.2.2中文文本错误特点与差异

1.3文本错误自动校对中存在的困难与问题

1.4文本错误校对的研究与发展综述

1.4.1孤立词错误的校对方法研究

1.4.2文本错误的校对方法研究

1.5文本错误校对中语义知识的研究

1.6本文的主要内容及组织

第2章受限N元文法与权重动态分配的中文校对模型

2.1校对工作中的常用语言模型

2.2错误校对问题的一般解决方案及评价标准

2.3错误校对中的关键问题

2.4错误校对模型提出

2.5受限N元文法与权重动态分配的错误校对模型

2.5.1错误校对模型的总体框架

2.5.2错误校对模型的分析

2.6本章小结

第3章基于受限N元文法的错误检测

3.1问题描述

3.2中文文本错误的字词特性

3.3受限N元文法下的文本错误检测

3.3.1算法的预先设定

3.3.2算法设定的说明

3.3.3受限N元文法的文本错误检测算法

3.4错误检测中的数据平滑策略

3.4.1常用的数据平滑方法

3.4.2收缩文本窗口的平滑策略

3.4.3后延平滑策略

3.4.4词聚类的平滑策略

3.4.5平滑策略的实验结果

3.5平滑后的文本错误检测算法

3.6错误检测的实验结果分析及断点阈值作用的进一步讨论

3.7基于词语义节点的文本错误自动检测方法

3.7.1文本的语境信息及其在错误检测中的应用

3.7.2基于词语义节点投票的错误认定机理

3.7.3词语义节点的错误检测实验结果

3.8本章小结

第4章基于字符权重动态分配的错误修正

4.1错误修正中的语言模型与相关方法

4.1.1错误修正的语言模型

4.1.2错误修正中的常用方法

4.2基于字符权重动态分配的错误修正策略

4.2.1权重分配策略中的问题

4.2.2易混淆集的自动构建

4.2.3最小编辑距离算法

4.3字符权重的动态分配

4.3.1基于词长信息的权重动态分配

4.3.2字符权重系数的实验讨论

4.3.3字符权重的进一步分配

4.4错误修正策略的性能比较

4.5本章小结

第5章校对环境下的其他相关研究与校对模型验证

5.1引言

5.2校对环境下的统计加规则的中文人名自动识别

5.2.1中文人名的构成规律

5.2.2中文人名的上下文环境分析

5.2.3人名识别规则集的构建

5.2.4人名识别的概率识别器

5.2.5实验结果分析

5.3校对中的基于相似度转移的词义排歧模型的改进

5.3.1改进的加权平均排歧算法

5.3.2算法改进前后实验结果的比较与分析

5.4基于受限N元文法及字符权重动态分配的校对模型的验证

5.4.1错误校对模型的验证系统

5.4.2校对模型的语言学知识

5.5本章小结

结论

参考文献

攻读博士学位期间发表的论文

哈尔滨工业大学博士学位论文原创性声明及哈尔滨工业大学博士学位论文使用授权书

致谢

个人简历

展开▼

摘要

Kukich从智能处理技术的角度将英文的文本错误分成两大类:孤立词错误(isolated-worderror)和上下文依赖词错误(context-dependentworderror)。孤立词错误是一些拼写上的错误;上下文依赖的词错误,又称文本错误,本身没有拼写上的问题,即它是个正确的词,但该词不是当前文本所需要的。与孤立词错误校对技术比较,文本错误校对技术更加复杂,因为它涉及到几乎所有自然语言处理技术。汉语的语言特点决定了它只存在上下文依赖错误,文中称为中文文本错误,而没有孤立词错误。本文围绕中文文本错误的自动校对问题进行了深入研究。传统的文本错误由人工进行校对,耗费大量人力、物力、财力,无法适应信息社会的需要。因此,中文文本错误自动校对模型的研究具有广泛的社会应用背景和促进社会进步的实用价值。 本文首先讨论了文本校对任务的一般解决方案、常用方法及校对方法的评价标准;通过对实验结果,详尽地分析了校对工作中的关键问题,进而提出本文的基于受限N元文法与权重动态分配的中文错误校对模型的总体框架。 其次,本文阐述了基于受限N元文法与权重动态分配的中文错误校对模型之错误检测部分。利用中文文本错误的字词特性及错误检测中的常用方法,提出了基于受限N元文法的文本错误自动检测方法。由于发生错误的字词很可能造成其周边文本的语义断续,该方法首先设定被检测词的局部文本窗口,通过观察被检测词的前项概率和后项概率,寻找局部文本上的语义断点,从而确定可能存在文本错误的可疑文本区间。区分因文本错误造成的数据稀疏同因训练语料规模过小造成的正常数据稀疏是文本校对中的难题,本文采用三种平滑策略来解决,即收缩文本窗口、后延平滑及词聚类平滑。本文还通过大量实验数据分析说明了错误断点阈值对自动检测方法性能的影响。实验显示,该错误检测方法的错误警告准确率高于其他相比较的检测模型。另外,本文还探索了利用词的语义知识对文本错误进行自动检测的方法,分析汉语词的语义氛围,提出词语义支持集的概念,利用语境信息给出词语义节点投票函数,并将词语义节点投票机制运用于文本错误的自动检测,详细讨论了投票阈值对该错误检测方法性能的影响。 再次,本文阐述了基于受限N元文法与权重动态分配的中文错误校对模型之错误修正部分。在编辑距离及易混淆集的概念基础上,给出错误字符易混淆集的自动构建方法及中文文本最小编辑距离算法;分析了易混淆集字符的分类特征,进而给出易混淆集中候选字符的权重动态二次分配算法,提出基于字符权重动态自动分配的错误修正策略。通过实验数据,分析了这种权重分配算法的效率及对错误修正策略的影响。在同一开放测试集上,对多个文本错误修正平台进行了测试并比较,数据表明本文的基于字符权重动态自动分配的错误修正策略优于其它相比较的错误修正模型。 最后,为降低文本中的专有名词对校对模型性能的干扰,本文讨论了中文人名的构成规律、姓氏用字规律,分析了中文人名存在的上下文环境信息,从而提出校对环境下的统计加规则的中文人名自动识别方法。实验表明该方法可以使人名识别的准确率和召回率达到90%以上,基本满足校对模型的需要。鉴于确定多义词词义对利用语义知识进行文本校对工作的重要性,本文还对Karov的基于相似度转移的多义词词义排岐算法进行了改进,改进后的算法取得了较好的汉语多义词的排岐效果。为验证本文提出的错误检测与修正模型的合理性和可操作性,本文还完成了一个校对模型的验证系统。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号