首页> 中文学位 >中文文本自动查错研究
【6h】

中文文本自动查错研究

代理获取

摘要

科学及技术的发展使得人类已经步入了信息化的时代,人们也越来越强烈地希望用自然语言同计算机交流,自然语言的处理已经成为阻碍信息化发展的首要瓶颈问题。中文文本自动校对在自然语言处理领域中处于应用技术研究这一层次,在电子出版业、文本编辑、机器翻译、语言学习、文本识别、语音输入等领域有着非常广泛的应用。
   中文自动校对包含自动查错和自动纠错两个环节。由于纠错是在查错的基础上进行的下一步操作,因此,中文文本的自动查错方法研究更加紧迫。本文在对目前国内的自动查错技术进行深入研究和分析的基础上,提出了对字词级错误进行检查的一种混合方法,并且在技术实现上进行了有益的尝试。具体地说,本文主要的研究内容有以下几点:
   基于对待处理文本采用字词级查错处理就能侦测出绝大多数错误这一事实,在早期查错方法的基础上,提出了一种统计和模式匹配相结合的方法。在大规模现代汉语语料库以及易混淆词词典的支持下,利用字词和词性的二元接续关系以及模式匹配的方法对文本进行检查。本文并非将基于词和词性二元接续关系的方法和模式匹配的查错方法进行简单的串联,而是采取了一定的策略,试图提高查错的性能。同时该方法将查错与纠错结合在一起,在查错的同时便可实现纠错功能。
   研究了文本自动查错前的预处理工作,包括查错知识库和纠错知识库的建立与更新维护,以及对文本进行分词和词性标注等。最后引入基于层叠隐马尔科夫模型的汉语词法分析系统ICTCLAS,利用其提供的接口实现中文分词和词性标注。
   对于中文文本纠错部分,通过构造的易混淆词词典,利用模式匹配的方法对一部分常见错误给出纠错建议,这些纠错建议的可信度为最高值。
   最后设计实现了中文文本自动查错系统(Automatic Errors Detecting System ofChinese Texts,AEDSCT)对提出的查错和纠错方法进行评估。实验结果表明,在半封闭测试中,本文提出的统计与模式匹配相结合的方法是行之有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号