首页> 中文学位 >中文真词错误自动校对方法研究
【6h】

中文真词错误自动校对方法研究

代理获取

目录

声明

第1章 绪论

1.1 研究背景

1.2 研究意义

1.3 国内外研究现状

1.4 本文主要工作

1.5 论文结构

第2章 真词错误自动校对相关技术

2.1 词法分析与句法分析技术

2.2 统计模型

2.3本章小结

第3章 真词错误分析与自动校对所需知识获取

3.1 真词错误分析与归类

3.2 所需知识与资源

3.3 文本自动校对评估指标

3.4 本章小结

第4章 中文真词错误自动校对方法构建

4.1基于局部特征的N-gram模型的真词错误自动校对方法

4.2 基于上下文特征泛化的真词错误自动校对方法

4.3 基于搭配的真词自动校对方法

4.4 实验与分析

4.5 本章小结

结与展望

参考文献

攻读硕士学位期间发表的论文

致谢

展开▼

摘要

随着互联网和信息处理技术的飞速发展,电子书、电子报纸、电子邮件等电子文本已成为人们日常生活的一部分,同时文本错误也越来越多。中文文本错误分为真词错误和非词错误。其中,真词错误指中文文本中的一个词用错成另一个词,本文主要研究中文真词错误的自动校对方法。目前,研究人员对真词错误只是停留在查错阶段,并且利用的特征相对比较简单,使用的模型也过于单一,查错的准确率和召回率都比较低,误报率特别高。
  本文通过对真词错误的分析,提出基于真词混淆集、上下文特征泛化、统计模型与搭配相结合的真词错误自动校对方法,具体的研究内容包括:
  (1)中文文本错误原因和错误类型分析是研究中文文本错误校对的前提,中文文本的错误的类型很多,不同的角度有不同的分类,很多错误都是由于汉字的替换、丢失以及误输入而导致的,本文对中文文本中的错误进行分析和归类;
  (2)中文文本真词错误识别需要大量的语言学知识、统计学知识等知识和资源,本文对所需资源的表示方法和构建方法进行了研究,其中包括真词混淆集、词N-gram模型、搭配知识库;
  (3)本文提出一种基于真词混淆集、统计模型、上下文特征泛化和搭配的中文真词错误自动校对方法。该方法不仅考虑了局部上下文特征,还采用不受长距离限制的搭配特征,并且有效缓解了数据稀疏问题。
  本文提出的基于统计模型、上下文特征泛化、搭配特征的真词错误自动校对方法取得88%的召回率、76%的查错准确率和70%的纠错准确率。本文提出的真词错误自动校对方法不仅有效地对文本中的局部错误和全局错误进行校对,而且是集查错和纠错于一体的方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号