中文真词错误自动校对方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网和信息处理技术的飞速发展，电子书、电子报纸、电子邮件等电子文本已成为人们日常生活的一部分，同时文本错误也越来越多。中文文本错误分为真词错误和非词错误。其中，真词错误指中文文本中的一个词用错成另一个词，本文主要研究中文真词错误的自动校对方法。目前，研究人员对真词错误只是停留在查错阶段，并且利用的特征相对比较简单，使用的模型也过于单一，查错的准确率和召回率都比较低，误报率特别高。
　　本文通过对真词错误的分析，提出基于真词混淆集、上下文特征泛化、统计模型与搭配相结合的真词错误自动校对方法，具体的研究内容包括：
　　（1）中文文本错误原因和错误类型分析是研究中文文本错误校对的前提，中文文本的错误的类型很多，不同的角度有不同的分类，很多错误都是由于汉字的替换、丢失以及误输入而导致的，本文对中文文本中的错误进行分析和归类；
　　（2）中文文本真词错误识别需要大量的语言学知识、统计学知识等知识和资源，本文对所需资源的表示方法和构建方法进行了研究，其中包括真词混淆集、词N-gram模型、搭配知识库；
　　（3）本文提出一种基于真词混淆集、统计模型、上下文特征泛化和搭配的中文真词错误自动校对方法。该方法不仅考虑了局部上下文特征，还采用不受长距离限制的搭配特征，并且有效缓解了数据稀疏问题。
　　本文提出的基于统计模型、上下文特征泛化、搭配特征的真词错误自动校对方法取得88％的召回率、76%的查错准确率和70%的纠错准确率。本文提出的真词错误自动校对方法不仅有效地对文本中的局部错误和全局错误进行校对，而且是集查错和纠错于一体的方法。

著录项

作者
顾德之;
展开▼
作者单位

江苏科技大学;

展开▼
授予单位江苏科技大学;
学科计算机应用技术
授予学位硕士
导师姓名张再跃;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
中文文本; 真词错误; 混淆集; N-gram模型; 自动校对;

相似文献

中文文献
外文文献
专利

1. 面向油田领域的中文真词错误自动校对方法研究 [J] . 王辉 ,Marius.Petrescu ,潘俊辉 . 计算技术与自动化 . 2021,第001期
2. 基于局部上下文特征的组合的中文真词错误自动校对研究 [J] . 刘亮亮 ,曹存根 . 计算机科学 . 2016,第12期
3. 中文“非多字词错误”自动校对方法研究 [J] . 刘亮亮 ,曹存根 . 计算机科学 . 2016,第010期
4. 面向OCR文本识别词错误自动校对方法研究 [J] . 郝亚男 ,乔钢柱 ,谭瑛 . 计算机仿真 . 2020,第009期
5. 中文文本自动校对中的语法错误检查 [J] . 龚小谨 ,罗振声 ,骆卫华 . 计算机工程与应用 . 2003,第008期
6. 基于上下文的真词错误检查及校对方法 [C] . 陆玉清 ,洪宇 ,陆军 . 第六届全国信息检索学术会议 . 2010
7. 中文文本真词错误自动校对算法研究 [A] . 王璐 . 2018

中文真词错误自动校对方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅