首页> 中文学位 >报纸检校智能处理系统中的中文文本自动校对的设计和实现
【6h】

报纸检校智能处理系统中的中文文本自动校对的设计和实现

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1课题背景

1.2自动校对技术研究现状

1.2.1英文文本自动校对技术

1.2.2中文自动校对的难点

1.2.3中文自动校对技术发展现状

1.2.4技术指标

1.3论文研究内容

1.4论文组织结构

第二章中文自动校对技术原理

2.1中文错误类型分析

2.1.1中文常见错误类型

2.1.2错误类型统计

2.2基于规则的语言模型

2.3基于统计的语言模型

2.3.1统计语言模型概述

2.3.2 N元语法模型

2.3.3二元接续模型

2.4基于统计模型的自动校对技术

2.4.1基于接续次数的校对方法

2.4.2基于互信息的校对方法

2.4.3基于x2统计量检验的校对方法

2.4.4基于t-测试差的校对方法

2.5本章小节

第三章检校智能处理系统的中文自动校对模块设计

3.1系统背景

3.1.1报纸检校智能处理系统简介

3.1.2检校系统中自动校对相关流程描述

3.1.3自动校对系统需求描述

3.2总体设计

3.2.1两种语言模型分析与比较

3.2.2统计和规则相结合的语言模型

3.2.3基于易错词库的校对方法

3.2.4基于错误规则的自动校对方法

3.2.5基于规则的自动校对流程

3.2.6基于二元接续模型的校对算法

3.3系统体系结构

3.4系统工作流程

3.5接口定义

3.6本章小结

第四章检校智能处理系统的中文自动校对实现

4.1报纸检校智能处理系统体系结构

4.2自动校对词库查询及管理、分发

4.2.1基本词库的组织与维护

4.2.2易错词库的组织与维护

4.2.3领导人词库的查询及管理

4.2.4词库智能分发

4.2.5词库更新

4.3中文文本自动校对的实现

4.3.1中文自动分词的实现

4.3.2领导人校对的实现

4.3.3标点符号错误校对的实现

4.3.4用户自定义错误校对的实现

4.3.5自动校对主要模块界面

4.4系统性能测试

4.4.1硬件环境

4.4.2软件环境

4.4.3测试结果

4.5本章小结

结论

参考文献

附录

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

随着我国社会信息化水平的不断加深,新闻出版行业每天需要处理的电子文档数量逐步上升。大型报社每天都有七八十个版面,需要处理的文字信息量达几十万字。另一方面,新闻出版流程中校对工作由于种种原因一直由人工来完成。人工校对越来越成为新闻出版自动化的瓶颈。如何辅助校对人员提高校对的速度与质量,保障报纸的政治生命,对于报业集团具有巨大的直接和间接经济价值。 针对报业的实际需要,本文对目前中文文本自动校对技术、基于统计语言模型的校对技术和基于规则的校对技术进行了研究和分析,并结合这两种自动校对技术的优点,探讨了规则和统计相结合的混合校对方法,并在基于规则的自动校对技术方面,提出了一种引入易错词库的、以错误驱动的反面规则为主,正反比对的规则校对方法,并详细讨论了易错词库和规则库的组织结构、查错方法以及易错词库记录的消重等问题。在基于统计的自动校对技术方面,本文综合采用了各种基于统计模型的校对方法以降低系统的误报率。 在探讨了中文文本的自动校对方法后,针对报纸检校智能处理系统的需要,本文阐述了中文自动校对系统的详细设计方案,并针对各类错误介绍了领导人校对、用户自定义错误校对、敏感词校对和标点符号校对等各种报纸中存在的其它错误类型的校对方法。论文的研究成果,对于新闻出版单位节约成本,延迟截稿时间,增强新闻的时效性以及提高企业竞争力和信息化水平,具有重要意义和使用价值。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号