首页> 中文学位 >基于蒙古文音节分析的文本校对方法研究
【6h】

基于蒙古文音节分析的文本校对方法研究

代理获取

目录

声明

第一章绪论

1.1课题研究的背景及意义

1.2国内外研究现状

1.3本文的主要内容及创新点

1.4 论文的组织框架

第二章 蒙古文文本自动校对的理论基础

2.1蒙古文介绍

2.2蒙古文字母和编码

2.3 蒙古文文本自动校对的定义与分类

2.4蒙古文文本错误统计

第三章 模型及方法介绍

3.1马尔可夫过程与马尔可夫链

3.2 N元模型

3.3文本相似度与标准化

3.4维特比算法

3.5数据平滑算法与困惑度

第四章 蒙古文文本混淆集的构建

4.1蒙古文音节切分

4.2蒙古文音节混淆集的构建

4.3蒙古文真词混淆集的构建

4.4蒙古文融合统计特征的音节混淆字典的建立

第五章 蒙古文语料和规则

5.1蒙古文语料来源

5.2蒙古文音节特征

5.3蒙古文构词规则

第六章 蒙古文文本自动校对方法实现

6.1基于N元模型蒙古文真词错误自动校对方法

6.2基于音节分析融合统计特征的蒙古文非词错误自动校对方法

6.3 融合上下文语境的蒙古文真词错误校对方法

6.4基于音节统计,规则分析的蒙古文文本自动校正方法

6.5 实验结果与分析

第七章 总结与展望

7.1论文工作总结

7.2论文工作展望

参考文献

致谢

攻读硕士期间发表的论文

展开▼

摘要

文本校对是蒙古文自然语言处理的基础工作之一,文本校对工作的推进将直接影响到蒙古文信息处理工作的有序开展。为了解决传统蒙古文使用过程中存在的文本错误问题,本文提出了以音节分析为基础,融合统计特征和蒙古文构词规则的方法,并利用混淆集实现了蒙古文文本的自动校对。本文在蒙古文音节的基础上进行了文本校对的相关研究。 首先,本文通过对蒙古文音节切分建立了音节混淆集,并实现了蒙古文真词混淆集的自动生成,然后利用人工补充完善混淆集。在此基础上,本文利用网络爬虫获取相关网络语料,建立了单词级语言模型,实现了蒙古文的真词错误的文本校对。 其次,本文在音节的基础上,结合蒙古文构词规则和音节语言模型实现了蒙古文的查错过程,然后利用融合统计特征的音节混淆字典和混淆音节的归一化概率实现了蒙古文的非词错误的校对过程。在蒙古文单词的单字符增减替换方面,相比于基于中间码的校正系统,本文所提出的方法各方面的性能都有所提升。 最后,本文利用融合蒙古文文本的上下文语境的方法改善了蒙古文真词错误的校对算法,然后,通过联合本文的校对方法实现了对蒙古文的非词错误与真词错误的校正。 本文利用蒙古文音节的特点建立音节与真词混淆集实现了对蒙古文非词错误与真词错误的查错与纠错。本实验在取得了不错的效果的同时,也为蒙古文的文本校对提供了新思路。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号