首页> 中文学位 >蒙古文变形显现字符到名义字符转换的研究与实现
【6h】

蒙古文变形显现字符到名义字符转换的研究与实现

代理获取

目录

文摘

英文文摘

图表目录

第一章 绪论

1.1 研究背景及意义

1.2 蒙文编码转换研究概况及现状

1.3 研究内容及面临的困难

1.4 论文结构

第二章 蒙古文字及其编码概述

2.1 蒙古文字发展简介

2.2 蒙古文正字法

2.2.1 语音和谐规则

2.2.2 连接元音书写规则..

2.2.3 音节

2.3 蒙古语词法

2.3.1 蒙古语词和词的结构

2.3.2 蒙古语词类

2.4 蒙古文编码概述

2.4.1 名义字符编码方案

2.4.2 变形显现字符编码方案

2.4.3 准名义字符编码方案

第三章 理论基础

3.1 蒙古文变形显现字符到名义字符转换需解决的关键技术问题

3.1.1 形同音异词的转换问题

3.1.2 蒙古文动词转换的问题

3.1.3 未登录词转换的问题

3.2 蒙古文变形显现字符到名义字符转换的基本方法

3.2.1 基于词典的转换方法[14]

3.2.2 基于规则的转换方法

3.2.3 统计语言模型

3.2.4 字符串匹配[15][16][17]

3.3 最小字素编码[10][14]

第四章 蒙古文变形显现字符到名义字符转换算法设计与实现

4.1 本文要解决的问题

4.2 蒙古文各种显现字符编码方案到最小字素编码的转换

4.3 基于词典的方法实现最小字素编码到名义字符编码的转换

4.3.1 词典的设计

4.3.2 基于词典实现蒙古文最小字素到名义字符编码的转换算法

4.4 蒙古文动词的显现字符编码到名义字符编码的转换

4.4.1 词干词缀切分规则

4.4.2 词干词缀连接规则

4.4.3 动词词干词缀切分算法

4.5 蒙古文显现字符编码到名义字符编码转换语言模型

4.5.1 建立语言模型的需求

4.5.2 蒙古文编码转换语言模型的设计

4.5.3 模型学习算法设计

4.5.4 编码转换算法设计

第五章 实验结果与分析

5.1 语料库

5.2 评价标准

5.3 各种显现编码转成最小字素编码

5.4 从最小字素到名义字符编码的转换

第六章 总结与展望

6.1 论文总结

6.2 后续的研究工作

参考文献

致谢

攻读硕士学位期间发表的学术论文

展开▼

摘要

随着计算机应用技术研究的深入发展,蒙古文信息处理技术也得到了迅速地发展。我国从上世纪70年代末就开始了蒙古文信息处理的研究工作,研究的重点主要集中在蒙古文文字处理方面,文字编码、显示通常是按照字形设计的。但是,蒙古文特有的“同形异音”、“同音异形”现象,使得仅按字形设计的编码方案,已经不能满足蒙古文信息处理更深入的研究。
   2000年制定的ISO/IEC10646国际标准编码体系中定义了蒙古文国际标准编码字符集,该字符集定义了35个蒙古文基本字母,也称蒙古文名义字符。名义字符编码方案既考虑了蒙古文字母的读音也考虑了其字形。这种编码方案符合了蒙古文字是拼音文字的特点,并有利于蒙古文信息处理的国际化、标准化。
   在实际应用中,蒙古文是用名义字符的变形显现字符表示的。由于早期研究时,蒙古文变形显现字符的编码不统一或录入人员按字形来录入文字,使得现有的蒙古文电子版文档资料中存在大量的拼写错误,主要表现在错误单词与正确单词的字形相同,但计算机内部编码不同,用不同蒙古文文字处理系统得到的文档,无法实现信息的直接交换与共享。将用变形显现字符表示的蒙古文字转换成用正确的名义字符表示,实现蒙古文信息存储的标准化,已成为蒙古文信息处理研究的关键基础性技术问题。
   本文使用规则、词典和统计相结合的方法完成了蒙古文字由变形显现字符表示到用名义字符表示的转换工作。由于不同蒙古文信息处理系统的变形显现字符编码方案之间存在差异,本文引用了最小字素编码作为中间编码进行统一转换。本文主要完成的工作分为两个部分:首先研究各种蒙古文变形显现字符编码到最小字素编码之间的转换关系,根据转换关系表将不同编码系统的蒙古文变形显现字符编码统一转换成最小字素编码;其次,采用基于蒙古文正字法词典对照的方法、动词词干词缀切分分别转换的方法、基于统计语言模型的方法综合实现最小字素编码到名义字符编码的转换,实验结果表明,综合运用以上方法提高了转换的正确率,取得了较好的转换效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号