基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

藏文排序问题是藏文信息化的重要组成部分之一，也是藏文信息化程度的重要的标志之一，它不仅能够体现藏文信息化的步伐，而且更重要的是它能为人们在日常的文件检索、信息检索和文本排序等各方面提供前所未有的技术支撑。本文从藏文文字特点出发，通过分析藏文文法规则和各大藏文辞典的基本排序规则，设计了藏文排序算法。该算法主要通过四大模块，即识别基字算法、优先级算法、排序用数字编码串获取算法和快速排序算法等四个模块来实现藏文排序问题。在设计优先级算法过程中，考虑到藏文的复杂性和藏文排序的需要，又将优先级算法分为结构优先级、构件优先级和字符优先级三个模块。由于藏文基本辅音字符具有序性，根据藏文排序的基本原则，创造性地提出了识别基字算法和三种优先级算法。通过识别基字算法能够从藏文各音节中正确提取基字，实现该音节放在分组排序的相应组中，然后由结构优先级解决各音节中基字相同但结构不同的词语的排序问题；构件优先级算法把结构相同但构件不同的各音节进行排序；字符优先级算法把结构和构件相同但构件元素不同的词语进行排序。因此，不仅解决了藏文排序的根本问题，降低了排序算法的时间复杂度和空间复杂度，而且更使算法具有了较强的生命力。由于本算法着重考虑其通用性，且考虑到藏文各种短语的音节数量长短不一，同时每一个音节中包含的构件元素产生的比较用数字编码串的位数多达28 位，在多个音节时其数字编码串的位数成倍增长，因此在算法设计过程中限定了音节的最大长度。随着音节数目的增加，数字编码串在存储时出现了新的难题，这是因为32 位计算机不能直接处理超出32 位的数字序列，而本算法的序列长度大大超出该范围。因此，在实现算法时，将原本数字格式的编码串转换为文本格式，使得上述难题迎刃而解。

著录项

作者
边巴旺堆;
展开▼
作者单位

西藏大学;

展开▼
授予单位西藏大学;
学科中国少数民族语言文学
授予学位硕士
导师姓名欧珠;
年度 2009
页码
总页数
原文格式 PDF
正文语种中文
中图分类藏语;文字信息处理;
关键词
藏文排序; 编码字符集; 文法规则; 识别基字算法; 字符优先级; 算法设计;

相似文献

中文文献
外文文献
专利

1. 基于ISO/IEC10646标准的藏文操作系统若干问题研究 [J] . 芮建武 ,吴健 ,孙玉芳 . 中文信息学报 . 2005,第005期
2. 一种基于《信息交换用藏文编码字符集》国际、国家标准的藏文Windows平台的实现方案 [J] . 尼玛扎西 ,拥错 ,次仁罗布 . 西藏大学学报（社会科学版） . 2001,第001期
3. 基于ISO/IEC 10646标准的藏文编码转换的设计与实现 [J] . 张青 ,黄鹤鸣 ,章登义 . 中文信息学报 . 2009,第004期
4. 藏文编码字符集标准应用中的问题及对策 [J] . 龙从军 ,刘汇丹 ,安波 . 信息技术与标准化 . 2016,第001期
5. 基于藏文编码(基本集)国家暨国际标准的藏文输入法研究 [J] . 贺胜 ,卢亚军 . 图书与情报 . 2007,第006期
6. 藏文编码字符集的国家标准讨论 [C] . 于洪志 . 第三届中文信息处理国际会议 . 1992
7. 基于藏文国际编码字符集的输入法研究 [A] . 王正平 . 2008

基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现

摘要

著录项

相似文献

相关主题

期刊订阅