首页> 中文学位 >基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现
【6h】

基于ISO/IEC10646藏文编码字符集标准的藏文排序算法设计与实现

代理获取

摘要

藏文排序问题是藏文信息化的重要组成部分之一,也是藏文信息化程度的重要的标志之一,它不仅能够体现藏文信息化的步伐,而且更重要的是它能为人们在日常的文件检索、信息检索和文本排序等各方面提供前所未有的技术支撑。 本文从藏文文字特点出发,通过分析藏文文法规则和各大藏文辞典的基本排序规则,设计了藏文排序算法。该算法主要通过四大模块,即识别基字算法、优先级算法、排序用数字编码串获取算法和快速排序算法等四个模块来实现藏文排序问题。在设计优先级算法过程中,考虑到藏文的复杂性和藏文排序的需要,又将优先级算法分为结构优先级、构件优先级和字符优先级三个模块。由于藏文基本辅音字符具有序性,根据藏文排序的基本原则,创造性地提出了识别基字算法和三种优先级算法。 通过识别基字算法能够从藏文各音节中正确提取基字,实现该音节放在分组排序的相应组中,然后由结构优先级解决各音节中基字相同但结构不同的词语的排序问题;构件优先级算法把结构相同但构件不同的各音节进行排序;字符优先级算法把结构和构件相同但构件元素不同的词语进行排序。因此,不仅解决了藏文排序的根本问题,降低了排序算法的时间复杂度和空间复杂度,而且更使算法具有了较强的生命力。 由于本算法着重考虑其通用性,且考虑到藏文各种短语的音节数量长短不一,同时每一个音节中包含的构件元素产生的比较用数字编码串的位数多达28 位,在多个音节时其数字编码串的位数成倍增长,因此在算法设计过程中限定了音节的最大长度。随着音节数目的增加,数字编码串在存储时出现了新的难题,这是因为32 位计算机不能直接处理超出32 位的数字序列,而本算法的序列长度大大超出该范围。因此,在实现算法时,将原本数字格式的编码串转换为文本格式,使得上述难题迎刃而解。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号