首页> 中文学位 >面向信息处理的藏语同形异音词读音识别技术研究
【6h】

面向信息处理的藏语同形异音词读音识别技术研究

代理获取

目录

第一个书签之前

展开▼

摘要

现代藏语词语,从词的读音方面可分为异形同音词和同形异音词,而从词的意义方面分为同形异义词和异形同义词。其中同形异音词与多音词,同形异义词和多义词在藏语语言学界中具有一定的区别,但这些词汇在形态上具有一定的相似性。在经过语言本身的发展过程中,很多藏语词汇从词的意义和发音上都有很大的变化,这对当前藏语计算语言学的发展和研究带来了很大的困难。 随着藏文信息处理的不断发展和逐步成熟,藏语语音合成方面的研究也开始进入深入研究的高峰期,从而藏语同形异音词的读音问题成为合成系统自然度和可懂度的主要障碍,而到目前为止鲜有对这方面的研究工作和相关报告,仍处于研究初级阶段。同时,藏语同形异音词与汉语中多音词的性质有所不同,仅仅依靠词典不一定能解决藏语同形异音词的歧义问题。因此,本文从藏语本身独有的语言规则和语音特点出发,依据《藏汉大词典》,在其所列出的常用藏语同形异音词的基础上,共收集整理了465个同形异音词,根据同形异音词在28万余句藏语文本中出现频率及不同读音的使用频率,最终挑选180个高频同形异音词作为本文研究中分析的主要对象。 藏语中有不少词具有两种不同的读音,因读音的不同,有的词在语义上有细微的差异,有的词截然不同,这类词很容易引起误读或语义上的误解。本文在分析藏语字和词各种读法的基础上,从语音方面研究了同形异音词产生的原因。首先深度辨析了藏语同形异音词的构词形式、分类以及在藏语文本中出现的形式,系统地研究了当前在藏语TTS系统中同形异音词的根本来源,并探讨了因不同的读法而产生的语义及用法上的差异。根据分析结果,本文最终采用规则与统计建模相结合的方法,在实验条件较为完善的环境下,对180个高频同形异音词进行实验。实验结果证明,结合规则和统计方法的应用能够使系统取长补短,从而可以高效地解决当前在藏语语音合成中同形异音词的读音识别难点,并取得了较好的识别效果。同时根据初始的实验结果,对剩下的285个不常用的同形异音词也进行了分析及测试实验。最终结果表明,该方法在藏语同形异音词读音识别领域具有一定的通用性,为语音合成系统的前端文本分析模块提供了有力依据。对其他藏语语言学理论研究方面也具有一定的借鉴意义。 本文针对当前在藏语语音合成中的一项突出问题,首次展开研究了藏语TTS系统前端文本分析中藏语同形异音词的读音消歧问题,并将基于CRF模型的日本文本分析器Mecab系统首次运用在藏语文本分析中。Mecab系统内部的模块设计清晰、简单,同时藏文和日文具有类似的分词和标注需求,因此Mecab系统对于藏文文本处理来说有着很好的借鉴价值。

著录项

  • 作者

    拉巴顿珠;

  • 作者单位

    西藏大学;

  • 授予单位 西藏大学;
  • 学科 中国少数民族语言文学
  • 授予学位 硕士
  • 导师姓名 欧珠;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    信息处理; 藏语; 同形异音词; 读音;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号