首页> 中文学位 >汉语语音合成系统的改进与实现
【6h】

汉语语音合成系统的改进与实现

代理获取

摘要

语音作为人机交互手段这一趋势已经初见倪端,语音作为人机交互手段包含两个方面:语音合成和语音识别。通常语音合成指的是文本转语音,即把文字按语音处理规则转换为声音并输出。
   一般来说语音合成系统包含三个模块:文本处理模块、韵律处理模块、声音合成模块。文本处理模块处于语音合成系统的前端,其内容有文本分词、非标准词正则化、字音转换。韵律处理模块的主要工作是从文本中提取韵律结构、重音和语调等与韵律有关的信息。声音合成模块是语音合成系统的后端模块,主要工作是合成声音并对其进行修改与输出。
   为了提高汉语语音合成系统合成语音的可懂度以及自然度,本文重点研究了文本处理模块和韵律处理模块,所做具体工作如下:
   (1)分析了语音合成系统的整体框架,理解了系统各个模块的主要作用以及工作原理。鉴于PSOLA在语音合成模块中的重要作用,重点研究了PSOLA的分类以及实现过程,并将它应用到语音合成原型系统中。
   (2)针对文本处理模块做了研究,并对多音字处理方法做了改进与实现。本文一共实现了两种多音字处理方法:一种是静态的依词判音法,一种是动态的词性规则判音法。依词判音法是基于词库匹配的判音法,词性规则判音法是基于C4.5的决策树判音法。
   (3)针对韵律处理模块做了研究,并对韵律结构预测方法做了改进。改进后的韵律结构预测方法用HTK对一定规模标注好的韵律词或韵律短语的词性词长序列进行训练,得到对应的隐马尔科夫模型。然后用训练好的隐马尔科夫模型进行韵律结构预测。在模型训练过程中采用Good Turing法对模型进行参数平滑。
   (4)搭建语音合成原型系统,并对原型系统进行评测。评测数据表明本文工作的确能够帮助提高汉语语音合成系统合成语音的可懂度与自然度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号