首页> 中文学位 >语音变调算法研究及其在语音合成中的作用
【6h】

语音变调算法研究及其在语音合成中的作用

代理获取

摘要

随着信息技术和多媒体技术的发展,普通的音视频素材已经不能满足人们生产活动和娱乐生活的需求。应运而生的语音变调技术,是在保持音频文件播放速度不变的前提下,按照某种算法对说话人的音调进行调整,从而实现音调的升高或降低,而语音音调的不同主要是由基音频率和共振峰频率来决定,因此音调的改变可以通过改变原始语音信号的基音频率和共振峰频率来实现。目前存在的语音变调方法都还不是很完善,还存在着各种各样的缺点。
   语音合成技术是随着人们对人机交互提出要求而发展起来的一种语音信号处理技术,是将计算机输出的或人为输入的一些非语音信息如文字、数字、标点符号等转换为清晰自然可懂的语音输出,这种技术又称为文语转换技术(简称TTS)。较早的文语转换系统在合成模块一般采用参数合成法,其中共振峰合成法和LPC合成法应用较多。对参数合成法的研究起步比较早,所以参数合成法已具有相对成熟的理论基础,而且实现起来较简单,但实际合成的连续语音不自然,有明显的机器腔。二十世纪九十年代初,基音同步叠加技术的研究开始兴起,并成功运用到了TTS系统中。基音同步叠加(PSOLA)技术不同于简单的波形拼接技术,它在对语音基元拼接的时候,首先对音频文件分析得到基音标注,然后以基音周期为单位对拼接单元的基频、音长和音强等韵律特征做出适合的调整,在不改变原始语音基元音质的基础上,灵活地改变语音的韵律特征。本文通过分析研究现有语音合成方法存在的优缺点,在PSOLA算法的基础上,提出了一种时长和基频分步处理的语音合成方法,并通过实验证实了其有效性。
   本文主要工作如下:
   1、对现有变调方法作了分类分析,主要分析了3种典型方法的变调原理和特点,即时域同步叠加固定合成法(SOLA-FS)、频域插值法和相位声码器法,并通过分析研究指出了它们的优缺点。然后在SOLA-FS算法的基础上,提出了一种改进的基于SOLA-FS的变调方法,仿真实验发现该变调方法不仅能在保持音频播放时间不变的前提下改变音调,而且降低了算法复杂度,并在一定程度上减少了噪音,并给出了改进前后运行时间的比较,以及改进前后对应的语谱图。实验发现改进的SOLA-FS方法在自然度上的优势明显优于其他变调方法,然后给出了三种不同变调算法下变调结果的主观测听对比。结果表明:不论对语音音调的升高还是降低,在相同变调系数下,改进的SOLA-FS方法均具有最好的变调效果。
   2、将改进的SOLA-FS变调方法与波形拼接技术相结合,提出了一种音高、时长分步处理的语音韵律拼接合成方法,既保持了语音拼接单元的清晰度和自然度,也在一定程度上提高了合成语音的韵律修改能力。文中给出了在不同的音高调整参数下,传统的TD-PSOLA方法与时频分步合成法在基频修改时所对应的合成语音的时域图和基频轨迹图,并在最后给出了算法复杂度的比较。实验证明,传统的TD-PSLOA方法在音高修改时,其合成语音对应的基频轨迹的包络与语音样本的基频包络有较大出入,尤其是当基频修改幅度较大时,会造成叠加单元的混叠或遗漏,从而影响合成语音的效果。而时频分步法在音高修改时,其合成语音对应的基频包络相对语音样本基本不变,而且当音高变化幅度较大时仍能达到较好的语音合成效果。但是,本文提出的合成方法在时间复杂度上会增加,但随着计算机技术和数据存储技术的发展,算法的复杂度将不会是一个大问题。论文最后对所做的全部工作进行了总结,并给出了论文中存在的不足和下一步要研究的方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号