...
首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成
【24h】

DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成

机译:基于DNN的文本语音响应,使用FFT光谱进行语音合成

获取原文
获取原文并翻译 | 示例
           

摘要

多くの統計的パラメトリック音声合成システムでは,高品質ボコーダを用い,音声波形を構築する.その際,ソース·フィルタモデルに基づくボコーダが利用されることが多く,言語特徴量からメルケプストラム,FO といった音響特徴量を予測し,ボコーダによる音声波形生成が行われる.しかし,ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており、これまで様々な研究が報告されている.しかし,ソース·フィルタモデルに基づいている限り,この問題を完全に解決することは容易ではない.そこで本研究では,ボコーダを用いない音声合成システム構築することを考える.具体的には、統計的パラメトリック音声合成において,振幅スペクトルからの位相復元,逆短時間フーリエ変換,および重加算法(OLA)に基づき波形を生成することについて検討する.今回提案する音声合成の枠組みでは,まず,調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い,次に,予測された振幅スペクトルから Griffin/Lim 法により位相を復元することで,音声波形の生成を行う.主観評価実験により,高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果、提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた.
机译:许多统计参数语音合成系统使用高质量的声码器来构建音频波形。此时,通常使用基于源滤波器模型的声码器,并且预测诸如语言特征量的语音特征量和FO的语音特征量被执行,并且执行声码器的音频波形。然而,使用VOCODER引起的合成语音的自然度丢失始终是一个问题,到目前为止已经报告了各种研究。但是,只要它基于源滤波器模型,就不容易解决这个问题。因此,在本研究中,我们将构建一个不使用声码器的语音合成系统。具体地,在统计参数致辞合成中,认为基于幅度谱,反向短时傅里叶变换和权重附加方法(OLA)产生基于相位恢复的波形。在这次提出的语音合成框架中,由DNN声学模型执行包括谐波结构的幅度频谱的预测,然后通过通过GRIFFIN / LIM方法生成从预测幅度谱恢复相位来进行语音波形。主观评估实验是使用高质量声码器和提出的系统比较DNN语音合成系统的结果,我们确保所提出的方法可以产生合成语音而没有基于Vocoder的烘焙语音特定的出现感。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号