DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成

高木信二; SangJin Kim; 亀岡弘和; 山岸順一

首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成

【24h】

DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成

机译：基于DNN的文本语音响应，使用FFT光谱进行语音合成

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

多くの統計的パラメトリック音声合成システムでは，高品質ボコーダを用い，音声波形を構築する．その際，ソース·フィルタモデルに基づくボコーダが利用されることが多く，言語特徴量からメルケプストラム，FO といった音響特徴量を予測し，ボコーダによる音声波形生成が行われる．しかし，ボコーダを用いたことに起因する合成音声の自然性の低下が常に問題となっており、これまで様々な研究が報告されている．しかし，ソース·フィルタモデルに基づいている限り，この問題を完全に解決することは容易ではない．そこで本研究では，ボコーダを用いない音声合成システム構築することを考える．具体的には、統計的パラメトリック音声合成において，振幅スペクトルからの位相復元，逆短時間フーリエ変換，および重加算法（OLA）に基づき波形を生成することについて検討する．今回提案する音声合成の枠組みでは，まず，調波構造を含む振幅スペクトルの予測を DNN 音響モデルにより行い，次に，予測された振幅スペクトルから Griffin／Lim 法により位相を復元することで，音声波形の生成を行う．主観評価実験により，高品質ボコーダを用いた DNN 音声合成システムと提案システムの比較を行った結果、提案法ではボコーダに基づく合成音声特有のバジー感が無い合成音声の生成が可能であることを確認できた．

机译：许多统计参数语音合成系统使用高质量的声码器来构建音频波形。此时，通常使用基于源滤波器模型的声码器，并且预测诸如语言特征量的语音特征量和FO的语音特征量被执行，并且执行声码器的音频波形。然而，使用VOCODER引起的合成语音的自然度丢失始终是一个问题，到目前为止已经报告了各种研究。但是，只要它基于源滤波器模型，就不容易解决这个问题。因此，在本研究中，我们将构建一个不使用声码器的语音合成系统。具体地，在统计参数致辞合成中，认为基于幅度谱，反向短时傅里叶变换和权重附加方法（OLA）产生基于相位恢复的波形。在这次提出的语音合成框架中，由DNN声学模型执行包括谐波结构的幅度频谱的预测，然后通过通过GRIFFIN / LIM方法生成从预测幅度谱恢复相位来进行语音波形。主观评估实验是使用高质量声码器和提出的系统比较DNN语音合成系统的结果，我们确保所提出的方法可以产生合成语音而没有基于Vocoder的烘焙语音特定的出现感。

著录项

来源
《電子情報通信学会技術研究報告. 音声. Speech》 |2016年第378期|共6页
作者
高木信二; SangJin Kim; 亀岡弘和; 山岸順一;
展开▼
作者单位

国立情報学研究所;

Naver Labs;

Naver Corporation;

Korea;

日本電信電話株式会社 NTT コミュニケーション科学基礎研究所;

国立情報学研究所;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类电报、传真;
关键词
統計的パラメトリック音声合成; DNN; FFT スペクトル; 位相復元; ボコーダ;

机译：统计参数语音合成;DNN;FFT光谱;相恢复;VOCODA;

相似文献

外文文献
中文文献
专利

1. DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成 [J] . 高木信二, SangJin Kim, 亀岡弘和, 電子情報通信学会技術研究報告. 音声. Speech . 2016,第378期

机译：基于FFT频谱的基于相位恢复的语音波形生成，用于基于DNN的文本语音合成
2. 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出 [J] . 高木信二, 山岸順一電子情報通信学会技術研究報告. 音声. Speech . 2015,第346期

机译：从FFT频谱中基于深度自动编码器的低维声学特征提取进行统计参数语音合成
3. 統計的パラメトリック音声合成のためのFFTスペクトルからのDeep Auto-encoderに基づく低次元音響特徴量抽出 [J] . 高木信二, 山岸順一電子情報通信学会技術研究報告. 音声. Speech . 2015,第346期

机译：基于FFT光谱的深度自动编码器统计参数合成的下尺寸声学特征提取
4. 深層学習に基づく音声合成における2次統計量を用いたスペクトル特徴量のモデリングの検討 [C] . 松永悟行, 大谷大和, 平原達也日本音響学会;日本音響学会研究発表会 . 2019

机译：基于深度学习的语音合成中使用二次统计的频谱特征建模检查
5. 肝機能障害の評価法とその障害機序に関する研究; ヒト肝ミトコンドリアの日内代謝変動に基づく肝機能評価及び動物モデルを用いた肝ミトコンドリア障害機序 [D] . Iwata, Shingo 1993

机译：肝功能障碍评估方法及其机制的研究；基于人肝线粒体每日代谢变化和肝线粒体损伤机制的动物模型对肝功能的评估
6. HEVCの高エネルギー効率VLSIアーキテクチャのための、ブロック併合に基づく動きベクトルの復号と距離バイアスキャッシュによる動き補償に関する研究 [O] . Wang Shihao 2017

机译：HEVC高能效VLSI架构中基于距离偏差缓存的块合并和运动补偿的运动矢量解码研究。

DNN に基づくテキスト音声合成のための FFT スペクトルを用いた位相復元に基づく音声波形生成

摘要

著录项

相似文献

相关主题

期刊订阅