首页> 外文会议>日本音響学会;日本音響学会秋季研究発表会 >音声信号の中に隠れ状態を仮定したDNNベース音声合成
【24h】

音声信号の中に隠れ状態を仮定したDNNベース音声合成

机译:基于DNN的语音合成假设语音信号中存在隐藏状态

获取原文

摘要

これまで提案されてきた多くのDNN ベースの音声合成モデルは,全フレームの音声特徴量を単一の音響モデルから生成するものであった.それに対して筆者らは音声信号の中に複数の隠れ状態を仮定して,状態ごとに音響モデルを使い分けることにより予測精度が向上するのではないかと考え,その仮説に則った音声合成モデル及びそのモデルの最適化手法を提案した.提案手法について,客観評価指標および主観評価指標を用いて評価を行ったところ,提案手法は対照条件に比べて理想的な数値が得られた.しかし,音声特徴量予測の際の重み推定ネットワークの出力wt を観察すると,ほとんどの場合において一つの成分のみが顕著に大きい値となり,他の成分は顕著に小さい値となっていた.そのため,提案した音声合成モデルが隠れ状態ごとに音響モデルネットワークを使い分けているとは考えづらい.複数の音響モデルネットワークを競合させることにより,勝ち残った一つの予測精度が向上しているのではないかという新たな仮説を考えることができる.
机译:迄今为止,已经提出了许多基于DNN的语音合成模型,这些模型从单个声学模型生成所有帧的语音特征。另一方面,作者认为可以通过假设语音信号中存在多个隐藏状态并对每个状态使用不同的声学模型来提高预测精度。我们提出了一种模型优化方法。当使用客观评价指标和主观评价指标对提出的方法进行评价时,与控制条件相比,提出的方法获得了理想的数值。但是,当在语音特征预测期间观察权重估计网络的输出wt时,在大多数情况下,只有一个分量的值很大,而其他分量的值很小。因此,很难认为所提出的语音合成模型对每个隐藏状态都使用了声学模型网络。通过竞争多个声学模型网络,我们可以想到一个新的假设,即可以改善一个尚存模型的预测精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号