首页> 外文会议>日本音響学会2018年春季研究発表会講演論文集 >VAE-SPACE: 音声F0 パターンの深層生成モデル
【24h】

VAE-SPACE: 音声F0 パターンの深層生成モデル

机译:VAE-SPACE:语音F0模式的深度生成模型

获取原文
获取原文并翻译 | 示例

摘要

基本周波数(F_0)パターンは,言語・非言語情報rnと深い関係がある. 例えば,話者は,発話文の語尾のrnF_0 パターンを変化させることで疑問文を表現し,F_0rnパターンのダイナミクスを変化させることで意図やrn感情を表現する. また,歌声においても,メロディやrn情感,個人性を表現するために,歌唱者はF0 パターrnンを変化させる. F_0 パターン生成過程のモデル化は,rn表現豊かな音声・歌声合成や対話システム,話者・感rn情認識などの実現に極めて有効である.rn話し声のF_0 パターン生成過程のモデルとしては,rn喉頭による声帯の制御機構を模擬した物理モデル(通rn称「藤崎モデル」) とそのパラメータを統計的手rn法により推定することを可能にする藤崎モデルの確rn率モデル版 が提案されている.藤崎モデルは歌声rnには当てはまらない仮定をいくつか置くため,そのまrnまの形では歌声のF_0 パターンに適用することはできrnないが,藤崎モデルを歌声の特徴に合わせて適応したrnいわば藤崎モデルの歌声版も提案されている.rnこれらのモデルでは,F_0 パターンを直感的かつ解釈rn可能な生成過程パラメータ(藤崎モデルではフレーrnズ成分やアクセント成分,歌声モデルでは楽譜情報まrnたはメロディ成分や表現成分に相当)により記述し,rn所与のF_0 パターンからこれらを推定することで話しrn声や歌声の特徴を保持したまま自由にF_0 パターンをrn加工したり変換したりすることを可能とする.しかrnし,これらのモデルで共通する問題として,それぞれrn話し声(特定の発話スタイルや言語)や歌声(特定のrn歌唱スタイル)に特化したモデルとなっている点とパrnラメータ推定のために計算コストの高い反復アルゴrnリズムを要する点が挙げられ,これらが用途を限定rn的にしている.rn本稿では,深層生成モデルに基づき,音声・歌声にrn特化しないF_0 パターンの普遍的な生成過程モデルとrnその内部パラメータを高速かつ高精度に推定するアrnルゴリズムとを学習により同時に発見することを可rn能にする方法論を提案する.
机译:基本频率(F_0)模式与语言和非语言信息rn密切相关,例如,说话者通过更改发声句子结尾处的rnF_0模式来表达疑问句,并改变F_0rn模式的动态性。歌手通过改变F0模式rn来表达歌声中的旋律,情感和个性,F_0模式生成过程的建模如下。它对于实现具有丰富表情的语音/唱歌语音合成,对话系统以及说话者/感觉情感识别极为有效,作为语音的F_0模式生成过程的模型,模拟了喉部的声带控制机制。已经提出了Fujisaki模型的可能率模型版本,该模型允许通过统计手册方法来估计物理模型(通常称为“ Fujisaki模型”)及其参数。由于Fujisaki模型做出了一些不适用于歌声rn的假设,因此无法以这种形式应用于歌声的F_0模式,但是Fujisaki模型适应了歌声的特性。还提出了藤崎模型的歌声版本。在这些模型中,以直观且可解释的rn生成过程参数(对应于Fujisaki模型中的Frarns分量和重音分量,乐谱信息或歌声模型中的旋律分量和表情分量)描述了F_0模式。但是,通过从给定的F_0模式估计它们,可以在保留口语或歌唱声音特征的同时,自由处理或变换F_0模式。但是,这些模型的共同问题是它们分别是专用于言语(特定的发声风格和语言)和演唱声音(特定的演唱风格)的模型。有一点是,需要计算上昂贵的迭代算法,这使得应用受到限制。本文在深层生成模型的基础上,通过学习,同时找到了一种通用的F_0模式生成过程模型,该模型不是专用于语音和歌唱语音的算法,而是一种可以高速,高精度地估计其内部参数的算法。我们提出一种使事情成为可能的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号