首页> 外文会议>日本音響学会研究発表会 >VAE-SPACE: 音声F0 パターンの深層生成モデル
【24h】

VAE-SPACE: 音声F0 パターンの深層生成モデル

机译:vae-space:音频f0图案的深生模型

获取原文

摘要

基本周波数(F_0)パターンは,言語?非言語情報と深い関係がある. 例えば,話者は,発話文の語尾のF_0 パターンを変化させることで疑問文を表現し,F_0パターンのダイナミクスを変化させることで意図や感情を表現する. また,歌声においても,メロディや情感,個人性を表現するために,歌唱者はF0 パターンを変化させる. F_0 パターン生成過程のモデル化は,表現豊かな音声?歌声合成や対話システム,話者?感情認識などの実現に極めて有効である.話し声のF_0 パターン生成過程のモデルとしては,喉頭による声帯の制御機構を模擬した物理モデル(通称「藤崎モデル」) とそのパラメータを統計的手法により推定することを可能にする藤崎モデルの確率モデル版 が提案されている.藤崎モデルは歌声には当てはまらない仮定をいくつか置くため,そのままの形では歌声のF_0 パターンに適用することはできないが,藤崎モデルを歌声の特徴に合わせて適応したいわば藤崎モデルの歌声版も提案されている.これらのモデルでは,F_0 パターンを直感的かつ解釈可能な生成過程パラメータ(藤崎モデルではフレーズ成分やアクセント成分,歌声モデルでは楽譜情報またはメロディ成分や表現成分に相当)により記述し,所与のF_0 パターンからこれらを推定することで話し声や歌声の特徴を保持したまま自由にF_0 パターンを加工したり変換したりすることを可能とする.しかし,これらのモデルで共通する問題として,それぞれ話し声(特定の発話スタイルや言語)や歌声(特定の歌唱スタイル)に特化したモデルとなっている点とパラメータ推定のために計算コストの高い反復アルゴリズムを要する点が挙げられ,これらが用途を限定的にしている.本稿では,深層生成モデルに基づき,音声?歌声に特化しないF_0 パターンの普遍的な生成過程モデルとその内部パラメータを高速かつ高精度に推定するアルゴリズムとを学習により同時に発見することを可能にする方法論を提案する.
机译:基波频率(f_0)模式,语言?非口头信息和深刻的关系。例如,扬声器,结尾的话语它通过更改f_0模式,f_0表示问题句子YA通过改变模式的动态表达情绪。此外,在歌声的声音中,旋律ya情感,为了表达个性,歌手是F0推杆更改下来。生产过程的F_0模式模型,表达声音?唱歌语音合成和对话系统,扬声器? - 敏感实现这种信息识别是非常有效的。语音的模型f_0模式生成过程,模拟喉部用声带控制机制的物理模型(通过统计手提到了“Fujisaki Model”)及其参数制作富士崎模型,使其成为法律估算速率模型版本已提出。富士崎模型唱歌声音把一些不适用的假设放在或它可以应用于唱歌的f_0模式,直到形式不,但适合适合富士崎模型的歌唱声音的特征它也被提出了一个所谓的富士崎模型唱歌语音版。在这些模型中,直观并解释F_0模式可能的形成过程参数(Fujisaki模型中的帧在歌唱语音模型中的组件和重点组件或分数信息另一种是相当于旋律组件和表达组分的相同的,通过从给定的f_0模式估计它们来谈谈自由f_0模式,同时保留语音和唱歌的功能它使其可以或处理或转换。鹿并且,作为这些模型中常见的问题讲语音(特定的口语风格和语言)和歌唱(具体点和已成为歌唱风格的专业化的路径)模型高重复ARGO计算昂贵的参数估计可以提到它需要节奏,限制这些应用程序它是特定的。本文基于深度发电模型,声音?唱歌的声音和不具体的F_0模式的普遍生成过程模型a以快速准确地估计其内部参数是的,可以通过学习和算法同时发现提出一种能力的方法。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号