VAE-SPACE: 音声F0 パターンの深層生成モデル

机译：VAE-SPACE：语音F0模式的深度生成模型

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

基本周波数（F_0）パターンは，言語・非言語情報rnと深い関係がある. 例えば，話者は，発話文の語尾のrnF_0 パターンを変化させることで疑問文を表現し，F_0rnパターンのダイナミクスを変化させることで意図やrn感情を表現する. また，歌声においても，メロディやrn情感，個人性を表現するために，歌唱者はF0 パターrnンを変化させる. F_0 パターン生成過程のモデル化は，rn表現豊かな音声・歌声合成や対話システム，話者・感rn情認識などの実現に極めて有効である.rn話し声のF_0 パターン生成過程のモデルとしては，rn喉頭による声帯の制御機構を模擬した物理モデル（通rn称「藤崎モデル」）とそのパラメータを統計的手rn法により推定することを可能にする藤崎モデルの確rn率モデル版が提案されている．藤崎モデルは歌声rnには当てはまらない仮定をいくつか置くため，そのまrnまの形では歌声のF_0 パターンに適用することはできrnないが，藤崎モデルを歌声の特徴に合わせて適応したrnいわば藤崎モデルの歌声版も提案されている．rnこれらのモデルでは，F_0 パターンを直感的かつ解釈rn可能な生成過程パラメータ（藤崎モデルではフレーrnズ成分やアクセント成分，歌声モデルでは楽譜情報まrnたはメロディ成分や表現成分に相当）により記述し，rn所与のF_0 パターンからこれらを推定することで話しrn声や歌声の特徴を保持したまま自由にF_0 パターンをrn加工したり変換したりすることを可能とする．しかrnし，これらのモデルで共通する問題として，それぞれrn話し声（特定の発話スタイルや言語）や歌声（特定のrn歌唱スタイル）に特化したモデルとなっている点とパrnラメータ推定のために計算コストの高い反復アルゴrnリズムを要する点が挙げられ，これらが用途を限定rn的にしている．rn本稿では，深層生成モデルに基づき，音声・歌声にrn特化しないF_0 パターンの普遍的な生成過程モデルとrnその内部パラメータを高速かつ高精度に推定するアrnルゴリズムとを学習により同時に発見することを可rn能にする方法論を提案する．

机译：基本频率（F_0）模式与语言和非语言信息rn密切相关，例如，说话者通过更改发声句子结尾处的rnF_0模式来表达疑问句，并改变F_0rn模式的动态性。歌手通过改变F0模式rn来表达歌声中的旋律，情感和个性，F_0模式生成过程的建模如下。它对于实现具有丰富表情的语音/唱歌语音合成，对话系统以及说话者/感觉情感识别极为有效，作为语音的F_0模式生成过程的模型，模拟了喉部的声带控制机制。已经提出了Fujisaki模型的可能率模型版本，该模型允许通过统计手册方法来估计物理模型（通常称为“ Fujisaki模型”）及其参数。由于Fujisaki模型做出了一些不适用于歌声rn的假设，因此无法以这种形式应用于歌声的F_0模式，但是Fujisaki模型适应了歌声的特性。还提出了藤崎模型的歌声版本。在这些模型中，以直观且可解释的rn生成过程参数（对应于Fujisaki模型中的Frarns分量和重音分量，乐谱信息或歌声模型中的旋律分量和表情分量）描述了F_0模式。但是，通过从给定的F_0模式估计它们，可以在保留口语或歌唱声音特征的同时，自由处理或变换F_0模式。但是，这些模型的共同问题是它们分别是专用于言语（特定的发声风格和语言）和演唱声音（特定的演唱风格）的模型。有一点是，需要计算上昂贵的迭代算法，这使得应用受到限制。本文在深层生成模型的基础上，通过学习，同时找到了一种通用的F_0模式生成过程模型，该模型不是专用于语音和歌唱语音的算法，而是一种可以高速，高精度地估计其内部参数的算法。我们提出一种使事情成为可能的方法。

著录项

来源
《日本音響学会2018年春季研究発表会講演論文集》|2018年|229-230|共2页
会议地点 1340-3168
作者
田中宏; 亀岡弘和; 森川一穂;
展开▼
作者单位

NTT;

NTT;

名大;

展开▼
会议组织
原文格式 PDF
正文语种 jpn
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. HMM音声合成における分散共有フルコンテキストモデルによるF0パターン生成 [J] . 高道慎之介, 戸田　智基, 志賀　芳則, 電子情報通信学会技術研究報告 . 2013,第422期

机译：HMM语音合成中的分布式共享全上下文模型生成F0模式
2. HMM音声合成における分散共有フルコンテキストモデルによるF0パターン生成 [J] . 高道慎之介, 戸田智基, 志賀芳則, 電子情報通信学会技術研究報告. 音声. Speech . 2012,第422期

机译：HMM语音合成中的分布式共享全上下文模型生成F0模式
3. HMM音声合成における分散共有フルコンテキストモデルによるF0パターン生成 [J] . 高道慎之介, 戸田智基, 志賀芳則, 電子情報通信学会技術研究報告. 音声. Speech . 2012,第422期

机译：F0模式通过色散生成在肝脏语音合成中共享完整的上下文模型
4. VAE-SPACE: 音声F0 パターンの深層生成モデル [C] . 田中宏, 亀岡弘和, 森川一穂日本音響学会研究発表会 . 2018

机译：vae-space：音频f0图案的深生模型
5. スパイキングニューラルネットワークによる連想記憶モジュールとデジタルコンピュータ間のインターフェース利用統計は来月からご利用いただけます [D] . 豊島尚樹 2019

机译：下个月将提供使用尖峰神经网络的关联存储模块和数字计算机之间的接口使用情况统计信息。
6. パネルトークタブンカシャカイニモトメラレルジンザイトワパネルトークタブンカシャカイニモトメラレルジンザイトワタブンカシャカイコーディネーターヨウセイプログラムソノセンモンセイトリキリョウケイセイノトリクミ [O] . 北脇保之, 小平達也, 佐藤郡衛, 2009

机译：panel Talk Tabunka shakai Nimotome Larre Jinsai Towa panel Talk Tabungka shakai Nimotome Larre Jinzai Towa Tabunka shakai协调员Yosei计划sono senmonsei Rikiyo Keisei No Torikumi

VAE-SPACE: 音声F0 パターンの深層生成モデル

摘要

著录项

相似文献

相关主题

期刊订阅