VAE-SPACE: 音声F0 パターンの深層生成モデル

机译：vae-space：音频f0图案的深生模型

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

基本周波数（F_0）パターンは，言語?非言語情報と深い関係がある. 例えば，話者は，発話文の語尾のF_0 パターンを変化させることで疑問文を表現し，F_0パターンのダイナミクスを変化させることで意図や感情を表現する. また，歌声においても，メロディや情感，個人性を表現するために，歌唱者はF0 パターンを変化させる. F_0 パターン生成過程のモデル化は，表現豊かな音声?歌声合成や対話システム，話者?感情認識などの実現に極めて有効である.話し声のF_0 パターン生成過程のモデルとしては，喉頭による声帯の制御機構を模擬した物理モデル（通称「藤崎モデル」）とそのパラメータを統計的手法により推定することを可能にする藤崎モデルの確率モデル版が提案されている．藤崎モデルは歌声には当てはまらない仮定をいくつか置くため，そのままの形では歌声のF_0 パターンに適用することはできないが，藤崎モデルを歌声の特徴に合わせて適応したいわば藤崎モデルの歌声版も提案されている．これらのモデルでは，F_0 パターンを直感的かつ解釈可能な生成過程パラメータ（藤崎モデルではフレーズ成分やアクセント成分，歌声モデルでは楽譜情報またはメロディ成分や表現成分に相当）により記述し，所与のF_0 パターンからこれらを推定することで話し声や歌声の特徴を保持したまま自由にF_0 パターンを加工したり変換したりすることを可能とする．しかし，これらのモデルで共通する問題として，それぞれ話し声（特定の発話スタイルや言語）や歌声（特定の歌唱スタイル）に特化したモデルとなっている点とパラメータ推定のために計算コストの高い反復アルゴリズムを要する点が挙げられ，これらが用途を限定的にしている．本稿では，深層生成モデルに基づき，音声?歌声に特化しないF_0 パターンの普遍的な生成過程モデルとその内部パラメータを高速かつ高精度に推定するアルゴリズムとを学習により同時に発見することを可能にする方法論を提案する．

机译：基波频率（f_0）模式，语言？非口头信息和深刻的关系。例如，扬声器，结尾的话语它通过更改f_0模式，f_0表示问题句子YA通过改变模式的动态表达情绪。此外，在歌声的声音中，旋律ya情感，为了表达个性，歌手是F0推杆更改下来。生产过程的F_0模式模型，表达声音？唱歌语音合成和对话系统，扬声器？ - 敏感实现这种信息识别是非常有效的。语音的模型f_0模式生成过程，模拟喉部用声带控制机制的物理模型（通过统计手提到了“Fujisaki Model”）及其参数制作富士崎模型，使其成为法律估算速率模型版本已提出。富士崎模型唱歌声音把一些不适用的假设放在或它可以应用于唱歌的f_0模式，直到形式不，但适合适合富士崎模型的歌唱声音的特征它也被提出了一个所谓的富士崎模型唱歌语音版。在这些模型中，直观并解释F_0模式可能的形成过程参数（Fujisaki模型中的帧在歌唱语音模型中的组件和重点组件或分数信息另一种是相当于旋律组件和表达组分的相同的，通过从给定的f_0模式估计它们来谈谈自由f_0模式，同时保留语音和唱歌的功能它使其可以或处理或转换。鹿并且，作为这些模型中常见的问题讲语音（特定的口语风格和语言）和歌唱（具体点和已成为歌唱风格的专业化的路径）模型高重复ARGO计算昂贵的参数估计可以提到它需要节奏，限制这些应用程序它是特定的。本文基于深度发电模型，声音？唱歌的声音和不具体的F_0模式的普遍生成过程模型a以快速准确地估计其内部参数是的，可以通过学习和算法同时发现提出一种能力的方法。

著录项

来源
《日本音響学会研究発表会》|2018年|xliv 149 p.|共2页
会议地点
作者
田中宏; 亀岡弘和; 森川一穂;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类声学工程;
关键词

相似文献

外文文献
中文文献
专利

1. HMM音声合成における分散共有フルコンテキストモデルによるF0パターン生成 [J] . 高道慎之介, 戸田　智基, 志賀　芳則, 電子情報通信学会技術研究報告 . 2013,第422期

机译：HMM语音合成中的分布式共享全上下文模型生成F0模式
2. HMM音声合成における分散共有フルコンテキストモデルによるF0パターン生成 [J] . 高道慎之介, 戸田智基, 志賀芳則, 電子情報通信学会技術研究報告. 音声. Speech . 2012,第422期

机译：HMM语音合成中的分布式共享全上下文模型生成F0模式
3. HMM音声合成における分散共有フルコンテキストモデルによるF0パターン生成 [J] . 高道慎之介, 戸田智基, 志賀芳則, 電子情報通信学会技術研究報告. 音声. Speech . 2012,第422期

机译：F0模式通过色散生成在肝脏语音合成中共享完整的上下文模型
4. VAE-SPACE: 音声F0 パターンの深層生成モデル [C] . 田中宏, 亀岡弘和, 森川一穂日本音響学会2018年春季研究発表会講演論文集 . 2018

机译：VAE-SPACE：语音F0模式的深度生成模型
5. スパイキングニューラルネットワークによる連想記憶モジュールとデジタルコンピュータ間のインターフェース利用統計は来月からご利用いただけます [D] . 豊島尚樹 2019

机译：下个月将提供使用尖峰神经网络的关联存储模块和数字计算机之间的接口使用情况统计信息。
6. パネルトークタブンカシャカイニモトメラレルジンザイトワパネルトークタブンカシャカイニモトメラレルジンザイトワタブンカシャカイコーディネーターヨウセイプログラムソノセンモンセイトリキリョウケイセイノトリクミ [O] . 北脇保之, 小平達也, 佐藤郡衛, 2009

机译：panel Talk Tabunka shakai Nimotome Larre Jinsai Towa panel Talk Tabungka shakai Nimotome Larre Jinzai Towa Tabunka shakai协调员Yosei计划sono senmonsei Rikiyo Keisei No Torikumi

VAE-SPACE: 音声F0 パターンの深層生成モデル

摘要

著录项

相似文献

相关主题

期刊订阅