首页> 外文会议>日本音響学会2019年春季研究発表会講演論文集 >話者・音韻特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて
【24h】

話者・音韻特徴抽出のためのディスエンタングリングニューラルネットワークの実現にむけて

机译:语音/语音特征提取神经网络解缠解的实现

获取原文
获取原文并翻译 | 示例

摘要

フレーム単位の音響特徴量から話者性と音韻性をそれぞれ分離・抽出する表現学習の実現にむけて,各情報の抽出に適したネットワークの構造を調査した.データから所望の情報のみを含む表現を抽出するディスエンタングリングネットワークの研究が,画像処理の分野を中心に盛んに行われている.音声処理分野においても近年注目されはじめ,話者認識や音声認識,音声合成を中心に,話者性と音韻性に着目した手法が提案されている.話者性と音韻性を対象としたとき,画像など他分野では見られない特徴として,各情報が含まれる時間スケールが異なるという点が挙げられる.すなわち,音韻性は数十から数百ミリ秒程度の短い時間で観測可能なのに対し,話者性は数秒程度の比較的長い時間の中で捉えることができる.そのため先行研究の多くは,音韻性の表現はフレーム単位で抽出するのに対して,話者性の表現はセグメント単位で抽出することを前提としている.しかし,話者クラスタリングや話者ダイアリゼーション,話者交替検出のようなタスクにおいては,数フレーム程度の細かい単位で話者性を判別する必要があり,フレーム単位においても話者表現の抽出は重要である.フレーム単位の特徴表現抽出を目的とした手法としては,直交制約付きオートエンコーダを用いて話者情報と音韻情報をそれぞれ抽出するネットワークなどが提案されているが,音韻は数個の母音に限られ,また,話者性も個人性ではなく性別などの広いカテゴリに限定されていた.
机译:我们研究了适合提取每个\ r \ n信息的网络结构,以实现从每个帧的声学特征中分离并提取说话者特征和语音特征\ r \ n的表达学习。 \ r \ n解缠网络的研究主要是在图像\ r \ n处理领域中进行的,该网络从\ r \ n数据中提取仅包含所需信息的表达式。近年来,语音处理领域也引起了人们的关注,围绕说话者识别,语音识别和语音合成提出了一种针对说话者特征和语音特征的方法。 。 \ r \ n的一个功能在通话和语音\ r \ n中无法在其他领域(例如图像)中看到,这是每个信息所包含的时标不同。 。换句话说,可以在几十秒或几百毫秒的短时间内观察到语音特性,而可以在相对较长的几秒钟时间内捕获说话者特性。您可以拥有n和。因此,大多数以前的研究都假定语音\ r \ n表达式是在逐帧的基础上提取的,而说话人特征\ r \ n表达式是在逐段的基础上提取的。有。但是,对于诸如扬声器群集,扬声器对话和扬声器替换检测之类的任务,有必要以几帧为单位区分扬声器特性。因此,即使以帧为单位提取说话人表达\ r \ n也很重要。作为用于逐帧提取特征表示的方法,已经提出了一种网络,其中使用具有正交约束的自动编码器\ r \ n来提取说话者信息和音素信息。但是,语音\ r \ n仅限于少数元音,并且说话者的特征也仅限于诸如性别而不是个性的广泛类别。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号