首页> 外文期刊>電子情報通信学会技術研究報告 >大規模マイクロホンアレイによる発話方向推定の検討
【24h】

大規模マイクロホンアレイによる発話方向推定の検討

机译:利用大型麦克风阵列进行语音方向估计的研究

获取原文
获取原文并翻译 | 示例
       

摘要

本稿では,大規模マイクロホンアレイを用いた発話方向推定について報告する.筆者らは,先に音源の指向特性に基づいたビームフォーミング法を提案し,スピーカや人の発話方向推定について報告した.しかし,この手法において,ビームフォーマーの設計に用いる伝達関数は,対象となる音源の伝達関数を用いないと,性能が劣化するという問題点があった.また,発話区間の検出(VAD)も手動で行われているという問題点があった.前者の問題は異なる音源の伝達関数の位相差が主な原因と考えて,振幅伝達特性のみを利用したヒストグラムによる発話方向推定手法を提案した.後者については,非発話区間など信頼できない時間周波数特徴量のみを自動的にマスクするために,内積値に基づく音声周波数成分検出と自己相関を利用した発話区間検出を導入した.評価実験を通じて,スピーカの伝達関数を用いた場合でも,提案手法により人間の発話方向推定性能が大きく向上することを示した.%This paper addresses sound source orientation estimation using a 96ch microphone array. We proposed a beam-forming method with estimation of sound source directivity, and reported orientation estimation of a speech source such as a loudspeaker or an actual human. However, in this method, a transfer function to design a beam-former should be the same as that of target sound source. Otherwise the performance deteriorated due to a mismatch between these two transfer functions. In addition, voice activity detection (VAD) was manually performed. To solve the former, we proposed amplitude-based orientation estimation using a histogram to relax the effect of the mismatch problems mainly caused by phase errors and outliers. For the latter, speech frequency component detection based on inner product and automatic VAD based on auto-correlation are introduced to form a frequency-temporal masking pattern. Preliminary experiments showed that sound source orientation estimation with automatic VAD for actual human voices drastically improved even when using a loudspeaker-based transfer function.
机译:在本文中,我们报告了使用大型麦克风阵列的语音方向估计。作者先前提出了一种基于声源方向特性的波束形成方法,并报告了说话人或人的语音方向估计。但是,在该方法中,除非使用目标声源的传递函数,否则在波束形成器的设计中使用的传递函数的性能会恶化。另外,存在发声部分(VAD)的检测也手动进行的问题。我们认为前一个问题主要是由于不同声源的传递函数的相位差引起的,因此提出了一种仅使用幅度传递特性的直方图估计语音方向的方法。对于后者,我们引入了基于内积值的语音频率分量检测和使用自相关的语音间隔检测,以便仅自动掩盖不可靠的时频特征(例如非语音间隔)。通过评估实验,我们表明,即使使用说话人传递函数,该方法也可以显着提高人类语音方向估计性能。本文介绍了使用96通道麦克风阵列进行声源方向估计的方法,我们提出了一种使用声源方向性估计的波束形成方法,并报告了扬声器或实际人类等语音源的方向估计方法。设计波束形成器的传递函数应该与目标声源的传递函数相同,其他原因是这两个传递函数之间的不匹配会导致性能下降,此外,还手动执行了语音活动检测(VAD)。前者提出了一种使用直方图的基于幅度的方向估计,以缓解主要由相位误差和离群值引起的失配问题的影响;对于后者,基于内积的语音频率分量检测和基于自相关的自动VAD分别为引入形成时空掩蔽模式。初步实验表明,采用自动VAD f估计声源方向即使使用基于扬声器的传递功能,也可以大大改善实际的人声。

著录项

  • 来源
    《電子情報通信学会技術研究報告》 |2008年第143期|p.13-18|共6页
  • 作者单位

    東京電機大学工学部 〒101-8457東京都千代田区神田錦町2-2;

    東京電機大学工学部 〒101-8457東京都千代田区神田錦町2-2;

    (株)ホンダ・リサーチ・インスティチュート・ジャパン〒351-0188埼玉県和光市本町8-1;

    (株)ホンダ・リサーチ・インスティチュート・ジャパン〒351-0188埼玉県和光市本町8-1;

    (株)ホンダ・リサーチ・インスティチュート・ジャパン〒351-0188埼玉県和光市本町8-1;

    東京電機大学工学部 〒101-8457東京都千代田区神田錦町2-2;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 jpn
  • 中图分类
  • 关键词

    発話方向検出; 発話区間検出; マイクロホンアレイ;

    机译:语音方向检测;语音片段检测;麦克风阵列;
  • 入库时间 2022-08-18 00:37:27

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号