大規模マイクロホンアレイによる発話方向推定の検討

菊池　慶子; 醍醐　徹; 中島　弘史; 中臺　一博; 長谷川　雄二; 金田　豊

首页> 外文期刊>電子情報通信学会技術研究報告 >大規模マイクロホンアレイによる発話方向推定の検討

【24h】

大規模マイクロホンアレイによる発話方向推定の検討

机译：利用大型麦克风阵列进行语音方向估计的研究

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本稿では，大規模マイクロホンアレイを用いた発話方向推定について報告する．筆者らは，先に音源の指向特性に基づいたビームフォーミング法を提案し，スピーカや人の発話方向推定について報告した．しかし，この手法において，ビームフォーマーの設計に用いる伝達関数は，対象となる音源の伝達関数を用いないと，性能が劣化するという問題点があった．また，発話区間の検出（VAD）も手動で行われているという問題点があった．前者の問題は異なる音源の伝達関数の位相差が主な原因と考えて，振幅伝達特性のみを利用したヒストグラムによる発話方向推定手法を提案した．後者については，非発話区間など信頼できない時間周波数特徴量のみを自動的にマスクするために，内積値に基づく音声周波数成分検出と自己相関を利用した発話区間検出を導入した．評価実験を通じて，スピーカの伝達関数を用いた場合でも，提案手法により人間の発話方向推定性能が大きく向上することを示した．%This paper addresses sound source orientation estimation using a 96ch microphone array. We proposed a beam-forming method with estimation of sound source directivity, and reported orientation estimation of a speech source such as a loudspeaker or an actual human. However, in this method, a transfer function to design a beam-former should be the same as that of target sound source. Otherwise the performance deteriorated due to a mismatch between these two transfer functions. In addition, voice activity detection (VAD) was manually performed. To solve the former, we proposed amplitude-based orientation estimation using a histogram to relax the effect of the mismatch problems mainly caused by phase errors and outliers. For the latter, speech frequency component detection based on inner product and automatic VAD based on auto-correlation are introduced to form a frequency-temporal masking pattern. Preliminary experiments showed that sound source orientation estimation with automatic VAD for actual human voices drastically improved even when using a loudspeaker-based transfer function.

机译：在本文中，我们报告了使用大型麦克风阵列的语音方向估计。作者先前提出了一种基于声源方向特性的波束形成方法，并报告了说话人或人的语音方向估计。但是，在该方法中，除非使用目标声源的传递函数，否则在波束形成器的设计中使用的传递函数的性能会恶化。另外，存在发声部分（VAD）的检测也手动进行的问题。我们认为前一个问题主要是由于不同声源的传递函数的相位差引起的，因此提出了一种仅使用幅度传递特性的直方图估计语音方向的方法。对于后者，我们引入了基于内积值的语音频率分量检测和使用自相关的语音间隔检测，以便仅自动掩盖不可靠的时频特征（例如非语音间隔）。通过评估实验，我们表明，即使使用说话人传递函数，该方法也可以显着提高人类语音方向估计性能。本文介绍了使用96通道麦克风阵列进行声源方向估计的方法，我们提出了一种使用声源方向性估计的波束形成方法，并报告了扬声器或实际人类等语音源的方向估计方法。设计波束形成器的传递函数应该与目标声源的传递函数相同，其他原因是这两个传递函数之间的不匹配会导致性能下降，此外，还手动执行了语音活动检测（VAD）。前者提出了一种使用直方图的基于幅度的方向估计，以缓解主要由相位误差和离群值引起的失配问题的影响;对于后者，基于内积的语音频率分量检测和基于自相关的自动VAD分别为引入形成时空掩蔽模式。初步实验表明，采用自动VAD f估计声源方向即使使用基于扬声器的传递功能，也可以大大改善实际的人声。

著录项

来源
《電子情報通信学会技術研究報告》 |2008年第143期|p.13-18|共6页
作者
菊池　慶子; 醍醐　徹; 中島　弘史; 中臺　一博; 長谷川　雄二; 金田　豊;
展开▼
作者单位

東京電機大学工学部　〒101-8457東京都千代田区神田錦町2-2;

東京電機大学工学部　〒101-8457東京都千代田区神田錦町2-2;

（株）ホンダ・リサーチ・インスティチュート・ジャパン〒351-0188埼玉県和光市本町8-1;

（株）ホンダ・リサーチ・インスティチュート・ジャパン〒351-0188埼玉県和光市本町8-1;

（株）ホンダ・リサーチ・インスティチュート・ジャパン〒351-0188埼玉県和光市本町8-1;

東京電機大学工学部　〒101-8457東京都千代田区神田錦町2-2;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
発話方向検出; 発話区間検出; マイクロホンアレイ;

机译：语音方向检测;语音片段检测;麦克风阵列;
入库时间 2022-08-18 00:37:27

相似文献

外文文献
中文文献
专利

1. 大規模マイクロホンアレイによる発話方向推定の検討 [J] . 菊池慶子, 醍醐徹, 中島弘史, 電子情報通信学会技術研究報告. 応用音響. Engineering Acoustics . 2008,第143期

机译：大型麦克风阵列对语音方向估计的检验
2. 大規模マイクロホンアレイによる発話方向推定の検討 [J] . 菊池慶子, 醍醐徹, 中島弘史, 電子情報通信学会技術研究報告. 応用音響. Engineering Acoustics . 2008,第143期

机译：大规模麦克风阵列的言语方向估计检查
3. 複数のマイクロホンアレイによる音源方向情報と人位置情報に基づく音声区間検出および顔の向きの推定の評価 [J] . 石井カルロス寿憲, エヴァン·イアニ, 萩田紀博日本ロボット学会誌 . 2016,第3a261期

机译：多个麦克风阵列基于声源方向信息和人体位置信息的语音部分检测和面部朝向估计的评估
4. 大規模マイクロホンアレイを用いた発話方向実時間推定 [C] . 春原卓也, 中島弘史, 中臺一博, 日本ロボット学会学術講演会 . 2010

机译：使用大规模麦克风阵列的话语方向实时估计
5. ローダミンサルコーマのクロマチンによるラット肝臓のピルビン酸キナーゼアイソザイムの変動について [D] . 中村, 敏一 -1

机译：罗丹明肉瘤染色质对大鼠肝脏丙酮酸激酶同工酶的影响
6. プレドニゾロン治療後の実験的自己免疫性ぶどう腸炎マウスにおける、サイトカイン・ケモカイン遺伝子のマイクロアレイ法による発現解析 [O] . 橋田徳康, ハシダノリヤス 2017

机译：微阵列法细胞力/趋化因子基因在泼尼松龙治疗后自身免疫性回肠结肠炎小鼠中的表达分析

大規模マイクロホンアレイによる発話方向推定の検討

摘要

著录项

相似文献

相关主题

期刊订阅