首页> 外文会议>日本音響学会2018年秋季研究発表会講演論文集 >インパルス応答を用いた深層ニューラルネットワークによる残響下音声認識性能予測
【24h】

インパルス応答を用いた深層ニューラルネットワークによる残響下音声認識性能予測

机译:基于脉冲响应的深度神经网络预测混响语音识别性能

获取原文
获取原文并翻译 | 示例

摘要

近年の機械学習の技術革新によって,音声認識シスrnテムの認識精度が飛躍的に向上している.これに伴っrnて,対話ロボットやスマートスピーカなどの音声認識rn技術を搭載した情報機器の開発が積極的に進められrnている.このようなハンズフリー環境での音声対話でrnは,実環境下で利用者がマイクロホンから離れて発話rnした際に,室内残響などの外乱の混入の影響を受けてrn音声認識性能が低下するという問題がある.これまでrnに実環境下で音声認識性能を向上させるための外乱rn対策が数多く提案されている.しかし,利用環境rnに存在する外乱を容易に特定できない場合においてrnは,これらの外乱対策を適切に講じることが難しく,rn音声認識性能の大幅な改善までは期待できない. このrnような問題に対して実環境における音声認識性能のrn予測に関する研究に高い注目が集まっている.事前にrn発話環境が与える音声認識性能の劣化を予測し,そのrn結果に基づいて音声認識性能の改善策を前処理などrnに反映させることができれば,その環境に最適な音声rn認識システムを提供できる.これまでの音声認識性能rnの予測手法として,入出力間のインパルス応答と室rn内音響指標を用いた残響指標RSR-D_n(ReverberantrnSpeech Recognition criteria with D_n) が提案され,rn残響環境下において高い音声認識性能の予測精度をrn達成している.この従来研究では,音声認識性能とrn高い相関を有する初期反射と後続残響のエネルギーrnのバランスに着目し,それを表現できる室内音響指rn標を使って音声認識性能を予測している.ここで,近rn年著しい進歩を遂げている深層学習を用いて音声認rn識性能の予測に有効な特徴量をインパルス応答からrn抽出することで,音声認識性能予測の更なる精度向rn上が期待される.そこで本稿では残響環境下で計測rnしたインパルス応答から音声認識性能を予測できるrn深層ニューラルネットワークを構築して,このネットrnワークを用いた音声認識性能の予測精度を検証する.
机译:机器学习中的最新技术创新极大地提高了语音识别系统的识别精度。随之而来的是,积极推动配备语音识别技术的信息设备的开发,例如交互式机器人和智能扬声器。在这种免提环境中,当用户在真实环境中说出远离麦克风的声音时,语音识别性能会在诸如房间混响之类的干扰的影响下恶化。这儿存在一个问题。迄今为止,已经提出了许多针对干扰rn的措施,以提高真实环境中的语音识别性能。然而,在不能容易地识别存在于使用环境rn中的干扰的情况下,rn难以针对这些干扰采取适当的措施,并且不可能期望rn语音识别性能的显着改善。另一方面,在真实环境中对语音识别性能的预测的研究已经引起了很多关注。如果预先预测言语环境所导致的语音识别性能下降,并且可以基于rn结果在预处理等方面反映言语识别性能的改善措施,则将创建针对该环境的最佳言语识别系统。可以提供。已经提出了利用输入和输出之间的冲激响应和房间rn中的声学指标的混响指标RSR-D_n(具有D_n的Reverberantrn语音识别标准)作为预测语音识别性能rn的方法,并提出了rn混响环境中的高语音。已经实现了识别性能的预测准确性。在该常规研究中,我们集中在与语音识别性能高度相关的早期混响能量rn和后续混响能量rn之间的平衡,并使用可以代表它的室内声学手指rn预测语音识别性能。这里,通过从冲激响应中提取rn(这是使用深度学习来预测语音识别rn的有效特征),近年来取得了显着进展,可以进一步提高语音识别预测的准确性。有期望。因此,在本文中,我们构建了一个深层神经网络,可以根据混响环境中测得的冲激响应来预测语音识别性能,并使用该网络验证语音识别性能的预测准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号