首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >スパース性に基づくブラインド音源分を用いたステレオ入力音声認識
【24h】

スパース性に基づくブラインド音源分を用いたステレオ入力音声認識

机译:使用基于稀疏性的盲声源的立体声输入音频识别

获取原文
获取原文并翻译 | 示例
获取外文期刊封面目录资料

摘要

本研究では,スパース性に基づくブラインド音源分離を用いた雑音残響下のステレオ入力音声認識手法を提案する.ステレオ入力を前提とした場合,スパース性に基づくブラインド音源分離は,雑音環境下における音声認識のフロントエンドとして有効なアプローチのーつであるが,残響環境下では分離性能が劣化するほか,時間周彼数マスキングそのものが,目的とする音声のスペクトルにひずみを引き起こし,認識性能を劣化させてしまう可能性がある.本研究ではまず前者の問題に対し,我々が開発してきた,拡散雑音モデルに基づく最 ゆう時間周波数マスキング法を適用し,その有効性を検証する. 次に,時間周波数マスキングそのものによって生じるひずみの音声認識への影響を検討し,(1 )連続値マスクの方がバィナリーマスクよりも影響が少ないこと,(2) CMN (Cepstral Mean Nomaliztn)によりひずみの影響が大きく改善され,特に連続値マスクの方が改善量が大きいことを,実験的に明らかにする.最後に提案手法の有効性を,雑音残響環境下での連続数字音声認識タスクにより評価し,従来手法に比べて高い認識性能が得られることを示す.
机译:在这项研究中,我们提出了一种基于稀疏度的盲声源分离下的噪声混响下的立体声输入语音识别方法。假设有立体声输入,基于稀疏性的盲声源分离是在嘈杂环境中作为语音识别前端的有效方法之一,但是在混响环境中,分离性能会下降并且持续时间长掩盖他的号码本身可能会导致目标语音频谱失真,并降低识别性能。在这项研究中,我们首先将基于我们已经开发的弥散噪声模型的最时频掩蔽方法应用于前一个问题,并验证其有效性。接下来,我们研究了由时频掩蔽本身引起的失真对语音识别的影响:(1)连续值掩膜的影响小于二进制掩膜;(2)由于CMN(倒数均值化)引起的失真。实验证明,大大提高了的效果,特别是在连续值蒙版中,改进的幅度更大。最后,通过在嘈杂的混响环境中通过连续的数字语音识别任务评估了该方法的有效性,结果表明与传统方法相比,该方法可以获得更高的识别性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号