首页> 外文期刊>電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎 >マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討
【24h】

マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

机译:使用多模式语音片段检测检查多模式语音识别

获取原文
获取原文并翻译 | 示例
           

摘要

音声と口唇動画像を用いるマルチモーダル音声認識は,雑音下で頑健に音声認識できる手法のひとつとして注目されている.他方,雑音下音声認識においては,音声区間の同定を行う音声区間検出(Voice Activity Detection,VAD)が有効である.我々はこれまでに,音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している.本研究では,マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する.マルチモーダルVADでは,音声と非音声の識別に隠れマルコフモデル(Hidden Markov Model)を用いるモデルベース法と閾値を用いる非モデルベース法を,また音声情報と画像情報の統合方法として初期統合および結果統合を比較検討した.音響雑音を加えた音声·画像データを用いて音声認識実験を行ったところ,非モデルベース初期統合法がもっとも高い性能を示し,従来の音声認識手法よりも性能が改善した.
机译:使用语音和嘴唇运动图像的多模式语音识别作为一种可以在噪声下可靠地识别语音的方法之一,引起了人们的关注。另一方面,在噪声下的语音识别中,识别语音部分的语音活动检测(VAD)是有效的。到目前为止,我们已经提出了一种多模态VAD,它也使用不受声学噪声影响的图像信息。在这项研究中,我们提出了一种结合多模式VAD和多模式语音识别的语音识别方法。在多峰VAD中,使用基于隐马尔可夫模型的基于模型的方法和使用阈值的基于非模型的方法来区分语音和非语音,并且初始集成和结果集成用作集成音频和图像信息的方法。经过比较和检查。当使用添加了声噪声的语音和图像数据进行语音识别实验时,基于非模型的初始积分方法表现出最高的性能,并且与传统的语音识别方法相比,性能得到了改善。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号