...
首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >SPLICEに基づく音声·口唇画像情報を用いた雑音環境下音声認識
【24h】

SPLICEに基づく音声·口唇画像情報を用いた雑音環境下音声認識

机译:噪语音识别使用基于拼接语音嘴唇图像信息

获取原文
获取原文并翻译 | 示例
           

摘要

音声認識技術において,ノイズは認識率の低下の大きな要因の一つである.ノイズにロバストな音声認識システムを実現するため,近年,マルチモーダル手法が注目されている.これは音声だけでなく,口唇の動きなどの画像など,異なる種類の情報を用いることによって認識率を向上させる手法である.マルチモーダル吉声認識は,音声と画像をどのように統合するかが問題となる.統合法は結果統合と初期統合の大きく2つに分けることができる.結果統合は対数尤度ベースでの統合であり,音声と画像のアライメントが一致しないため認識率が低下する可能性がある.それに対し,初期統合は特徴量ベースでの統合である.本稿では特徴量強調手法であるSPLICEに基づく音声と口唇画像を用いた新しいマルチモーダル音声認識システムを提案する,これは初期統合の一種であるが,従来から用いられている初期統合と違い,画像情報を音声信号からの雑音除去にのみ用い,認識のためのモデル構築には画像情報を直接用いない.音声と画像の対応が取れたコーパスであるCENSREC-1-AVを利用した評価実験により,特に雑音の大きな環境では従来手法のSPLICEに対し,約13%のエラー削減率を得た.
机译:在语音识别技术中,噪声是识别率降低的主要因素之一。近年来,近年来,多模态方法引起了一个强大的语音识别系统的关注。这是通过使用不同类型的信息来提高识别率的方法,例如诸如唇部运动的图像,不仅是音频。多模式良好语音识别是如何集成音频和图像的问题。集成方法可以分为两个结果集成和初始集成。结果集成是基于日志似然的集成,并且可以减少识别率,因为语音和图像对齐不匹配。另一方面,初始集成是一种基于功能的集成。在本文中,我们提出了一种基于拼接的语音和唇唇图像的新的多模语性语音识别系统,这是一种特征增强方法,这是一种初始集成的类型,但与过去使用的初始集成不同,使用信息仅用于从音频信号去除噪声,没有直接用于识别的模型结构的图像信息。使用CENSREC-1-AV的评估实验,这些实验是具有语音和图像的核心,特别是在大型噪声环境中,传统方法的拼接通过误差减少率的约13%获得。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号