Two-Level Bimodal Association for Audio-Visual Speech Recognition

机译：视听语音识别的两级双峰关联

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper proposes a new method for bimodal information fusion in audio-visual speech recognition, where cross-modal association is considered in two levels. First, the acoustic and the visual data streams are combined at the feature level by using the canonical correlation analysis, which deals with the problems of audio-visual synchronization and utilizing the cross-modal correlation. Second, information streams are integrated at the decision level for adaptive fusion of the streams according to the noise condition of the given speech datum. Experimental results demonstrate that the proposed method is effective for producing noise-robust recognition performance without a priori knowledge about the noise conditions of the speech data.

机译：本文提出了一种在视听语音识别中用于双峰信息融合的新方法，该方法将跨峰关联分为两个层次。首先，通过使用规范相关分析在特征级别上组合声音和视觉数据流，从而处理视听同步问题并利用交叉模态相关。其次，根据给定语音数据的噪声条件，在决策层对信息流进行集成，以进行信息流的自适应融合。实验结果表明，该方法在不需要先验知识的语音数据噪声条件的情况下，对于产生噪声鲁棒的识别性能是有效的。

著录项

来源
《Advanced concepts for intelligent vision systems》|2009年|133-144|共12页
会议地点 Bordeaux(FR);Bordeaux(FR)
作者
Jong-Seok Lee; Touradj Ebrahimi;
展开▼
作者单位

Multimedia Signal Processing Group Ecole Polytechnique Federale de Lausanne (EPFL) CH-1015 Lausanne, Switzerland;

Multimedia Signal Processing Group Ecole Polytechnique Federale de Lausanne (EPFL) CH-1015 Lausanne, Switzerland;

展开▼
会议组织
原文格式 PDF
正文语种 eng
中图分类信息处理（信息加工）;
关键词
入库时间 2022-08-26 13:57:53

相似文献

外文文献
中文文献
专利

1. Complementarity and synergy in bimodal speech: Auditory, visual, and audio-visual identification of French oral vowels in noise [J] . Jordi Robert-Ribes, Jean-Luc Schwartz, Tahar Lallouache, The Journal of the Acoustical Society of America . 1998,第6期

机译：双峰语言的互补性和协同作用：噪声中法国口语元音的听觉，视觉和视听识别
2. An audio-visual corpus for speech perception and automatic speech recognition (L) [J] . Cooke M, Barker J, Cunningham S, The Journal of the Acoustical Society of America . 2006,第5期

机译：用于语音感知和自动语音识别的视听语料库（L）
3. Audio-visual speech modeling for continuous speech recognition [J] . Dupont S., Luettin J. IEEE transactions on multimedia . 2000,第3期

机译：用于连续语音识别的视听语音建模
4. Two-Level Bimodal Association for Audio-Visual Speech Recognition [C] . Jong-Seok Lee, Touradj Ebrahimi International Conference on Advanced Concepts for Intelligent Vision Systems . 2009

机译：用于视听语音识别的两级双峰协会
5. Robust speech processing based on microphone array, audio-visual, and frame selection for in-vehicle speech recognition and in-set speaker recognition. [D] . Zhang, Xianxian. 2005

机译：基于麦克风阵列，视听和帧选择的强大语音处理功能，可实现车载语音识别和内置说话人识别。
6. Effect of (Mis)Matched Compression Speed on Speech Recognition in Bimodal Listeners [O] . Dimitar Spirrov, Eugen Kludt, Eline Verschueren, 2020

机译：（MIS）匹配压缩速度对双峰听众语音识别的影响
7. Two-Level Bimodal Association for Audio-Visual Speech Recognition [O] . Jong-seok Lee, Touradj Ebrahimi 2010

机译：视听语音识别的两级双峰关联

Two-Level Bimodal Association for Audio-Visual Speech Recognition

摘要

著录项

相似文献

相关主题

期刊订阅