首页> 外文期刊>電子情報通信学会技術研究報告 >画像特徴量の正規化によるマルチモーダル音声認識の改善
【24h】

画像特徴量の正規化によるマルチモーダル音声認識の改善

机译:通过归一化图像特征改进多峰语音识别

获取原文
获取原文并翻译 | 示例
       

摘要

音声と口唇動画像を用いたマルチモーダル音声認識は,雑音に強い頑健な音声認識として注目され,研究が行われている.マルチモーダル音声認識では画像特徴量が重要な役割を果たし,オプティカルフローや主成分スコアなど,さまざまな特徴量でその有効性が示されている.画像特徴量に関しては,どのような情報を用いるのかに加え,どのように直交化や正規化などの処理を行うかも,認識性能に重要な影響を及ぼす.そこで本研究では,画像特徴量の直交化について,さまざまな検討を行った.具体的には,画像特徴量を特異債分解や主成分分析を用いることで,認識率の改善に成功した.%Multimodal speech recognition, namely MMASR, which uses speech and lip images has been developed as a robust automatic speech recognition (ASR) against various noises. Visual features, such as optical-flow parameters or principle component analysis (PCA) coefficients, play a great role in MMASR and their effectiveness are proven through experimental results. It is crucial for recognition accuracy not only which visual information should be adopted but also how feature orthogonalization and normalization should be applied. This paper compares conventional normalization methods of visual features and their performances; extracted visual features are converted into uncorrelated parameters using singular value decomposition or PCA, then using these features the recognition accuracy is improved.
机译:使用语音和嘴唇运动图像的多模式语音识别已经引起人们的关注,并被研究为具有抗噪性的强大语音识别。图像特征在多模式语音识别中起着重要作用,其有效性已在各种特征(例如光流和主成分评分)中得到证明。关于图像特征,不仅使用什么信息,而且如何进行正交化和归一化将对识别性能具有重要影响。因此,在本研究中,对图像特征的正交化进行了各种研究。具体而言,我们通过对图像特征使用奇异键分解和主成分分析成功提高了识别率。 %使用语音和嘴唇图像的多模态语音识别(即MMASR)已被开发为一种针对各种噪声的强大的自动语音识别(ASR)。视觉特征,例如光流参数或主成分分析(PCA)系数实验结果证明了其在MMASR中的重要作用及其有效性。对于识别精度而言,不仅要采用哪种视觉信息,而且对于特征正交化和归一化方法也至关重要。本文比较了传统的视觉特征归一化方法及其性能;使用奇异值分解或PCA将提取的视觉特征转换为不相关的参数,然后使用这些特征提高识别精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号