...
首页> 外文期刊>電子情報通信学会論文誌 >軽量な画像特徴量を用いたマルチモーダル音声認識
【24h】

軽量な画像特徴量を用いたマルチモーダル音声認識

机译:使用轻量级图像功能的多模式语音识别

获取原文
获取原文并翻译 | 示例
   

获取外文期刊封面封底 >>

       

摘要

音声と動画のマルチモーダル音声認識は,音声のみを用いた場合と比較して高い認識性能が期待さ れる手法であり,これまでの研究で雑音環境下での音声認識に有効であることが示されている.また画像特徴量として,様々なものが提案されている.しかしこれまでは認識性能に注意が向けられ,ポータブル機器等において重要な計算量に注目した研究はほとんど存在しない,実際,代表的な画像特徴量であるオプティカルフローや主成分分析に基づいた手法では,音響特徴量の計算と比べ計算量がかなり大きい.そこで本研究では,計算量と認識性能のバランスに優れた特徴量について検討を行った.発話区間検出を目的として提案された低輝度画素数に着日した特徴量を多次元に拡張し,マルチモーダル音声認識に応用する.実験ではビデオカメラで収録したデータとともにiPhone4で収録したデータを用い,捷案輝度特徴量が計算量が少なくどの環境においても認識性能の向上に有効であることを示す.
机译:语音和视频的多模式语音识别是一种比仅使用语音时具有更高识别性能的方法,以前的研究表明,该方法对于嘈杂环境中的语音识别是有效的。已经完成。另外,已经提出了各种图像特征。但是,到目前为止,注意力已经集中在识别性能上,很少有研究关注对便携式设备重要的计算量。 ,计算量比声学特征量的计算大得多。因此,在本研究中,我们研究了在计算复杂度和识别性能之间具有良好平衡的特征量。为发声间隔检测的目的而提出的低亮度像素数量的功能已多维扩展,并应用于多模式语音识别。在实验中,我们将iPhone4记录的数据与摄像机记录的数据一起使用,表明图案亮度特征量的计算量很小,并且在任何环境下均有效地提高了识别性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号