マルチモーダル音声認識におけるストリーム重み係数最適化の検討

田村哲嗣; 岩野公司; 古井貞煕Satoshi TAMURAKoji IWANOSadaoki FURUI

首页> 外文期刊>電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication >マルチモーダル音声認識におけるストリーム重み係数最適化の検討

【24h】

マルチモーダル音声認識におけるストリーム重み係数最適化の検討

机译：マルチモーダル音声認識におけるストリーム重み係数最適化の検討

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相关主题

摘要

近年，音声認識の頑健性向上の手法のひとつとして，音声情報に加え唇動画像の情報を利用するマルチモーダル音声認識が注目され，多くの研究が進められている．マルチモーダル音声認識で広く用いられているマルチストリームHMMでは，ストリーム重み係数を自動的に調整することが認識性能向上に必要不可欠である．本研究では，正解（仮説）単語とその他の単語の尤度の差が最大となるよう，尤度比最大基準に基づくストリーム重み最適化手法を提案する．車載カメラで収録した実環境データを用いた認識実験により，教師なし条件で提案法の評価を行ったところ，MLLR適応と提案手法をあわせて行うことで，音響のみの結果と比べ，約29％の正解精度の改善，約76％の誤り率の削減に成功した．

著录项

来源
《電子情報通信学会技術研究報告. 言語理解とコミュニケーション. Natural Language Understanding and Models of Communication》 |2003年第517期|241-246|共6页
作者
田村哲嗣; 岩野公司; 古井貞煕Satoshi TAMURAKoji IWANOSadaoki FURUI;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种日语
中图分类通信;
关键词
マルチモーダル音声認識; マルチストリームHMM; ストリーム重み最適化; 尤度比最大基準; 実環境; Multi-modal speech recognition; Multi-stream HMM; Stream-weight optimization; Likelihood-ratio maximization criterion; Real-world environments;

マルチモーダル音声認識におけるストリーム重み係数最適化の検討

摘要

著录项

相关主题

期刊订阅