首页> 外文期刊>電子情報通信学会技術研究報告. 音声. Speech >局所区間のマルチモーダル情報を用いたユーザ状態の推定に関する検討
【24h】

局所区間のマルチモーダル情報を用いたユーザ状態の推定に関する検討

机译:局所区間のマルチモーダル情報を用いたユーザ状態の推定に関する検討

获取原文
获取原文并翻译 | 示例
       

摘要

従来の音声対話システムの研究では,ユーザ発話の音声認識結果を処理することによって応答を決定するという対話システムの性質上,言語的情報の処理に重点が置かれることが多かった.しかしながら,実環境下においては,そもそも入力が観測できないという状況が度々起こるため,言語的情報のみに依存した対話制御では不十分である.このような状況でユニザに対して適切な応答を行うためには,従来の音声対話システムでは無視されていた「発話を行う前のユーザ状態」を考慮する必要がある.我々は,発話前のユーザ状態を2種類定義し,その推定手法について研究を行ってきた.ここまでの分析結果から,マルチモーダルな情報を用いることで対象とするユーザの状態をある程度推定できることが示唆されている.この結果を踏まえ,本報告では動画像と音声から得られる情報を統合し,ユーザの状態を推定する手法について検討を行う.ここでは,新たにマルチモーダルな特徴系列をクラスタリングしてBag-of-Words的に扱う方法を提案する.提案手法では,2つのユーザ状態を70%以上の精度で識別できることが確認できた.

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号