軽量な画像特徴量を用いたマルチモーダル音声認識

吉川　正祥; 篠崎　隆宏; 岩野　公司; 古井　貞煕

首页> 外文期刊>電子情報通信学会論文誌 >軽量な画像特徴量を用いたマルチモーダル音声認識

【24h】

軽量な画像特徴量を用いたマルチモーダル音声認識

机译：使用轻量级图像功能的多模式语音识别

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

音声と動画のマルチモーダル音声認識は，音声のみを用いた場合と比較して高い認識性能が期待される手法であり，これまでの研究で雑音環境下での音声認識に有効であることが示されている．また画像特徴量として，様々なものが提案されている．しかしこれまでは認識性能に注意が向けられ，ポータブル機器等において重要な計算量に注目した研究はほとんど存在しない，実際，代表的な画像特徴量であるオプティカルフローや主成分分析に基づいた手法では，音響特徴量の計算と比べ計算量がかなり大きい．そこで本研究では，計算量と認識性能のバランスに優れた特徴量について検討を行った．発話区間検出を目的として提案された低輝度画素数に着日した特徴量を多次元に拡張し，マルチモーダル音声認識に応用する．実験ではビデオカメラで収録したデータとともにiPhone4で収録したデータを用い，捷案輝度特徴量が計算量が少なくどの環境においても認識性能の向上に有効であることを示す．

机译：语音和视频的多模式语音识别是一种比仅使用语音时具有更高识别性能的方法，以前的研究表明，该方法对于嘈杂环境中的语音识别是有效的。已经完成。另外，已经提出了各种图像特征。但是，到目前为止，注意力已经集中在识别性能上，很少有研究关注对便携式设备重要的计算量。，计算量比声学特征量的计算大得多。因此，在本研究中，我们研究了在计算复杂度和识别性能之间具有良好平衡的特征量。为发声间隔检测的目的而提出的低亮度像素数量的功能已多维扩展，并应用于多模式语音识别。在实验中，我们将iPhone4记录的数据与摄像机记录的数据一起使用，表明图案亮度特征量的计算量很小，并且在任何环境下均有效地提高了识别性能。

著录项

来源
《電子情報通信学会論文誌》 |2012年第3期|p.618-627|共10页
作者
吉川　正祥; 篠崎　隆宏; 岩野　公司; 古井　貞煕;
展开▼
作者单位

東京工業大学大学院情報理工学系研究科計算工学専攻;

東京都;

東京工業大学大学院情報理工学系研究科計算工学専攻;

東京都,千葉大学大学院融合科学研究科情報科学専攻知能情報コース;

千葉市;

東京都市大学環境情報学部情報メディア学科;

横浜市;

東京工業大学大学院情報理工学系研究科計算工学専攻;

東京都;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
マルチモーダル音声認識; 画像特徴量; 計算量; ポータブル機器; 輝度特徴量;

机译：多模式语音识别;图像特征量;计算量;便携式设备;亮度特征量;

相似文献

外文文献
中文文献
专利

1. 軽量な画像特徴量を用いたマルチモーダル音声認識 [J] . 吉川正祥, 篠崎隆宏, 岩野公司, 電子情報通信学会論文誌, D. 情報·システム . 2012,第3期

机译：使用轻量级图像功能的多模式语音识别
2. 軽量な画像特徴量を用いたマルチモーダル音声認識 [J] . 吉川正祥, 篠崎隆宏, 岩野公司, 電子情報通信学会論文誌, D. 情報·システム . 2012,第3期

机译：使用轻量级图像特征数量的多式化语音识别
3. 深層学習によるボトルネック特徴量を用いたマルチモーダル音声認識 [J] . 田村哲嗣, 二宮宏史, 北岡教英, 電子情報通信学会技術研究報告. 音声. Speech . 2015,第253期

机译：通过深度学习使用瓶颈功能进行多模式语音识别
4. 運動·音声·画像の特徴を用いた統合モデルによるマルチモーダルジェスチャー認識 [C] . 郷津優介, 小林誠季, 小原潤哉, ロボティクスシンポジア . 2014

机译：通过运动，语音和图像特性通过集成模型来识别多模式手势
5. アセチルコリンの冠注で誘発されるブタの主および小冠動脈攣縮モデルの開発とこのモデル動物を用いたニプラジロール, イソソルビド?ジニトレート, ブナゾシンの冠攣縮予防効果に関する研究 [D] . Kawamura, Atsushi 1991

机译：冠状动脉注入乙酰胆碱诱导的猪主，小冠状动脉痉挛模型的建立以及尼泊地洛尔，硝酸异山梨酯和布那唑嗪对模型动物的预防作用研究
6. マルチフレーム特徴量を用いたAdaBoostによる音声区間検出 [O] . 臼倉徹 2016

机译：AdaBoost使用多帧功能检测语音片段

軽量な画像特徴量を用いたマルチモーダル音声認識

摘要

著录项

相似文献

相关主题

期刊订阅