マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

田村哲嗣; 石川雅人; 羽柴隆志; 竹内伸一; 速水悟

首页> 外文期刊>電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎 >マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

【24h】

マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

机译：使用多模式语音片段检测检查多模式语音识别

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

音声と口唇動画像を用いるマルチモーダル音声認識は，雑音下で頑健に音声認識できる手法のひとつとして注目されている．他方，雑音下音声認識においては，音声区間の同定を行う音声区間検出（Voice Activity Detection，VAD）が有効である．我々はこれまでに，音響雑音の影響を受けない画像情報を併用したマルチモーダルVADを提案している．本研究では，マルチモーダルVADとマルチモーダル音声認識を組み合わせた音声認識手法を提案する．マルチモーダルVADでは，音声と非音声の識別に隠れマルコフモデル（Hidden Markov Model）を用いるモデルベース法と閾値を用いる非モデルベース法を，また音声情報と画像情報の統合方法として初期統合および結果統合を比較検討した．音響雑音を加えた音声·画像データを用いて音声認識実験を行ったところ，非モデルベース初期統合法がもっとも高い性能を示し，従来の音声認識手法よりも性能が改善した．

机译：使用语音和嘴唇运动图像的多模式语音识别作为一种可以在噪声下可靠地识别语音的方法之一，引起了人们的关注。另一方面，在噪声下的语音识别中，识别语音部分的语音活动检测（VAD）是有效的。到目前为止，我们已经提出了一种多模态VAD，它也使用不受声学噪声影响的图像信息。在这项研究中，我们提出了一种结合多模式VAD和多模式语音识别的语音识别方法。在多峰VAD中，使用基于隐马尔可夫模型的基于模型的方法和使用阈值的基于非模型的方法来区分语音和非语音，并且初始集成和结果集成用作集成音频和图像信息的方法。经过比较和检查。当使用添加了声噪声的语音和图像数据进行语音识别实验时，基于非模型的初始积分方法表现出最高的性能，并且与传统的语音识别方法相比，性能得到了改善。

著录项

来源
《電子情報通信学会技術研究報告. マルチメディア·仮想環境基礎》 |2009年第376期|共6页
作者
田村哲嗣; 石川雅人; 羽柴隆志; 竹内伸一; 速水悟;
展开▼
作者单位

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类图像通信、多媒体通信;
关键词
マルチモーダル; 音声認識; 音声区間検出; 初期統合; 結果統合;

机译：多模式;语音识别;语音间隔检测;初始积分;结果积分;

相似文献

外文文献
中文文献
专利

1. マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討 [J] . 田村　哲嗣, 石川　雅人, 羽柴　隆志, 電子情報通信学会技術研究報告 . 2010,第373期

机译：基于多模态语音段检测的多模态语音识别研究
2. マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討 [J] . 田村　哲嗣, 石川　雅人, 羽柴　隆志, 電子情報通信学会技術研究報告 . 2010,第375期

机译：基于多模态语音段检测的多模态语音识别研究
3. マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討 [J] . 田村　哲嗣, 石川　雅人, 羽柴　隆志, 電子情報通信学会技術研究報告 . 2010,第376期

机译：基于多模态语音段检测的多模态语音识别研究
4. XGBoost を用いた虹彩と目の周辺のマルチモーダル認証方式の有効性に関する一検討 [C] . 上野山大介, 吉浦裕, 市野将嗣電子情報通信学会;電子情報通信学会総合大会 . 2019

机译：使用XGBoost的虹膜和眼睛周围区域多模式身份验证方法的有效性研究
5. アセチルコリンの冠注で誘発されるブタの主および小冠動脈攣縮モデルの開発とこのモデル動物を用いたニプラジロール, イソソルビド?ジニトレート, ブナゾシンの冠攣縮予防効果に関する研究 [D] . Kawamura, Atsushi 1991

机译：冠状动脉注入乙酰胆碱诱导的猪主，小冠状动脉痉挛模型的建立以及尼泊地洛尔，硝酸异山梨酯和布那唑嗪对模型动物的预防作用研究
6. アルカリフォスファターゼ結合オリゴヌクレオチドプローブを用いたin situハイブリダイゼーションによるホルボールエスデル及び抗体により活性化させた細胞株とnull細胞株のEpstein-Barrウイルスの転写産物の検出 [O] . 弘中孝史, ヒロナカタカシ 2017

机译：通过与碱性磷酸酶偶联的寡核苷酸探针进行原位杂交，检测佛波醇，抗体激活和无效细胞系中的爱泼斯坦-巴尔病毒转录本

マルチモーダル音声区間検出を用いたマルチモーダル音声認識の検討

摘要

著录项

相似文献

相关主题

期刊订阅