画像特徴量の正規化によるマルチモーダル音声認識の改善

石川　雅人; 田村　哲嗣; 速水　悟

首页> 外文期刊>電子情報通信学会技術研究報告 >画像特徴量の正規化によるマルチモーダル音声認識の改善

【24h】

画像特徴量の正規化によるマルチモーダル音声認識の改善

机译：通过归一化图像特征改进多峰语音识别

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

音声と口唇動画像を用いたマルチモーダル音声認識は，雑音に強い頑健な音声認識として注目され，研究が行われている．マルチモーダル音声認識では画像特徴量が重要な役割を果たし，オプティカルフローや主成分スコアなど，さまざまな特徴量でその有効性が示されている．画像特徴量に関しては，どのような情報を用いるのかに加え，どのように直交化や正規化などの処理を行うかも，認識性能に重要な影響を及ぼす．そこで本研究では，画像特徴量の直交化について，さまざまな検討を行った．具体的には，画像特徴量を特異債分解や主成分分析を用いることで，認識率の改善に成功した．%Multimodal speech recognition, namely MMASR, which uses speech and lip images has been developed as a robust automatic speech recognition (ASR) against various noises. Visual features, such as optical-flow parameters or principle component analysis (PCA) coefficients, play a great role in MMASR and their effectiveness are proven through experimental results. It is crucial for recognition accuracy not only which visual information should be adopted but also how feature orthogonalization and normalization should be applied. This paper compares conventional normalization methods of visual features and their performances; extracted visual features are converted into uncorrelated parameters using singular value decomposition or PCA, then using these features the recognition accuracy is improved.

机译：使用语音和嘴唇运动图像的多模式语音识别已经引起人们的关注，并被研究为具有抗噪性的强大语音识别。图像特征在多模式语音识别中起着重要作用，其有效性已在各种特征（例如光流和主成分评分）中得到证明。关于图像特征，不仅使用什么信息，而且如何进行正交化和归一化将对识别性能具有重要影响。因此，在本研究中，对图像特征的正交化进行了各种研究。具体而言，我们通过对图像特征使用奇异键分解和主成分分析成功提高了识别率。％使用语音和嘴唇图像的多模态语音识别（即MMASR）已被开发为一种针对各种噪声的强大的自动语音识别（ASR）。视觉特征，例如光流参数或主成分分析（PCA）系数实验结果证明了其在MMASR中的重要作用及其有效性。对于识别精度而言，不仅要采用哪种视觉信息，而且对于特征正交化和归一化方法也至关重要。本文比较了传统的视觉特征归一化方法及其性能；使用奇异值分解或PCA将提取的视觉特征转换为不相关的参数，然后使用这些特征提高识别精度。

著录项

来源
《電子情報通信学会技術研究報告》 |2008年第312期|p.7-12|共6页
作者
石川　雅人; 田村　哲嗣; 速水　悟;
展开▼
作者单位

岐阜大学大学院工学研究科　〒501-1193　岐阜県岐阜市柳戸　1-1;

岐阜大学工学部　〒501-1193　岐阜県岐阜市柳戸　1-1;

岐阜大学工学部　〒501-1193　岐阜県岐阜市柳戸　1-1;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
マルチモーダル音声認識; マルチストリームHMM; 画像特徴量; 直交化;

机译：多模式语音识别;多流HMM;图像特征;正交化;
入库时间 2022-08-18 00:37:51

相似文献

外文文献
中文文献
专利

1. 画像特徴量の正規化によるマルチモーダル音声認識の改善 [J] . 石川雅人, 田村哲嗣, 速水悟, 電子情報通信学会技術研究報告. 音声. Speech . 2008,第312期

机译：通过规范化图像特征改进了多模式语音识别
2. 画像特徴量の正規化によるマルチモーダル音声認識の改善 [J] . 石川雅人, 田村哲嗣, 速水悟, 電子情報通信学会技術研究報告. 音声. Speech . 2008,第312期

机译：通过图像特征数量的归一化改进多式化语音识别
3. 身体運動·音声·映像の特徴を用いた統合モデルによるマルチモーダルジェスチャー認識 [J] . 郷津優介, 小林誠季, 小原潤哉, 計測自動制御学会論文集 . 2015,第6期

机译：使用运动，音频和视频功能的集成模型进行多模式手势识别
4. 運動·音声·画像の特徴を用いた統合モデルによるマルチモーダルジェスチャー認識 [C] . 郷津優介, 小林誠季, 小原潤哉, ロボティクスシンポジア . 2014

机译：通过运动，语音和图像特性通过集成模型来识别多模式手势
5. ローダミンサルコーマのクロマチンによるラット肝臓のピルビン酸キナーゼアイソザイムの変動について [D] . 中村, 敏一 -1

机译：罗丹明肉瘤染色质对大鼠肝脏丙酮酸激酶同工酶的影响
6. リシン残基のメチル化修飾に特異的に結合する蛋白質によるヌクレオソーム構造内のH3の9番目のメチル化リシンの選択的認識機構に関する研究 [O] . 三島優一, ミシマユウイチ 2017

机译：通过特异性结合赖氨酸残基甲基化修饰的蛋白质，对核小体结构中H3的第9个甲基化赖氨酸的选择性识别机制进行研究

画像特徴量の正規化によるマルチモーダル音声認識の改善

摘要

著录项

相似文献

相关主题

期刊订阅