多模式汉语连续语音识别中视觉特征的提取和应用

刘鹏; 王作英

首页> 中文期刊> 《中文信息学报》 >多模式汉语连续语音识别中视觉特征的提取和应用

多模式汉语连续语音识别中视觉特征的提取和应用

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

本文对在汉语多模式汉语语音识别系统中利用视觉特征进行了研究,给出了基于多流隐马尔科夫模型 (Multi-stream HMM, MSHMM)的听视觉融合方案,并对有关视觉特征的两项关键技术：嘴唇定位和视觉特征提取进行了详细讨论.首先,我们研究了基于模板匹配的嘴唇跟踪方法；然后研究了基于线性变换的低级视觉特征,并与基于动态形状模型的特征作了比较；实验结果表明,引入视觉信息后无噪环境下语音识别声学层首选错误率相对下降36.09%,在噪声环境下的鲁棒性也有明显提高.

著录项

来源
《中文信息学报》 |2004年第4期|79-84|共6页
作者
刘鹏; 王作英;
展开▼
作者单位

清华大学,电子工程系网络与人机语音通信研究所,北京,100084;

清华大学,电子工程系网络与人机语音通信研究所,北京,100084;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
计算机应用; 中文信息处理; 多模式; 听-视觉融合; 视觉特征提取; 鲁棒性;

相似文献

中文文献
外文文献
专利

1. 汉语连续语音识别中的分级聚类算法的研究和应用 [J] . 徐向华 ,朱杰 ,郭强 . 信号处理 . 2004,第005期
2. 内模滤波新方法在视觉诱发脑电信号提取中的应用--提取视觉诱发脑电信号的新方法之四 [J] . 徐宁寿 ,张建华 ,曹正才 . 北京工业大学学报 . 2001,第002期
3. 内模自适应卡尔曼滤波在视觉诱发脑电信号提取中的应用--提取视觉诱发脑电信号的新方法之五 [J] . 徐宁寿 ,张建华 ,曹正才 . 北京工业大学学报 . 2001,第002期
4. 小波变换在视觉诱发脑电信号提取中的应用——提取视觉诱发脑电信号的新方法之三 [J] . 徐宁寿 ,张建华 ,曹正才 . 北京工业大学学报 . 2000,第004期
5. 模糊聚类局部保存投影在视觉数据特征提取中的应用 [J] . 张乾 ,杨玉成 ,岳诗琴 . 科学技术与工程 . 2019,第029期
6. 多模式汉语连续语音识别中视觉特征的提取和应用 [C] . 刘鹏 ,王作英 . 第七届全国人机语音通讯学术会议 . 2003
7. 汉语连续语音识别及其在移动机器人导航中的应用 [A] . 马萧 . 2007

多模式汉语连续语音识别中视觉特征的提取和应用

摘要

著录项

相似文献

相关主题

期刊订阅