会议室环境下基于音频视频信息融合的多说话人识别

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着传感器技术的不断发展和音视频处理技术的不断提高,利用音视频融合方法进行说话人识别已经成为当前身份识别领域重要的技术手段。一个典型的应用就是会议室环境下的说话人识别。
　　本文以AMI语料库中的视听会议为仿真材料,利用音视频融合的方法对会议过程中的多说话人进行了识别研究,具体工作如下:
　　文章首先利用说话长度、说话能量、说话次数等单一特征以及上述特征的有效组合,对会议过程中的最主要说话人进行了识别。并对各项特征及特征组合的有效性进行了分析和排序。之后,实验利用严格和宽松两种评判标准,对会议中存在多位最主要说话人的情况进行了讨论。
　　接下来,本文以ICSI RT07s说话人识别系统为参考,设计了基于音频信息的说话人识别系统。在语音活动检测阶段,实验运用高斯混合模型为语音/非语音检测器建模。与ICSI RT07s系统中基于隐马尔可夫模型的语音/非语音检测器相比,基于高斯混合模型的语音检测器原理清晰、可扩展性好,是本次研究的创新之处。之后,实验对建模过程中涉及到的若干可调参数进行了优化,并运用各项可调参数的最优值完成了说话人建模过程。
　　在视频识别阶段,实验首先从数学原理出发,比较了两种帧问差分算法的优劣,并运用效果较好的一种帧差法对视频片段中面部活动水平最大的参会人进行了检测,将该参会人识别为会议中的晚话人。与国外基于MPEG视频压缩格式的检测方法相比,本文的帧羞法可以在任何视频格式下使用,是本次研究的另一个创新之处。
　　在分别得到音频和视频识别结果之后,本文通过贪心的匹配融合算法,对音频和视频识别结果进行匹配关联,完成了不同模态下识别结果的融合。实验运用58段同步的音视频语料对融合算法的有效性进行了测试。结果表明,随着测试语料长度的增加,识别准确率也随之增加。系统对于58段测试语料整体的识别率可达74.14％。
　　与传统的基于单模态信息的说话人识别相比,利用信息融合手段进行说话人识别可以有效提高识别过程的持续性和鲁棒性。当一类信息受到干扰或发生遮挡时,仍然可以利用另一类信息的有效性,完成说话人的识别。此外,基于音频视频联合的说话人识别,可以使实验人员在识别出说话人语音的同时,进一步看到说话人的相貌,从而使识别结果更加直观生动。这些都是本次研究的意义所在。

著录项

作者
潘鹏;
展开▼
作者单位

兰州理工大学;

展开▼
授予单位兰州理工大学;
学科信号与信息处理
授予学位硕士
导师姓名曹洁;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;算法理论;
关键词
音频特征; 语音活动检测; 高斯混合模型; 面部活动检测; 帧差法; 匹配融合; 多说话人识别;

相似文献

中文文献
外文文献
专利

1. 噪声环境下基于特征信息融合的说话人识别 [J] . 叶寒生 ,陶进绪 ,张东文 . 计算机仿真 . 2009,第003期
2. 一种噪音环境下的基于特征口形的音频视频混合连续语音识别系统 [J] . 谢磊 ,I.Cravyse ,蒋冬梅 . 计算机工程与应用 . 2003,第016期
3. 基于信息融合的短语音说话人识别方法研究 [J] . 周萍 ,唐李珍 . 计算机工程 . 2011,第002期
4. 一种基于DBN信息融合的说话人识别方法 [J] . 王润舵 . 桂林电子科技大学学报 . 2010,第006期
5. 基于听皮层神经元感受野的强噪声环境下说话人识别 [J] . 牛晓可 ,黄伊鑫 ,徐华兴 . 计算机应用 . 2020,第010期
6. 噪声环境下基于语音增强的说话人识别 [C] . 董大庆 ,窦慧晶 ,吴朝阳 . 第十四届全国信号处理学术年会 . 2009
7. 智能环境下基于音频视频信息融合的多说话人跟踪 [A] . 郑景润 . 2011

会议室环境下基于音频视频信息融合的多说话人识别

目录

摘要

著录项

相似文献

相关主题

期刊订阅