首页> 中文学位 >会议室环境下基于音频视频信息融合的多说话人识别
【6h】

会议室环境下基于音频视频信息融合的多说话人识别

代理获取

目录

文摘

英文文摘

论文说明:图表目录

第1章 绪论

1.1 课题的研究目的与意义

1.2 课题的研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 现有会议室环境研究项目简介

1.3.1 Interactive Multimodal Information Management

1.3.2 Computer in the Human Interaction Loop

1.3.3 Augmented Multimodal Interaction

1.3.4 其他类似研究项目

1.4 现有仿真语料库介绍

1.5 本文的主要内容和各章节安排

第2章 基于音频信息的多说话人识别

2.1 滤波与语音增强技术

2.1.1 维纳滤波技术

2.1.2 倒谱均值相减技术

2.1.3 语音波束叠加与到达时间延迟

2.2 常用音频特征简介

2.2.1 线性预测系数

2.2.2 线性预测倒谱系数

2.2.3 Mel频率倒谱系数

2.3 语音/非语音检测技术

2.3.1 基于能量的语音/非语音检测

2.3.2 基于模型的语音/非语音检测法

2.4 说话人分割

2.4.1 基于似然度的分割技术

2.4.2 其他分割技术

2.5 说话人聚类

2.5.1 自下而上的聚类技术

2.5.2 自上而下的聚类技术

2.5.3 敌友聚类

2.6 现有说话人识别系统介绍

2.7 本章小结

第3章 基于视频信息的说话人检测与识别技术

3.1 常见说话人视频特征简介

3.1.1 指纹特征

3.1.2 虹膜特征

3.1.3 人脸特征

3.2 人脸活动检测技术

3.2.1 背景消减法

3.2.2 帧问差分法

3.2.3 光流检测法

3.2.4 边缘检测法

3.2.5 运动矢量法

3.3 本章小结

第4章 实验过程与仿真结果

4.1 利用非语义特征识别多人会议中的最主要说话人

4.1.1 引言

4.1.2 实验数据与实验方法

4.1.3 结果与讨论

4.1.4 结论与展望

4.2 基于GMM的多说话人识别系统

4.2.1 引言

4.2.2 系统结构描述

4.2.3 实验语料库介绍

4.2.4 实验结果与讨论

4.2.5 结论与展望

4.3 基于帧差法的说话人面部活动检测技术

4.3.1 引言

4.3.2 实验过程介绍

4.3.3 实验结果与讨论

4.3.4 结论与展望

4.4 音频视频特征的融合与多说话人的识别

4.4.1 引言

4.4.2 实验过程介绍

4.4.3 实验结果与讨论

4.4.4 总结与展望

总结与展望

总结

展望

参考文献

致谢

附录A 攻读硕士学位期间参与的科研项目与发表的学术论文

展开▼

摘要

随着传感器技术的不断发展和音视频处理技术的不断提高,利用音视频融合方法进行说话人识别已经成为当前身份识别领域重要的技术手段。一个典型的应用就是会议室环境下的说话人识别。
   本文以AMI语料库中的视听会议为仿真材料,利用音视频融合的方法对会议过程中的多说话人进行了识别研究,具体工作如下:
   文章首先利用说话长度、说话能量、说话次数等单一特征以及上述特征的有效组合,对会议过程中的最主要说话人进行了识别。并对各项特征及特征组合的有效性进行了分析和排序。之后,实验利用严格和宽松两种评判标准,对会议中存在多位最主要说话人的情况进行了讨论。
   接下来,本文以ICSI RT07s说话人识别系统为参考,设计了基于音频信息的说话人识别系统。在语音活动检测阶段,实验运用高斯混合模型为语音/非语音检测器建模。与ICSI RT07s系统中基于隐马尔可夫模型的语音/非语音检测器相比,基于高斯混合模型的语音检测器原理清晰、可扩展性好,是本次研究的创新之处。之后,实验对建模过程中涉及到的若干可调参数进行了优化,并运用各项可调参数的最优值完成了说话人建模过程。
   在视频识别阶段,实验首先从数学原理出发,比较了两种帧问差分算法的优劣,并运用效果较好的一种帧差法对视频片段中面部活动水平最大的参会人进行了检测,将该参会人识别为会议中的晚话人。与国外基于MPEG视频压缩格式的检测方法相比,本文的帧羞法可以在任何视频格式下使用,是本次研究的另一个创新之处。
   在分别得到音频和视频识别结果之后,本文通过贪心的匹配融合算法,对音频和视频识别结果进行匹配关联,完成了不同模态下识别结果的融合。实验运用58段同步的音视频语料对融合算法的有效性进行了测试。结果表明,随着测试语料长度的增加,识别准确率也随之增加。系统对于58段测试语料整体的识别率可达74.14%。
   与传统的基于单模态信息的说话人识别相比,利用信息融合手段进行说话人识别可以有效提高识别过程的持续性和鲁棒性。当一类信息受到干扰或发生遮挡时,仍然可以利用另一类信息的有效性,完成说话人的识别。此外,基于音频视频联合的说话人识别,可以使实验人员在识别出说话人语音的同时,进一步看到说话人的相貌,从而使识别结果更加直观生动。这些都是本次研究的意义所在。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号