文摘
英文文摘
论文说明:图表目录
第1章 绪论
1.1 课题的研究目的与意义
1.2 课题的研究现状
1.2.1 国外研究现状
1.2.2 国内研究现状
1.3 现有会议室环境研究项目简介
1.3.1 Interactive Multimodal Information Management
1.3.2 Computer in the Human Interaction Loop
1.3.3 Augmented Multimodal Interaction
1.3.4 其他类似研究项目
1.4 现有仿真语料库介绍
1.5 本文的主要内容和各章节安排
第2章 基于音频信息的多说话人识别
2.1 滤波与语音增强技术
2.1.1 维纳滤波技术
2.1.2 倒谱均值相减技术
2.1.3 语音波束叠加与到达时间延迟
2.2 常用音频特征简介
2.2.1 线性预测系数
2.2.2 线性预测倒谱系数
2.2.3 Mel频率倒谱系数
2.3 语音/非语音检测技术
2.3.1 基于能量的语音/非语音检测
2.3.2 基于模型的语音/非语音检测法
2.4 说话人分割
2.4.1 基于似然度的分割技术
2.4.2 其他分割技术
2.5 说话人聚类
2.5.1 自下而上的聚类技术
2.5.2 自上而下的聚类技术
2.5.3 敌友聚类
2.6 现有说话人识别系统介绍
2.7 本章小结
第3章 基于视频信息的说话人检测与识别技术
3.1 常见说话人视频特征简介
3.1.1 指纹特征
3.1.2 虹膜特征
3.1.3 人脸特征
3.2 人脸活动检测技术
3.2.1 背景消减法
3.2.2 帧问差分法
3.2.3 光流检测法
3.2.4 边缘检测法
3.2.5 运动矢量法
3.3 本章小结
第4章 实验过程与仿真结果
4.1 利用非语义特征识别多人会议中的最主要说话人
4.1.1 引言
4.1.2 实验数据与实验方法
4.1.3 结果与讨论
4.1.4 结论与展望
4.2 基于GMM的多说话人识别系统
4.2.1 引言
4.2.2 系统结构描述
4.2.3 实验语料库介绍
4.2.4 实验结果与讨论
4.2.5 结论与展望
4.3 基于帧差法的说话人面部活动检测技术
4.3.1 引言
4.3.2 实验过程介绍
4.3.3 实验结果与讨论
4.3.4 结论与展望
4.4 音频视频特征的融合与多说话人的识别
4.4.1 引言
4.4.2 实验过程介绍
4.4.3 实验结果与讨论
4.4.4 总结与展望
总结与展望
总结
展望
参考文献
致谢
附录A 攻读硕士学位期间参与的科研项目与发表的学术论文