声明
致谢
摘要
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状
1.3 系统概述
1.4 论文的创新点及章节安排
1.4.1 本文的研究创新点
1.4.2 本文章节内容安排
第二章 相关理论
2.1 自动语音识别
2.1.1 动态时间规整算法
2.1.2 隐马尔可夫模型
2.2 人脸检测与唇动分析
2.2.1 人脸检测
2.2.2 唇动分析
2.3 本章小结
第三章 说话人分割聚类技术
3.1 引言
3.1.1 说话人分割聚类系统概述
3.1.2 本章内容安排
3.2 参数提取与话者建模
3.2.1 语音参数的提取
3.2.2 话者模型的建立
3.3 距离测度的选择与聚类停止准则
3.3.1 距离测度
3.3.2 贝叶斯判据简介
3.4 说话人分割
3.4.1 本章选用的算法
3.4.2 实验及分析
3.5 说话人聚类
3.5.1 本章选用的算法
3.5.2 实验及分析
3.6 分割聚类系统的实验及分析
3.6.1 系统的评价指标
3.6.2 实验及分析
3.7 本章小结
第四章 人脸与字幕的匹配
4.1 语音序列与图像序列的预处理
4.2 “只有一个人说话”时的人脸与语音的匹配
4.3 特殊情况下的人脸与语音的匹配
4.4 语音盲源分离技术
4.4.1 ICA
4.4.2 FastICA
4.4.3 本文使用的方案
4.4.4 实验及分析
4.5 本章小结
第五章 总结与展望
5.1 本文的工作总结
5.2 研究展望
参考文献
攻读硕士学位期间的学术活动及成果情况