首页> 中文学位 >应用于视频内容分析的话者辨识系统
【6h】

应用于视频内容分析的话者辨识系统

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1研究意义和背景

1.2研究内容和主要贡献

1.3论文结构

第二章话者辨识系统概述

2.1话者辨识系统概述

2.1.1基本原理

2.1.2主要应用

2.1.3发展历史

2.1.4关键技术

2.2应用于视频内容分析的话者辨识系统

第三章应用于视频内容分析的音频分类与分割

3.1特征参数选取

3.1.1语音发声原理

3.1.2典型的音频特征参数

3.1.3应用于视频内容分析的特征参数

3.2音频分类与分割

3.2.1典型的音频分类算法

3.2.2 SVM模型

3.2.3分类架构及判决准则

3.3实验结果和结论

第四章应用于视频内容分析的聚类与话者辨识

4.1话者聚类

4.1.1典型的聚类算法

4.1.2谱聚类

4.2话者辨识

4.2.1典型的话者辨识技术

4.2.2高斯混合模型及参数估计

4.2.3实验结果和结论

第五章应用于视频内容分析的语音增强

5.1典型的语音增强算法

5.2谱减法

5.3实验结果和结论

第六章总结与展望

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

随着多媒体、互联网、大容量存储等技术的不断发展,数字化视频开始进入人们的日常生活。为发挥海量视频数据的资源共享优势,支持视频非线性编辑、语义理解和高效检索,完善和发展视频内容分析技术迫在眉睫。 经过早期基于图像信息的研究,越来越多的研究者发现由于机器视觉和模式识别的发展限制,自动提取视频的语义是比较困难的。音频作为视频文档中包含的另外一种类型时间媒体,是一种可为视觉信息提供重要补充的信息源。音频流所包含的语义信息往往比图像流丰富,提取语义信息也更加直观方便。因此,基于音频的视频内容分析技术,近年来已逐渐成为基于内容多媒体检索和过滤研究的热点。 本文提出了一种应用于视频内容分析的话者辨识系统。相对于通用的话者辨识系统,论文研究考虑以下几点:首先,从视频数据中提取的音频流中不仅包含静音和语音,还包括音乐和背景音;其次,视频内容中的话者数目无法预先得知,系统也无法直接获得用来训练话者模型的纯净的话者数据;最后,视频内容中大量存在的各种噪声将加剧训练数据和测试数据的失配,严重影响话者辨识系统的性能。 基于上述实际系统中的考虑,本文提出的应用于视频内容分析的话者辨识系统架构主要包括:基于规则和支持向量机的音频分类与分割;基于谱聚类的话者聚类和基于高斯混合模型的话者辨识;基于谱减法的语音增强。 围绕应用于视频内容分析的话者辨识系统,本文的主要工作包括: (1)本文对话者辨识的原理和算法进行了深入的研究和分析,实现了基于高斯混合模型的话者辨识,验证了该方法在应用于视频内容分析的话者辨识系统中的有效性。 (2)SVM是建立在VC维,泛化性能和推广能力之上的一种理论,对SVM中的相关概念(支持向量、核函数等)进行了介绍。根据本文中实际系统的考虑,提出并实现了基于三个支持向量机的分类器架构,验证了该架构的可用性。 (3)本文对语音增强的原理和算法进行了分析和比较,实现了谱减法在应用于视频内容分析的话者辨识系统中的应用,验证了方法的可用性。 实验数据来源于新闻视频、访谈视频和电影视频。实验结论证明了本文提出系统的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号