应用于视频内容分析的话者辨识系统

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着多媒体、互联网、大容量存储等技术的不断发展，数字化视频开始进入人们的日常生活。为发挥海量视频数据的资源共享优势，支持视频非线性编辑、语义理解和高效检索，完善和发展视频内容分析技术迫在眉睫。经过早期基于图像信息的研究，越来越多的研究者发现由于机器视觉和模式识别的发展限制，自动提取视频的语义是比较困难的。音频作为视频文档中包含的另外一种类型时间媒体，是一种可为视觉信息提供重要补充的信息源。音频流所包含的语义信息往往比图像流丰富，提取语义信息也更加直观方便。因此，基于音频的视频内容分析技术，近年来已逐渐成为基于内容多媒体检索和过滤研究的热点。本文提出了一种应用于视频内容分析的话者辨识系统。相对于通用的话者辨识系统，论文研究考虑以下几点：首先，从视频数据中提取的音频流中不仅包含静音和语音，还包括音乐和背景音；其次，视频内容中的话者数目无法预先得知，系统也无法直接获得用来训练话者模型的纯净的话者数据；最后，视频内容中大量存在的各种噪声将加剧训练数据和测试数据的失配，严重影响话者辨识系统的性能。基于上述实际系统中的考虑，本文提出的应用于视频内容分析的话者辨识系统架构主要包括：基于规则和支持向量机的音频分类与分割；基于谱聚类的话者聚类和基于高斯混合模型的话者辨识；基于谱减法的语音增强。围绕应用于视频内容分析的话者辨识系统，本文的主要工作包括： (1)本文对话者辨识的原理和算法进行了深入的研究和分析，实现了基于高斯混合模型的话者辨识，验证了该方法在应用于视频内容分析的话者辨识系统中的有效性。 (2)SVM是建立在VC维，泛化性能和推广能力之上的一种理论，对SVM中的相关概念(支持向量、核函数等)进行了介绍。根据本文中实际系统的考虑，提出并实现了基于三个支持向量机的分类器架构，验证了该架构的可用性。 (3)本文对语音增强的原理和算法进行了分析和比较，实现了谱减法在应用于视频内容分析的话者辨识系统中的应用，验证了方法的可用性。实验数据来源于新闻视频、访谈视频和电影视频。实验结论证明了本文提出系统的有效性。

著录项

作者
毕竞;
展开▼
作者单位

北京邮电大学;

展开▼
授予单位北京邮电大学;
学科信号与信息处理
授予学位硕士
导师姓名李学明;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
视频内容分析; 话者辨识; 高斯混合模型; 话者聚类;

相似文献

中文文献
外文文献
专利

1. 视频内容分析技术剖析及在校园视频监控系统的应用探讨 [J] . 段长征 . 山东农业大学学报（自然科学版） . 2012,第001期
2. 智能视频内容分析系统设计与实现 [J] . 盛仲飙 . 电脑知识与技术 . 2021,第033期
3. 视频内容分析系统的结构设计与应用 [J] . 邹治伟 ,李宏权 . 武汉船舶职业技术学院学报 . 2005,第005期
4. 一种应用于视频点播系统的视频检索方法 [J] . 闫君飞 ,王嵩 ,李俊 . 小型微型计算机系统 . 2008,第008期
5. 一种应用于摊铺行驶系统辨识的变延时Smith预估策略 [J] . 叶云飞 ,赵爽 . 黑龙江科技信息 . 2015,第030期
6. SCAS:基于BSU的足球视频内容分析系统 [C] . 陈剑赟 ,李云浩 ,文军 . 2003中国计算机大会 . 2003
7. 应用于网络视频监控系统的嵌入式视频采集与GUI设计 [A] . 吴桂祥 . 2007

应用于视频内容分析的话者辨识系统

目录

摘要

著录项

相似文献

相关主题

期刊订阅