首页> 中文学位 >基于音频分割的场景分类研究
【6h】

基于音频分割的场景分类研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 绪论

1.1音频场景分类技术的研究背景和意义

1.2音频场景分割及分类技术的研究现状

1.3研究的主要工作及实现的目标

1.4本文章的结构安排

第2章 基线系统的音频分割分类研究

2.1本文语料库及实验软硬件条件

2.2基线系统的组成

2.3基线系统的仿真实验结果分析

2.4本章小结

第3章 音频场景分割技术研究

3.1 BIC定长窗音频场景分割算法

3.2改进的BIC音频场景分割算法

3.3算法仿真实验结果对比分析

3.4本章小结

第4章 音频场景分类的算法研究

4.1本章前言

4.2音频场景分割特征直方图

4.3时间金字塔

4.4三种音频场景分类方法实验仿真结果对比分析

4.5本章小结

总结与展望

参考文献

致谢

展开▼

摘要

随着多媒体产业的迅速发展、音频信号处理技术研究的深入、音频分割和分类技术在现实生活中音频检索、视频分析和语音识别方面的广泛应用,音频信号的分割和分类技术越来越得到人们在日常生活中的普遍关注。音频信号的场景分割和分类技术是音频信号处理中一项重要的内容。音频信号的分割技术就是在一段音频文件中找到不同段落的起始点、终点的位置,音频的场景分类技术就是在分割技术找到段落起始点和终点的基础上,根据不同的段落特征进行场景的识别。这两项技术是语音识别中前端处理中的最关键的技术,其性能的优劣程度必然直接影响到语音识别系统的正确率。
  本文首先介绍了音频分割和分类技术研究背景及现状,之后针对所采用的语料库,明确了音频信息中主要的音频类型,把音频分成纯语音、噪声、音乐、在背景音乐下的语音、静音和在噪声下的语音,共六种。之后分别介绍近几年国内外学者提出的一些音频分割算法,如固定窗长度的分割熵算法和基于贝叶斯信息准则(BIC)的音频分割算法,并进行仿真实验说明结果,比较这两种算法在不同情况下的优点和缺点。之后本文针对音频场景分割跳变点检测提出针对BIC算法的改进和实现,在低噪声条件下,能够很好的保证系统的准确率和鲁棒性,并减少了检测时间,实现了音频场景跳变点检测系统的高效性。由于支持向量机(SVM)能够成功的向高维空间非线性映射,本文采用支持向量机(SVM)作为分类器,运用K-means聚类算法生成字典,将每一段音频场景向生成的字典投影,从而得到每一类音频的新特征作为训练数据,根据对比出来的实验结果,说明生成的新特征与SVM分类器相结合的音频场景分类方法对于基线系统的分类方法优化了准确率。之后本文又在提取新特征上面提出了金字塔方法,进一步优化了分类系统的准确率。文章最后对分割熵和BIC两种音频分割算法进行归纳总结,并做出了一些关于音频场景跳变点检测方法的进一步改进方向和音频场景分类技术的前景展望。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号