首页> 中文学位 >基于概率潜在语义分析的音频场景识别方法
【6h】

基于概率潜在语义分析的音频场景识别方法

代理获取

目录

封面

中文摘要

英文摘要

目录

第1章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 本文的主要研究内容

第2章 基于MFCC长时特征和支持向量机的音频场景识别方法

2.1 概述

2.2 MFCC特征向量提取

2.3 支持向量机模型基本理论

2.4 基于长时特征和SVM模型的音频场景识别方法

2.5 本章小结

第3章 基于概率潜在语义分析的音频场景识别方法

3.1 概述

3.2 高斯混合模型基本理论

3.3 概率潜在语义分析模型基本理论

3.4 基于概率潜在语义分析模型的音频场景识别方法

3.5 实验结果与讨论

3.6 本章小结

第4章 基于近邻传播聚类算法和音频分割的系统改进

4.1 概述

4.2 近邻传播聚类算法基本理论

4.3 基于AP算法和音频分割的音频场景识别系统改进

4.4 本章小结

结论

参考文献

声明

致谢

展开▼

摘要

随着音视频网络的飞速发展和人们生活水平的不断提高,各种记录日常生活点滴的音视频文件如潮水般涌现在各大音视频网站,并伴随着人为主题标注的主观性和随意性,以及录制工具带来的音视频质量差异性,给管理和识别这些音视频文件带来巨大挑战。因此,急需有效的智能系统对这些音视频文件进行分门别类的管理,而且,以声音为决策依据的智能系统不仅能在管理和识别音频文件领域有着不可替代的作用,还可以通过分析视频文件的伴音信息对基于视觉的智能系统提供技术支持和补充。
  音频场景识别是解决以上问题的有效手段之一。音频场景可以看作是刻画和区分音频内容的一种特定的语义标签,它由一系列语义上相关、时间上相邻的声学事件构成。因而音频场景识别实质上是对音频内容语义层面的识别和理解。传统的音频场景识别方法主要分为三类:其一是基于启发式规则的音频场景识别,一般是在提取音频特征之后通过将其与特定的特征阈值相比较来实现分类;其二是基于最小距离的音频场景识别方法,为每类音频场景建立模板,然后通过计算待测音频与模板间的相似度或空间距离进行识别;其三是基于统计理论的音频场景识别,如基于高斯混合模型的音频识别方法和基于隐马尔可夫的音频场景识别方法等。简单来说,上述方法不是直接识别音频场景,而是通过检测与特定音频场景紧密相关的关键声学事件的出现来间接识别音频场景。这种基于关键声学事件的识别策略对实验环境和实验语料的要求较高,在识别相似的音频场景时力不从心,提取或定义相似音频场景的关键声学事件的难度非常大。尽管如此,基于关键声学事件的音频场景识别方法仍然极具借鉴意义,可以通过对共现声学事件的挖掘在广义上对基于关键声学事件的音频场景识别思想进行扩展。参照在文本语义分析中的研究方法,将共现声学事件视为同义词,将出现在多个场景的同一声学事件视为多义词。本文正是针对音频场景识别遇到的问题和需求提出一种消除声学事件同义性和多义性影响的音频场景识别方法,方法的核心是概率潜在语义分析模型。
  基于概率潜在语义分析的音频场景识别方法的首要步骤是构建声学事件类字典,这一过程主要通过高斯混合模型实现,高斯分量决定了某MFCC特征向量隶属哪一个声学事件类;其次是去除具有同义性和多义性的声学事件对音频场景识别的影响,这一步骤通过概率潜在语义分析模型完成;最后,通过支持向量机模型对概率潜在语义分析模型处理后的音频场景文件进行分类。为了检验基于概率潜在语义分析模型的音频场景识别方法的实验效果,本文以经典的基于MFCC长时统计特征和支持向量机模型的音频场景方法作为基线系统,音频长时统计特征在音频场景识别中的意义和支持向量机模型分类稳定性决定了基线系统的比较意义。接下来,本文对基于概率潜在语义分析模型的音频识别方法进行了改进,一方面通过近邻传播聚类算法实现音频场景文件的自由聚类,另一方面引入了音频场景分割的思想,将音频文件转化成由声学事件类按序构成的文件。音频场景分割是通过高斯模型构建的声学事件类字典指导完成,从而实现了完整意义下的基于内容的音频场景识别。研究结果表明,基于概率潜在语义分析的音频场景识别方法能够有效的处理同义的和多义的声学事件类对音频场景识别的影响,基于近邻传播聚类算法和音频场景分割改进的系统的性能有所提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号