基于概率潜在语义分析的音频场景识别方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着音视频网络的飞速发展和人们生活水平的不断提高,各种记录日常生活点滴的音视频文件如潮水般涌现在各大音视频网站,并伴随着人为主题标注的主观性和随意性,以及录制工具带来的音视频质量差异性,给管理和识别这些音视频文件带来巨大挑战。因此,急需有效的智能系统对这些音视频文件进行分门别类的管理,而且,以声音为决策依据的智能系统不仅能在管理和识别音频文件领域有着不可替代的作用,还可以通过分析视频文件的伴音信息对基于视觉的智能系统提供技术支持和补充。
　　音频场景识别是解决以上问题的有效手段之一。音频场景可以看作是刻画和区分音频内容的一种特定的语义标签,它由一系列语义上相关、时间上相邻的声学事件构成。因而音频场景识别实质上是对音频内容语义层面的识别和理解。传统的音频场景识别方法主要分为三类:其一是基于启发式规则的音频场景识别,一般是在提取音频特征之后通过将其与特定的特征阈值相比较来实现分类;其二是基于最小距离的音频场景识别方法,为每类音频场景建立模板,然后通过计算待测音频与模板间的相似度或空间距离进行识别;其三是基于统计理论的音频场景识别,如基于高斯混合模型的音频识别方法和基于隐马尔可夫的音频场景识别方法等。简单来说,上述方法不是直接识别音频场景,而是通过检测与特定音频场景紧密相关的关键声学事件的出现来间接识别音频场景。这种基于关键声学事件的识别策略对实验环境和实验语料的要求较高,在识别相似的音频场景时力不从心,提取或定义相似音频场景的关键声学事件的难度非常大。尽管如此,基于关键声学事件的音频场景识别方法仍然极具借鉴意义,可以通过对共现声学事件的挖掘在广义上对基于关键声学事件的音频场景识别思想进行扩展。参照在文本语义分析中的研究方法,将共现声学事件视为同义词,将出现在多个场景的同一声学事件视为多义词。本文正是针对音频场景识别遇到的问题和需求提出一种消除声学事件同义性和多义性影响的音频场景识别方法,方法的核心是概率潜在语义分析模型。
　　基于概率潜在语义分析的音频场景识别方法的首要步骤是构建声学事件类字典,这一过程主要通过高斯混合模型实现,高斯分量决定了某MFCC特征向量隶属哪一个声学事件类;其次是去除具有同义性和多义性的声学事件对音频场景识别的影响,这一步骤通过概率潜在语义分析模型完成;最后,通过支持向量机模型对概率潜在语义分析模型处理后的音频场景文件进行分类。为了检验基于概率潜在语义分析模型的音频场景识别方法的实验效果,本文以经典的基于MFCC长时统计特征和支持向量机模型的音频场景方法作为基线系统,音频长时统计特征在音频场景识别中的意义和支持向量机模型分类稳定性决定了基线系统的比较意义。接下来,本文对基于概率潜在语义分析模型的音频识别方法进行了改进,一方面通过近邻传播聚类算法实现音频场景文件的自由聚类,另一方面引入了音频场景分割的思想,将音频文件转化成由声学事件类按序构成的文件。音频场景分割是通过高斯模型构建的声学事件类字典指导完成,从而实现了完整意义下的基于内容的音频场景识别。研究结果表明,基于概率潜在语义分析的音频场景识别方法能够有效的处理同义的和多义的声学事件类对音频场景识别的影响,基于近邻传播聚类算法和音频场景分割改进的系统的性能有所提升。

著录项

作者
周成豪;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名郑铁然;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
声学事件; 高斯混合模型; 支持向量机; 概率潜; 语义分析; 音频场景识别;

相似文献

中文文献
外文文献
专利

1. 基于音频指纹的压缩域音频识别方法研究 [J] . 明建成 ,韩威 . 科学技术与工程 . 2014,第016期
2. 基于音频识别的采煤机滚筒载荷识别方法 [J] . 庄德玉 . 工矿自动化 . 2022,第1期
3. 基于音频特征的音乐音符智能切分识别方法 [J] . 任瑞 . 信息技术 . 2021,第012期
4. 基于残差网络和随机森林的音频识别方法 [J] . 张晓龙 ,彭宜 . 计算机工程与科学 . 2019,第004期
5. 基于音频信号分析技术的雏鸡性别识别方法探究 [J] . 陈果 ,杨川 ,周川云 . 电子测试 . 2014,第002期
6. 音频场景分类的音频特征提取和分析 [C] . 姜洪臣 ,梁伟 ,张树武 . 第八届全国人机语音通讯学术会议（NCMMSC8) . 2005
7. 基于深度学习的音频场景识别方法研究 [A] . 李琪 . 2018

基于概率潜在语义分析的音频场景识别方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅