基于深层神经网络的音频特征提取及场景识别研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

音频场景识别(Audio Context Recognition)是人工智能领域重要的研究方向之一，该技术依据周边声音感知环境动态，对机器作出进一步智能选择有着非常重要的意义。近年来有较多的学者涉足这一研究方向，他们大多采用先特征提取后分类器分类的研究框架，其中，对如何提取能够反映音频场景声学特性的识别特征方面给与了较多的关注。所采用的声学特征可以粗略的分为两大类：短时特征和长时特征。短时特征如单音轨梅尔频率倒谱系数、多音轨梅尔频率倒谱系数、梅尔频率倒谱系数和稀疏特征的联合特征等；长时特征多为音频段的长时统计值或基于语义相关性的特征等。从研究结果上看，目前的声学特征都有其不足之处，短时特征往往不足以完整地刻画一个音频场景的特性，长时特征往往缺乏对音频段内部细节的描述，而长时统计值中缺失的内部结构信息对区分音频场景也有重用的价值。本文对既能反映音频段长时特性又能反映局部结构性的声学特征的提取方法进行研究，并验证了它们在音频场景识别任务中的有效性。
　　深层神经网络能够通过自学习来发现适合分类任务的特征向量，这已经在图像尤其是自然图像的结构性特征分析方面得到了验证，这些特征提取方法能够很好地反映出图像的结构信息，相对于主观分析方法有着很大的优势。所以，本课题借助深层神经网络的特征分析能力在语谱图上进行场景长时结构性特征的分析与提取。主要研究内容如下：
　　首先研究了基于卷积神经网络的音频场景特征分析提取方法，卷积神经网络通过卷积和下采样操作对输入数据进行非线性映射,最终通过重构误差的反向传播进行参数的调节，从而提取出能够刻画音频场景特性的声学特征。卷积神经网络在训练是以输入数据的类别重构误差最小化为优化目标的，所以训练过程需要大量的有标签数据。
　　现实情况下，往往难以得到大量带标签的训练数据，因为对数据进行标注费时费力，所以本文也提出了基于解卷积神经网络的特征提取方法。解卷积神经网络模型在特征分析处理过程中不仅保留了卷积神经网络的卷积操作和下采样操作，而且还在原来的基础上有了些改进，其参数更新过程是基于对输入数据重构误差的反向传播进行的，这样就不需要带标签的数据。采用这种特征提取方法，音频场景数据的采集相对来说就较为容易，训练数据不足的问题就得到了很好的解决。
　　通过实验验证，我们得到的结果是，采用基于卷积神经网络得到的音频特征，进行场景识别的性能有很大提升；基于解卷积神经网络分析得到的特征虽然对识别性能没有较大的提升，但是针对训练数据不足的问题它还是有效的。

著录项

作者
王乃峰;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机技术
授予学位硕士
导师姓名郑铁然;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;人工神经网络与计算;
关键词
音频特征提取; 场景识别; 声音感知; 神经网络; 卷积操作;

相似文献

中文文献
外文文献
专利

1. 多优化机制下深度神经网络的音频场景识别 [J] . 杨立东 ,胡江涛 . 信号处理 . 2021,第010期
2. 基于音频分类的森林盗伐事件场景识别 [J] . 杨立东 ,靳浩杨 ,王硕 . 计算机仿真 . 2020,第008期
3. 基于小波谱图和深度卷积网络的音频场景识别新框架 [J] . 陈航艇 . 网络新媒体技术 . 2019,第002期
4. 基于小波谱图和深度卷积网络的音频场景识别新框架 [J] . 陈航艇1 . 网络新媒体技术 . 2019,第002期
5. 基于神经网络的室内外场景识别方法 [J] . 胡贤贤 ,汪云甲 ,孙猛 . 科学技术与工程 . 2021,第003期
6. 基于DNN和多模态信息融合的复杂音频场景识别 [C] . 史秋莹 ,郑铁然 ,韩纪庆 . 第十四届全国人机语音通讯学术会议 . 2017
7. 基于稀疏表示和深层神经网络的音频场景识别研究 [A] . 林婵 . 2020

基于深层神经网络的音频特征提取及场景识别研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅