声明
1 绪论
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 基于特征提取的研究现状
1.2.2 基于深度学习的音频场景分类研究现状
1.2.3 目前研究存在的问题
1.3 本文研究内容
1.4 本文组织结构
2 音频场景分类理论基础
2.1 音频场景分类的基本原理
2.2 音频预处理
2.2.1 预加重
2.2.2 分帧
2.2.3 加窗
2.3 特征提取
2.3.1 梅尔声谱图
2.3.2 梅尔频率倒谱系数
2.4 实验准备
2.4.1 实验数据集
2.4.2 实验环境
2.4.3 评价指标
2.5 本章小结
3 基于CNN的音频场景分类
3.1 卷积神经网络理论基础
3.1.1 卷积层
3.1.2 池化层
3.1.3 全连接层
3.1.4 激活函数
3.1.5 正则化
3.2 基于两种音频特征提取的算法研究
3.2.1 基于梅尔声谱图提取
3.2.2 基于梅尔频率倒谱系数特征提取
3.2.3 实验结果与分析
3.3 基于CNN模型结构的改进
3.3.1 基于MFCC参数的改进
3.3.2 基于网络结构的改进
3.4 本章小结
4 基于混合卷积神经网络模型的音频场景分类
4.1 算法介绍
4.4.1 LSTM算法
4.4.2 极度梯度提升算法
4.2 基于CNN-LSTM的分类算法
4.2.1 LSTM基线模型
4.2.2 CNN-LSTM 混合模型
4.2.3 实验结果与分析
4.3 基于CNN-XGBoost 的分类算法
4.3.1 XGBoost基线模型
4.3.2 CNN-XGBoost混合模型
4.3.3 实验结果与分析
4.4 不同算法模型比较与分析
4.5 本章小结
5 总结与展望
5.1 总结
5.2 展望
参考文献
在学研究成果
致谢
内蒙古科技大学;