首页> 中文期刊>科学技术与工程 >基于注意力模型的卷积循环神经网络城市声音识别

基于注意力模型的卷积循环神经网络城市声音识别

     

摘要

环境声音识别(environment sound recognition,ESR)在基于情景感知和辅助技术等领域发挥着重要作用.卷积神经网络(CNN)和循环神经网络(RNN)作为两种最具代表性的特征提取方法,在语音和音乐信号处理方面都取得显著效果;然而二者都存在一定缺点,CNN无法有效提取时间特征,RNN在提取空间特征上也存在明显劣势.为了有效提取并利用时间特征和空间特征,提出一种新模型,利用时间分布CNN从梅尔频谱图中提取城市环境声音特征,然后应用双向长短时记忆网络(BiLSTM)从CNN输出中获取时间信息,最后在输出序列上实施注意力机制,从而关注到与城市环境声音最相关的特征进而做出分类判断,注意力机制既提高了分类准确性,又增强了模型的可解释性.实验结果表明:在Urbansound8K数据集中,该模型可获得80.2%的分类准确率,这优于以往在同一数据集的报告结果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号