首页> 中国专利> 一种基于标签扩增与多频谱图融合的声音场景识别方法

一种基于标签扩增与多频谱图融合的声音场景识别方法

摘要

本发明公开了一种基于标签扩增与多频谱图融合的声音场景识别方法,包括:利用不同的信号处理技术,为声音场景数据生成多种频谱图;针对每种频谱图,分别训练一个深度卷积神经网络模型,做为基础分类模型;利用标签扩增技术,为样本扩增超类别标签,使用人为构造的层次标签,将原有网络模型改进为多任务学习模型,优化基础分类模型的性能;利用改进的基础分类模型提取样本特征,拼接声音场景文件的多个深度特征,并加以降维得到全局特征。融合对应不同频谱图的多个全局特征,训练SVM分类器,做为最终分类模型。本发明应用多频谱图特征融合技术,有效提升识别性能;提出的标签扩增及模型提升方法,能有效优化基础分类器性能,可推广到其它应用研究中。

著录项

  • 公开/公告号CN108932950B

    专利类型发明专利

  • 公开/公告日2021-07-09

    原文格式PDF

  • 申请/专利权人 华南师范大学;

    申请/专利号CN201810479614.0

  • 发明设计人 郑伟平;刑晓涛;莫振尧;

    申请日2018-05-18

  • 分类号G10L25/30(20130101);G10L25/51(20130101);G10L25/18(20130101);G06K9/62(20060101);G06N3/04(20060101);

  • 代理机构44245 广州市华学知识产权代理有限公司;

  • 代理人李斌

  • 地址 510631 广东省广州市天河区中山大道西55号计算机学院

  • 入库时间 2022-08-23 12:06:32

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号