首页> 中国专利> 基于音频信号及歌词的音乐情绪识别方法及系统

基于音频信号及歌词的音乐情绪识别方法及系统

摘要

本发明提出一种基于音频信号及歌词的音乐情绪识别方法及系统,解决了现有音乐情绪识别的方法考虑因素单一,情绪识别准确度低的问题,本发明首先采集音频数据样本和歌词数据样本并进行预处理,然后分别构建并训练好用于提取音频信号特征和歌词向量特征的两个卷积神经网络,最后再将两个神经网络的输出融合后输入至全连接层模块进行分析预测,综合了音频信号和歌词两个模态维度,将音频信号和音乐歌词结合识别情绪,提升音乐情绪识别的准确度。

著录项

  • 公开/公告号CN113129871A

    专利类型发明专利

  • 公开/公告日2021-07-16

    原文格式PDF

  • 申请/专利权人 广东工业大学;

    申请/专利号CN202110328406.2

  • 申请日2021-03-26

  • 分类号G10L15/06(20130101);G10L15/16(20060101);G10L15/26(20060101);G10L25/63(20130101);G06F40/30(20200101);G06N3/04(20060101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 510090 广东省广州市越秀区东风东路729号

  • 入库时间 2023-06-19 11:52:33

说明书

技术领域

本发明涉及音乐情绪识别的技术领域,更具体地,涉及一种基于音频信号及歌词的音乐情绪识别方法及系统。

背景技术

随着音乐及科技的发展,音乐情绪识别系统被积极地用于各种目的,包括个人音乐收藏、音乐推荐系统,以及音乐治疗情绪障碍。分析音乐的情感内容是一项跨学科的研究,不仅包括信号处理和机器学习,还包括听觉感知概念、心理学、认知科学和音乐学。

目前的音乐情感识别方法首先通过提取节奏、音调等音乐声学内容的声学特征,然后再应用不同的机器学习算法来理解音乐提取的特征与预先设定的情感标签之间的关系。

2020年6月23日,公开号为CN111326178A的中国专利中公开了一种基于卷积神经网络的多模态语音情感识别系统及方法,通过卷积神经网络处理语音信号,从而通过提取语音特征分析识别语音中的情感信息,在一定程度上提高了分析识别的准确度,但是忽略了歌词在音乐情绪识别中的作用,因此音乐情绪识别的准确度有待进一步提高,而当前也缺少将音频信号及音乐歌词结合的音乐情绪识别方法研究。

发明内容

为解决现有音乐情绪识别的方法考虑因素单一,情绪识别准确度低的问题,本发明提出一种基于音频信号及歌词的音乐情绪识别方法及系统,将音频信号和音乐歌词结合识别情绪,提升音乐情绪识别的准确度。

为了达到上述技术效果,本发明的技术方案如下:

一种基于音频信号及歌词的音乐情绪识别方法,至少包括:

S1.获取情绪待识别音乐的音频数据样本和歌词数据样本,对音频数据样本和歌词数据样本分别进行预处理,得到音频信号和歌词向量;

S2.分别构建并训练用于提取音频信号特征的第一卷积神经网络及用于提取歌词向量特征的第二卷积神经网络;

S3.将预处理后的音频数据样本输入第一卷积神经网络,将预处理后的歌词数据样本输入第二卷积神经网络,利用融合模块将第一卷积神经网络的输出端和第二卷积神经网络的输出端串接融合;

S4.融合模块将音频信号特征和歌词向量特征的融合结果输出至全连接层模块中分析处理,全连接层模块输出音乐情绪识别结果。

优选地,音频数据样本和歌词数据样本分别进行预处理前,利用音高偏移和有损编码使每个音频数据样本和歌词数据样本获得三个额外的样本片段,最后使用数据增强技术扩展音频数据样本和歌词数据样本数量,提高了样本的丰富度。

优选地,步骤S1中,对音频数据样本进行预处理时,将音频数据样本转换为二维梅尔频谱图音频信号,转换过程为:

确定梅尔滤波器的数量M和Hann窗口音频数据的样本长度N;

设置采样频率f;

将音频数据样本输入梅尔滤波器,转换为二维梅尔频谱图音频信号。

优选地,步骤S1中,对歌词数据样本进行预处理时,从每个音轨中提取单词的片段,使用K维向量将歌词数据样本制作为歌词向量。

优选地,所述M个梅尔滤波器和N个音频数据样本的Hann窗口均无重叠。

优选地,步骤S2所述的第一卷积神经网络包括依次连接的第一卷积层及第二卷积层,所述第一卷积层及第二卷积层均是一维的,均包括32个大小为8、步幅为1的特征图以及16个大小为4、步幅为4的池化层。

优选地,步骤S2所述的第二卷积神经网络包括依次相连的第三卷积层及LSTM层,所述第三卷积层是一维的卷积层结构。

优选地,所述第一卷积神经网络的输入为音频信号,输出为音频信号特征,通过梯度下降法训练,得到训练好的第一卷积神经网络的网络参数;所述第二卷积神经网络的输入为歌词向量,输出为歌词向量特征,通过梯度下降法训练,得到训练好的第二卷积神经网络的网络参数。

优选地,所述全连接层模块包括第一全连接层及第二全连接层,所述第一全连接层的输入端连接公共输出端,第一全连接层的输出端连接第二全连接层的输入端,第一全连接层及第二全连接层共同对音频信号特征和歌词向量特征的融合结果进行预测,第二全连接层的输出端输出音乐情绪识别结果。

本发明还提出一种基于音频信号及歌词的多模态音乐情绪识别系统,所述系统用于实现所述的基于音频信号及歌词的音乐情绪识别方法,包括:

音乐数据获取模块,包括音频数据获取模块及歌词数据获取模块;所述音频数据获取模块用于获取情绪待识别音乐的音频数据样本,所述歌词数据获取模块用于获取情绪待识别音乐的歌词数据样本;

预处理模块,对音频数据样本和歌词数据样本分别进行预处理,得到音频信号和歌词向量;

特征提取模块,用于提取音频信号特征和歌词向量特征;

融合模块,用于将特征提取模块提取的音频信号特征和歌词向量特征进行融合;

全连接层模块,接收融合模块输出的音频信号特征和歌词向量特征融合的结果,进行分析预测,输出音乐情绪识别结果。

与现有技术相比,本发明技术方案的有益效果是:

本发明提出一种基于音频信号及歌词的音乐情绪识别方法及系统,首先采集音频数据样本和歌词数据样本并进行预处理,然后分别构建并训练好用于提取音频信号特征和歌词向量特征的两个卷积神经网络,最后再将两个神经网络的输出融合后输入至全连接层模块进行分析预测,综合了音频信号和歌词两个模态维度,将音频信号和音乐歌词结合识别情绪,提升音乐情绪识别的准确度。

附图说明

图1表示本发明实施例中提出的基于音频信号及歌词的音乐情绪识别方法的流程示意图;

图2表示本发明实施例中提出的基于音频信号及歌词的多模态音乐情绪识别的整体神经网络框架图;

图3表示本发明实施例中提出的基于音频信号及歌词的多模态音乐情绪识别的系统图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好地说明本实施例,附图某些部位会有省略、放大或缩小,并不代表实际尺寸;

对于本领域技术人员来说,附图中某些公知内容说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例

附图中描述位置关系的仅用于示例性说明,不能理解为对本专利的限制;

如图1所示的基于音频信号及歌词的音乐情绪识别方法的流程示意图,参见图1,所述方法包括:

S1.获取情绪待识别音乐的音频数据样本和歌词数据样本,对音频数据样本和歌词数据样本分别进行预处理,得到音频信号和歌词向量;

S2.分别构建并训练用于提取音频信号特征的第一卷积神经网络及用于提取歌词向量特征的第二卷积神经网络;

S3.将预处理后的音频数据样本输入第一卷积神经网络,将预处理后的歌词数据样本输入第二卷积神经网络,利用融合模块将第一卷积神经网络的输出端和第二卷积神经网络的输出端串接融合;

S4.融合模块将音频信号特征和歌词向量特征的融合结果输出至全连接层模块中分析处理,全连接层模块输出音乐情绪识别结果。

在本实施例中,步骤S1中的获取音频数据样本和歌词数据样本时,从音频中提取30秒长的片段,每首曲目中抽取7个片段,从歌曲中均匀地提取所述片段,音频数据样本和歌词数据样本分别进行预处理前,利用音高偏移和有损编码使每个音频数据样本和歌词数据样本获得三个额外的样本片段,具体实施时,使得整个样本训练集大小增加了约21倍,最后使用数据增强技术扩展音频数据样本和歌词数据样本数量。

对音频数据样本进行预处理时,将音频数据样本转换为二维梅尔频谱图音频信号,转换过程为:

确定梅尔滤波器的数量M和Hann窗口音频数据的样本长度N;

设置采样频率f;

将音频数据样本输入梅尔滤波器,转换为二维梅尔频谱图音频信号。

对歌词数据样本进行预处理时,从每个音轨中提取单词的片段,使用K维向量将歌词数据样本制作为歌词向量;具体的,本实施例中,使用100维向量表示输入的歌词,通过数据扩充,从每个音轨中提取七个50个单词的片段来制作歌词向量。

所述M个梅尔滤波器和N个音频数据样本的Hann窗口均无重叠,在本实施例中,梅尔滤波器的数量M取40个,Hann窗口音频数据的样本长度N取1024,且没有重叠,采样频率f为44.1kHz;

在本实施例中,步骤S2所述的第一卷积神经网络包括依次连接的第一卷积层及第二卷积层,所述第一卷积层及第二卷积层均是一维的,均包括32个大小为8、步幅为1的特征图以及16个大小为4、步幅为4的池化层,第二卷积神经网络包括依次相连的第三卷积层及LSTM层,所述第三卷积层是一维的卷积层结构,具体训练时,对于原由步骤S1获取的情绪待识别音乐的音频数据样本和歌词数据样本分别均划分为测试集和训练集,然后分别经过预处理,第一卷积神经网络的输入为音频信号,输出为音频信号特征,通过梯度下降法训练,得到训练好的第一卷积神经网络的网络参数;所述第二卷积神经网络的输入为歌词向量,输出为歌词向量特征,通过梯度下降法训练,得到训练好的第二卷积神经网络的网络参数,每个神经网络的输入大小为100*50,全连接层模块包括第一全连接层及第二全连接层,所述第一全连接层的输入端连接公共输出端,第一全连接层的输出端连接第二全连接层的输入端,第一全连接层及第二全连接层共同对音频信号特征和歌词向量特征的融合结果进行预测,第二全连接层的输出端输出音乐情绪识别结果,以上基于音频信号及歌词的多模态音乐情绪识别的整体神经网络框架可参见图2。

参见图3,本发明还提出一种基于音频信号及歌词的多模态音乐情绪识别系统,所述系统用于实现所述的基于音频信号及歌词的音乐情绪识别方法,包括:

音乐数据获取模块,包括音频数据获取模块及歌词数据获取模块;所述音频数据获取模块用于获取情绪待识别音乐的音频数据样本,所述歌词数据获取模块用于获取情绪待识别音乐的歌词数据样本;

预处理模块,对音频数据样本和歌词数据样本分别进行预处理,得到音频信号和歌词向量;

特征提取模块,用于提取音频信号特征和歌词向量特征;

融合模块,用于将特征提取模块提取的音频信号特征和歌词向量特征进行融合;在具体实施时,根据第一卷积神经网络及第二卷积神经网络的具体组成及各自最后的输出端,选取兼容二者的融合模块。

全连接层模块,接收融合模块输出的音频信号特征和歌词向量特征融合的结果,进行分析预测,输出音乐情绪识别结果。

显然,本发明的上述实施例仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号