首页> 中国专利> 一种音频文件的情绪活跃度获取方法及分类方法、装置

一种音频文件的情绪活跃度获取方法及分类方法、装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提供了一种音频文件的情绪活跃度获取方法及分类方法、装置，该音频文件的情绪活跃度获取方法包括：获取所述音频文件的语谱图；从所述语谱图中获取所述音频文件中的语音频率的峰点个数；通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。本发明实施例通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

著录项

公开/公告号CN104318931A

专利类型发明专利
公开/公告日2015-01-28

原文格式PDF
申请/专利权人百度在线网络技术(北京)有限公司;
展开▼

申请/专利号CN201410521416.8
发明设计人王徽蓉;
展开▼

申请日2014-09-30
分类号G10L25/63;
代理机构北京金律言科知识产权代理事务所(普通合伙);
代理人逯博
地址 100085 北京市海淀区上地十街10号百度大厦三层
入库时间 2023-12-17 04:27:34

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-03

专利权的转移 IPC(主分类):G10L25/63 专利号:ZL2014105214168 登记生效日:20220523 变更事项:专利权人变更前权利人:北京音之邦文化科技有限公司变更后权利人:深圳太乐文化科技有限公司变更事项:地址变更前权利人:100027 北京市海淀区清河安宁庄东路18号23号楼二层2108 变更后权利人:518057 广东省深圳市南山区粤海街道高新区社区高新南九道51号航空航天大厦1号楼3层3305

专利申请权、专利权的转移
2017-11-21

授权

授权
2016-03-23

专利申请权的转移 IPC(主分类):G10L25/63 登记生效日:20160304 变更前: 变更后: 申请日:20140930

专利申请权、专利权的转移
2015-02-25

实质审查的生效 IPC(主分类):G10L25/63 申请日:20140930

实质审查的生效
2015-01-28

公开

公开

说明书

技术领域

本发明涉及语音处理技术领域，尤其涉及一种音频文件的情绪活跃度获取方法及分类方法、装置。

背景技术

现有技术中，在对音频文件进行情绪分析时，对音频文件进行分析，提取出音频文件的音频特征，通过采用模式识别的方式对音频文件进行分类。

在模式识别的方式，首先提取音频文件的特征，例如，提取音频文件的强度特征、音色特征、以及频谱相关的特征，在提取特征之后，使用分类器模型进行有监督的学习，训练模型建立起来以后，从而实现对未知音频文件的预测。通过模式识别的方式，虽然能够进行几种情况的分类，但模式识别并不能将音频文件所表达的情绪进行量化。

发明内容

本发明实施例提供一种音频文件的情绪活跃度获取方法及分类方法、装置，通过对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

为达到上述目的，本发明的实施例采用如下技术方案：

一种音频文件的情绪活跃度获取方法，该包括：

获取所述音频文件的语谱图；

从所述语谱图中获取所述音频文件中的语音频率的峰点个数；

通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。

一种音频文件的分类方法，该方法包括：

通过上述技术方案所述的方法获取所述音频文件的情绪活跃度；

根据所述情绪活跃度对歌曲库中的音乐文件进行分类。

一种音频文件的情绪活跃度获取装置，该包括：

语谱图获取模块，用于获取所述音频文件的语谱图；

峰点个数获取模块，用于从所述语谱图中获取所述音频文件中的语音频率的峰点个数；

情绪活跃度确定模块，用于通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪活跃度。

一种音频文件的分类装置，该装置包括：

上述技术方案所述的音频文件的情绪活跃度获取装置通过上述技术方案所述的情绪活跃度获取方法获取所述音频文件的情绪活跃度；

分类模块，用于根据所述情绪活跃度对歌曲库中的音乐文件进行分类。

本发明实施例提供的一种音频文件的情绪活跃度获取方法及分类方法、装置，通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

附图说明

图1为本发明实施例提供的一个语谱图的示意图；

图2为本发明实施例一提供的音频文件的情绪活跃度获取方法的流程示意图；

图3为本发明实施例二提供的音频文件的情绪活跃度获取方法的流程示意图；

图4为图3所示实施例在步骤320-330的滤波前的语谱图在时间与频率坐标轴中的示意图；

图5为图3所示实施例经过步骤320-330的滤波后的语谱图在时间与频率坐标轴中的示意图；

图6为本发明实施例三提供的音频文件的情绪活跃度获取方法的流程示意图；

图7为本发明实施例四提供的音频文件的情绪活跃度获取装置的结构示意图；

图8为本发明实施例五提供的音频文件的情绪活跃度获取装置的结构示意图；

图9为本发明实施例六提供的音频文件的情绪活跃度获取装置的结构示意图。

具体实施方式

下面结合附图对本发明实施例提供的音频文件的情绪活跃度获取方法及分类方法、装置进行详细描述。

图1为本发明实施例提供的一个语谱图的示意图，如图1所示，语谱图的X轴表示时间(对应图1中斜向下方向的轴)，Y轴表示频率(对应图1中水平向右方向的轴)，Z轴表示语音数据能量，语音信号在时域进行变换得到频域的频谱图，该频谱图即为语谱图。

在图1中，可以看到与周围相比颜色深的点，该颜色深的点表示语音信号中的当前点相对于周边的点幅度最高的点，该点可以成为本发明实施例中所述的峰点，由此可见，本发明实施例中所述的峰点并不仅由相应的幅度值来确定，而是相对于周围的点而言的幅度值比较大的点。

下面将详细说明本发明的实施例。

实施例一：

图2为本发明实施例一提供的音频文件的情绪活跃度获取方法的流程示意图，如图2所示，本发明实施例包括以下步骤：

步骤210，获取音频文件的语谱图。

步骤220，从语谱图中获取音频文件中的语音频率的峰点个数。

步骤230，通过峰点个数与音频文件的时长确定音频文件的情绪活跃度。

在步骤210中的处理可以具体为：对音频文件进行解码，并以预定的采样频率(例如，44100Hz)对解码后的信号进行重采样，将重采样后的音频合并为单声道，对合并后的音频进行分帧(例如，帧长为2048，帧间隔为256)，并进行汉宁窗处理，对经过上述处理后的音频进行傅立叶变换，得到语谱图。

本发明实施例提供的音频文件的情绪活跃度获取方法，通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

实施例二：

图3为本发明实施例二提供的音频文件的情绪活跃度获取方法的流程示意图，如图3所示，本发明实施例包括以下步骤：

步骤310，获取音频文件的语谱图。

步骤320，通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。

步骤330，通过第二滤波器在时间轴对语谱图进行寻峰滤波处理。

步骤340，从经过滤波处理后的语谱图中统计音频文件的峰点个数。

步骤350，将峰点个数除以音频文件的时长，得到音频文件的情绪活跃度。

其中，本发明实施例中的步骤310的具体处理方式可以参考实施例一的步骤210的描述，在此不再赘述。

在步骤320中，第一滤波器可以通过滤波函数来设定，并通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。本发明实施例中所述的滤波函数可参考式(1)：

$y_{i}^{'} = \frac{Σ_{j = - m}^{m} C_{j} y_{i + j}}{{(Σ_{j = - m}^{m} c_{j}^{2} y_{i + j})}^{α}} - - - (1)$

其中，y_i表示语谱图的频率轴上的第 i个值，y′_i表示滤波处理后的语谱图的频率轴上的第i个值，α表示一个经验值，可以根据音频的特点确定α的值，σ表示高斯函数的系数，m表示第一滤波器半边的宽度，2m+1表示第一滤波器的宽度；进一步地，可以通过调整参数α可以使幅度较小但比较显著的峰点的幅度值变大。

在步骤330中，第二滤波器同样可通过上述式(1)在时间轴上对语谱图进行滤波处理。相应地，在上述式(1)中，y_i表示语谱图的时间轴上的第i个值，y′_i表示滤波处理后的语谱图的时间轴上的第i个值，α表示一个经验值，可以根据音频的特点确定α的值，σ表示高斯函数的系数，此时上述式(1)中的m表示第二滤波器半边的宽度，2m+1表示第二滤波器的宽度；进一步地，通过调整参数α可以使幅度较小但比较显著的峰点的幅度值变大。本领域技术人员可以理解的是，可以根据时间轴上的特点设置与上述频率轴上不同的参数值。

由于语音信号在时间轴和频率轴衰减的速率不同，因此本发明实施例通过上述步骤320与步骤330分别采用第一滤波器和第二滤波器在频率轴与时间轴分别进行寻峰滤波处理，使得滤波过程更具针对性，避免将真正的峰点滤除，或者将假峰作为真正的峰点而保留，从而使得峰点个数的统计更准确。

此外，为了获得更好的滤波效果，本发明实施例还可以通过多次执行步骤330通过第二滤波器在时间轴对语谱图进行二次滤波处理或者更多次的滤波处理，从而使峰点更加的尖锐，使得后续的统计峰点的个数更精确。

可替换地，在上述步骤320与步骤330中，由于寻峰滤波的目的是为了获取语谱图中相对周围的频率值较大的点，因此上述具体的滤波函数并不能形成对本发明实施例的限制，本发明实施例还可以通过其它类似的滤波函数进行滤波处理，只要能够提高获取峰点的准确性即可。

在步骤340中，从经过滤波处理后的语谱图中统计音频文件的峰点个数的步骤可以具体为：获取经过滤波处理后的语谱图中的第一多个峰点，将第一多个峰点分别对应的幅值与预设阈值进行比较，将幅值小于预设阈值的峰点滤除，得到第二多个峰点，统计第二多个峰点的个数，得到音频文件中的语音频率的峰点个数。例如，经过滤波处理后的语谱图中的有多个峰点(例如，实际上是100个，但此时尚未对峰点的个数进行统计)，将该100个峰点分别对应的幅值与预设阈值进行比较，将幅值小于预设阈值的峰点滤除，得到滤除峰点后的多个峰点(例如，实际上是50个峰点，但此时尚未对峰点的个数进行统计)，通过统计滤除峰点后的多个峰点的个数，得到音频文件中的语音频率的峰点个数为50 个。

进一步地，由于前述的滤波处理会提升幅值较小但是相对于其相邻的点而言幅值较大的峰点的幅值，从而本发明实施例可以采用统一的预设阈值。

图4为在步骤320-330的滤波前的语谱图在时间与频率坐标轴中的示意图，图5为经过步骤320-330的滤波后的语谱图在时间与频率坐标轴中的示意图。如图4和图5所示，滤波前的语谱图中波形的毛刺较多，峰点不明显，滤波后的语谱图中波形的毛刺基本消除，峰点很明显。因此可以看出，通过上述步骤320-330的滤波处理，使语谱图中波形的毛刺基本消除，峰点更加明显，为后续统计峰点个数能够更精确。

实施例三：

图6为本发明实施例三提供的音频文件的情绪活跃度获取方法的流程示意图，如图6所示，本发明实施例的音频文件的情绪活跃度获取方法包括以下步骤：

步骤610，获取音频文件的语谱图。

步骤620，通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。

步骤630，通过第二滤波器在时间轴对语谱图进行寻峰滤波处理。

步骤640，从经过滤波处理后的语谱图中统计音频文件的峰点个数。

步骤650，通过峰点个数与音频文件的时长确定音频文件的旋律复杂度。

步骤660，根据旋转复杂度与音频文件的节奏强度确定音频文件的情绪活跃度。

本发明实施例中的步骤610的具体处理方式可以参考实施例一的步骤210的描述，在此不再赘述。

本发明实施例中的步骤620-步骤640的具体处理及有益技术效果可以参考实实施例二的步骤320-步骤340的描述，在此不再赘述。

在步骤650中，通过对歌曲文件进行分析可以得知，歌曲的旋律复杂度越高，该歌曲对应的情绪活跃度也就越高。通过相关实验可以证明，歌曲一般的旋律复杂度在0.3-1.3之间。

由于旋律复杂度与情绪活跃度紧密相关，而明显的节奏感会直接加强情绪活跃度，因此，在步骤660中，可以根据旋转复杂度与音频文件的节奏强度确定本发明实施例中所述音频文件的情绪活跃度。

本发明实施例可以通过式(2)得到音频文件的情绪活跃度：

A＝C+X*0.2 (2)

其中，A表示情绪活跃度，C表示旋律复杂度，B表示节奏强度，X ＝C*C*B，若X>＝1，X＝1。此外，本发明实施例中的节奏强度可以通过现有技术获取，本发明实施例不再详述。

本发明实施例根据旋转复杂度与音频文件的节奏强度确定音频文件的情绪活跃度，通过将影响情绪活跃度的另一因素节奏强度来进行计算音频文件的情绪活跃度，从而使得情绪活跃度更加准确、可靠。

本发明实施例还提供了一种音频文件的分类方法，该音频文件的分类方法包括如下步骤：

首先，通过上述实施例一至实施例三任一所述的方法获取音频文件的情绪活跃度；

其次，根据情绪活跃度对歌曲库中的音乐文件进行分类。

通过情绪活跃度对歌曲库中的音乐文件进行分类，可以实现用户对歌曲库的泛需求，并根据情绪活跃度对歌曲进行场景分类，进一步地实现个性化推荐，从而对用户在听歌的过程中产生积极的影响。此外，通过对本发明实施例采用主观感受以及人工标注量化的评价方式，均可以得出本发明实施例的有效性的结论。

实施例四：

图7为本发明实施例四提供的音频文件的情绪活跃度获取装置的结构示意图，如图7所示，本发明实施例的音频文件的情绪活跃度获取装置包括：

语谱图获取模块710，用于获取音频文件的语谱图。

峰点个数获取模块720，用于从语谱图中获取音频文件中的语音频率的峰点个数。

情绪活跃度确定模块730，用于通过峰点个数与音频文件的时长确定音频文件的情绪活跃度。

语谱图获取模块710可以对音频文件进行解码，并以预定的采样频率(例如，44100Hz)对解码后的信号进行重采样，将重采样后的音频合并为单声道，对合并后的音频进行分帧(例如，帧长为2048，帧间隔为 256)，并进行汉宁窗处理，对经过上述处理后的音频进行傅立叶变换，得到语谱图。

本发明实施例提供的音频文件的情绪活跃度获取装置，通过语谱图获取模块710与峰点个数获取模块720获取音频文件中的语音频率的峰点个数，并通过情绪活跃度确定模块730根据峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

实施例五：

图8为本发明实施例五提供的音频文件的情绪活跃度获取装置的结构示意图，如图8所示，本发明实施例的音频文件的情绪活跃度获取装置包括：

语谱图获取模块710，用于获取音频文件的语谱图。

峰点个数获取模块720，用于从语谱图中获取音频文件中的语音频率的峰点个数。

情绪活跃度确定模块730，用于通过峰点个数与音频文件的时长确定音频文件的情绪活跃度。

进一步地，峰点个数获取模块720可以包括：

寻峰滤波单元721，用于分别在频率轴与时间轴上对所述语谱图进行寻峰滤波处理。

峰点个数统计单元722，用于从经过滤波处理后的语谱图中统计音频文件的峰点个数。

其中，寻峰滤波单元721具体处理可参考实施例二中的步骤 320-330，在此不再赘述。

更进一步地，峰点个数统计单元722可以包括：

第一获取子单元7221，用于获取经过滤波处理后的语谱图中的第一多个峰点；

阈值比较子单元7222，用于将第一多个峰点分别对应的幅值与预设阈值进行比较；

第二获取子单元7223，用于将第一多个峰点中幅值小于预设阈值的峰点滤除，得到第二多个峰点；

统计子单元7224，用于统计第二多个峰点的个数，得到音频文件中的语音频率的峰点个数。

第一获取子单元7221、阈值比较子单元7222、第二获取子单元7223 和统计子单元7224的具体处理可参考实施例二中的步骤340中的相关描述，在此不再赘述。

进一步地，情绪活跃度确定模块730可以包括：

第一情绪活跃度确定单元731，用于将峰点个数除以音频文件的时长，得到音频文件的情绪活跃度。

通过上述对峰点个数获取模块720、峰点个数统计单元723及情绪活跃度确定模块730的进一步的补充所产生的有益技术效果可参考实施例二中步骤320-步骤350中所述的有益技术效果，在此不再赘述。

实施例六：

图9为本发明实施例六提供的音频文件的情绪活跃度获取装置的结构示意图，如图9所示，本发明实施例的音频文件的情绪活跃度获取装置包括：

语谱图获取模块710，用于获取音频文件的语谱图。

峰点个数获取模块720，用于从语谱图中获取音频文件中的语音频率的峰点个数。

情绪活跃度确定模块730，用于通过所述峰点个数与音频文件的时长确定所述音频文件的情绪活跃度。

进一步地，峰点个数获取模块720可以包括：

第一滤波单元721，用于分别在频率轴与时间轴上对所述语谱图进行寻峰滤波处理。

峰点个数统计单元722，用于从经过滤波处理后的语谱图中统计音频文件的峰点个数。

更进一步地，峰点个数统计单元722可以包括：

第一获取子单元7221，用于获取经过滤波处理后的语谱图中的第一多个峰点。

阈值比较子单元7222，用于将第一多个峰点分别对应的幅值与预设阈值进行比较。

第二获取子单元7223，用于将第一多个峰点中幅值小于预设阈值的峰点滤除，得到第二多个峰点。

统计子单元7224，用于统计第二多个峰点的个数，得到音频文件中的语音频率的峰点个数。

进一步地，情绪活跃度确定模块730可以包括：

旋律复杂度获取单元732，用于通过峰点个数与音频文件的时长确定音频文件的旋律复杂度。

第二情绪活跃度确定单元733，用于根据旋律复杂度与音频文件的节奏强度确定音频文件的情绪活跃度。

旋律复杂度获取单元732与第二情绪活跃度确定模块单元733的具体处理及有益效果可参考实施例三中步骤650-步骤660中相关描述，在此不再详述。

实施例七：

可以将实施例五中的第一情绪活跃度确定单元731与实施例六中的旋律复杂度获取单元732、第二情绪活跃度确定单元733合并到同一个情绪活跃度确定模块中，形成实施例七，通过实施例七可以使用户选择不同的方式获取歌曲的情绪活跃度。

此外，本发明实施例还提供一种音频文件的分类装置，该音频文件的分类装置包括：

上述实施例四-实施例七任一所述的音频文件的情绪活跃度获取装置，用于通过上述实施例一至实施例三的方法获取所述音频文件的情绪活跃度；

分类模块，用于根据所述情绪活跃度对歌曲库中的音乐文件进行分类。

通过分类模块对歌曲库中的音乐文件进行分类，可以实现用户对歌曲库的泛需求，并根据情绪活跃度对歌曲进行场景分类，进一步地实现个性化推荐，从而对用户在听歌的过程中产生积极的影响。此外，通过对本发明实施例采用主观感受以及人工标注量化的评价方式，均可以得出本发明实施例的有效性的结论。

综上所述，本发明实施例提供的音频文件的情绪活跃度获取方法及装置，通过从语谱图中获取音频文件中的语音频率的峰点个数，并通过峰点个数与音频文件的时长确定音频文件的情绪活跃度，实现了对音频文件的情绪活跃度进行量化，为用户通过情绪活跃度选歌提供依据。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种音频文件的情绪活跃度获取方法及分类方法、装置 [P] . 中国专利： CN104318931B . 2017.11.21
2. 一种音频文件的情绪活跃度获取方法及分类方法、装置 [P] . 中国专利： CN104318931A . 2015-01-28
3. The audio file recorder, the audio file reproducing arrangement and the audio file record playback system, the file acquisition section which acquires audio file record method, audio file [P] . 日本专利： JP5392574B2 . 2014-01-22

机译：音频文件记录器，音频文件再现装置和音频文件记录回放系统，获取音频文件记录方法的文件获取部分，音频文件
4. PORTABLE MOVEMENT DETECTION DEVICE, EMOTION INFORMATION TABULATION DEVICE, EMOTION INFORMATION ACQUISITION AND NOTIFICATION SYSTEM, EMOTION INFORMATION ACQUISITION AND NOTIFICATION METHOD, AND COMPUTER PROGRAM [P] . 日本专利： JP2015031996A . 2015-02-16

机译：便携式运动检测装置，情绪信息制表装置，情绪信息获取和通知系统，情绪信息获取和通知方法以及计算机程序
5. EMOTION CLASSIFICATION DEVICE AND EMOTION CLASSIFICATION METHOD [P] . 日本专利： JP2018180628A . 2018-11-15

机译：情绪分类装置及情绪分类方法