公开/公告号CN104318931A
专利类型发明专利
公开/公告日2015-01-28
原文格式PDF
申请/专利权人 百度在线网络技术(北京)有限公司;
申请/专利号CN201410521416.8
发明设计人 王徽蓉;
申请日2014-09-30
分类号G10L25/63;
代理机构北京金律言科知识产权代理事务所(普通合伙);
代理人逯博
地址 100085 北京市海淀区上地十街10号百度大厦三层
入库时间 2023-12-17 04:27:34
法律状态公告日
法律状态信息
法律状态
2022-06-03
专利权的转移 IPC(主分类):G10L25/63 专利号:ZL2014105214168 登记生效日:20220523 变更事项:专利权人 变更前权利人:北京音之邦文化科技有限公司 变更后权利人:深圳太乐文化科技有限公司 变更事项:地址 变更前权利人:100027 北京市海淀区清河安宁庄东路18号23号楼二层2108 变更后权利人:518057 广东省深圳市南山区粤海街道高新区社区高新南九道51号航空航天大厦1号楼3层3305
专利申请权、专利权的转移
2017-11-21
授权
授权
2016-03-23
专利申请权的转移 IPC(主分类):G10L25/63 登记生效日:20160304 变更前: 变更后: 申请日:20140930
专利申请权、专利权的转移
2015-02-25
实质审查的生效 IPC(主分类):G10L25/63 申请日:20140930
实质审查的生效
2015-01-28
公开
公开
技术领域
本发明涉及语音处理技术领域,尤其涉及一种音频文件的情绪活跃 度获取方法及分类方法、装置。
背景技术
现有技术中,在对音频文件进行情绪分析时,对音频文件进行分析, 提取出音频文件的音频特征,通过采用模式识别的方式对音频文件进行 分类。
在模式识别的方式,首先提取音频文件的特征,例如,提取音频文 件的强度特征、音色特征、以及频谱相关的特征,在提取特征之后,使 用分类器模型进行有监督的学习,训练模型建立起来以后,从而实现对 未知音频文件的预测。通过模式识别的方式,虽然能够进行几种情况的 分类,但模式识别并不能将音频文件所表达的情绪进行量化。
发明内容
本发明实施例提供一种音频文件的情绪活跃度获取方法及分类方 法、装置,通过对音频文件的情绪活跃度进行量化,为用户通过情绪活 跃度选歌提供依据。
为达到上述目的,本发明的实施例采用如下技术方案:
一种音频文件的情绪活跃度获取方法,该包括:
获取所述音频文件的语谱图;
从所述语谱图中获取所述音频文件中的语音频率的峰点个数;
通过所述峰点个数与所述音频文件的时长确定所述音频文件的情绪 活跃度。
一种音频文件的分类方法,该方法包括:
通过上述技术方案所述的方法获取所述音频文件的情绪活跃度;
根据所述情绪活跃度对歌曲库中的音乐文件进行分类。
一种音频文件的情绪活跃度获取装置,该包括:
语谱图获取模块,用于获取所述音频文件的语谱图;
峰点个数获取模块,用于从所述语谱图中获取所述音频文件中的语 音频率的峰点个数;
情绪活跃度确定模块,用于通过所述峰点个数与所述音频文件的时 长确定所述音频文件的情绪活跃度。
一种音频文件的分类装置,该装置包括:
上述技术方案所述的音频文件的情绪活跃度获取装置通过上述技术 方案所述的情绪活跃度获取方法获取所述音频文件的情绪活跃度;
分类模块,用于根据所述情绪活跃度对歌曲库中的音乐文件进行分 类。
本发明实施例提供的一种音频文件的情绪活跃度获取方法及分类方 法、装置,通过从语谱图中获取音频文件中的语音频率的峰点个数,并 通过峰点个数与音频文件的时长确定音频文件的情绪活跃度,实现了对 音频文件的情绪活跃度进行量化,为用户通过情绪活跃度选歌提供依据。
附图说明
图1为本发明实施例提供的一个语谱图的示意图;
图2为本发明实施例一提供的音频文件的情绪活跃度获取方法的流 程示意图;
图3为本发明实施例二提供的音频文件的情绪活跃度获取方法的流 程示意图;
图4为图3所示实施例在步骤320-330的滤波前的语谱图在时间与 频率坐标轴中的示意图;
图5为图3所示实施例经过步骤320-330的滤波后的语谱图在时间 与频率坐标轴中的示意图;
图6为本发明实施例三提供的音频文件的情绪活跃度获取方法的流 程示意图;
图7为本发明实施例四提供的音频文件的情绪活跃度获取装置的结 构示意图;
图8为本发明实施例五提供的音频文件的情绪活跃度获取装置的结 构示意图;
图9为本发明实施例六提供的音频文件的情绪活跃度获取装置的结 构示意图。
具体实施方式
下面结合附图对本发明实施例提供的音频文件的情绪活跃度获取方 法及分类方法、装置进行详细描述。
图1为本发明实施例提供的一个语谱图的示意图,如图1所示,语 谱图的X轴表示时间(对应图1中斜向下方向的轴),Y轴表示频率(对 应图1中水平向右方向的轴),Z轴表示语音数据能量,语音信号在时 域进行变换得到频域的频谱图,该频谱图即为语谱图。
在图1中,可以看到与周围相比颜色深的点,该颜色深的点表示语音 信号中的当前点相对于周边的点幅度最高的点,该点可以成为本发明实 施例中所述的峰点,由此可见,本发明实施例中所述的峰点并不仅由相 应的幅度值来确定,而是相对于周围的点而言的幅度值比较大的点。
下面将详细说明本发明的实施例。
实施例一:
图2为本发明实施例一提供的音频文件的情绪活跃度获取方法的流 程示意图,如图2所示,本发明实施例包括以下步骤:
步骤210,获取音频文件的语谱图。
步骤220,从语谱图中获取音频文件中的语音频率的峰点个数。
步骤230,通过峰点个数与音频文件的时长确定音频文件的情绪活 跃度。
在步骤210中的处理可以具体为:对音频文件进行解码,并以预定 的采样频率(例如,44100Hz)对解码后的信号进行重采样,将重采样后 的音频合并为单声道,对合并后的音频进行分帧(例如,帧长为2048, 帧间隔为256),并进行汉宁窗处理,对经过上述处理后的音频进行傅 立叶变换,得到语谱图。
本发明实施例提供的音频文件的情绪活跃度获取方法,通过从语谱 图中获取音频文件中的语音频率的峰点个数,并通过峰点个数与音频文 件的时长确定音频文件的情绪活跃度,实现了对音频文件的情绪活跃度 进行量化,为用户通过情绪活跃度选歌提供依据。
实施例二:
图3为本发明实施例二提供的音频文件的情绪活跃度获取方法的流 程示意图,如图3所示,本发明实施例包括以下步骤:
步骤310,获取音频文件的语谱图。
步骤320,通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。
步骤330,通过第二滤波器在时间轴对语谱图进行寻峰滤波处理。
步骤340,从经过滤波处理后的语谱图中统计音频文件的峰点个数。
步骤350,将峰点个数除以音频文件的时长,得到音频文件的情绪 活跃度。
其中,本发明实施例中的步骤310的具体处理方式可以参考实施例 一的步骤210的描述,在此不再赘述。
在步骤320中,第一滤波器可以通过滤波函数来设定,并通过第一 滤波器在频率轴对语谱图进行寻峰滤波处理。本发明实施例中所述的滤 波函数可参考式(1):
其中,yi表示语谱图的频率轴上的第 i个值,y′i表示滤波处理后的语谱图的频率轴上的第i个值,α表示一个 经验值,可以根据音频的特点确定α的值,σ表示高斯函数的系数,m表 示第一滤波器半边的宽度,2m+1表示第一滤波器的宽度;进一步地,可 以通过调整参数α可以使幅度较小但比较显著的峰点的幅度值变大。
在步骤330中,第二滤波器同样可通过上述式(1)在时间轴上对语 谱图进行滤波处理。相应地,在上述式(1)中,yi表示语谱图的时间轴 上的第i个值,y′i表示滤波处理后的语谱图的时间轴上的第i个值,α表 示一个经验值,可以根据音频的特点确定α的值,σ表示高斯函数的系数, 此时上述式(1)中的m表示第二滤波器半边的宽度,2m+1表示第二滤 波器的宽度;进一步地,通过调整参数α可以使幅度较小但比较显著的 峰点的幅度值变大。本领域技术人员可以理解的是,可以根据时间轴上 的特点设置与上述频率轴上不同的参数值。
由于语音信号在时间轴和频率轴衰减的速率不同,因此本发明实施 例通过上述步骤320与步骤330分别采用第一滤波器和第二滤波器在频 率轴与时间轴分别进行寻峰滤波处理,使得滤波过程更具针对性,避免 将真正的峰点滤除,或者将假峰作为真正的峰点而保留,从而使得峰点 个数的统计更准确。
此外,为了获得更好的滤波效果,本发明实施例还可以通过多次执 行步骤330通过第二滤波器在时间轴对语谱图进行二次滤波处理或者更 多次的滤波处理,从而使峰点更加的尖锐,使得后续的统计峰点的个数 更精确。
可替换地,在上述步骤320与步骤330中,由于寻峰滤波的目的是 为了获取语谱图中相对周围的频率值较大的点,因此上述具体的滤波函 数并不能形成对本发明实施例的限制,本发明实施例还可以通过其它类 似的滤波函数进行滤波处理,只要能够提高获取峰点的准确性即可。
在步骤340中,从经过滤波处理后的语谱图中统计音频文件的峰点 个数的步骤可以具体为:获取经过滤波处理后的语谱图中的第一多个峰 点,将第一多个峰点分别对应的幅值与预设阈值进行比较,将幅值小于 预设阈值的峰点滤除,得到第二多个峰点,统计第二多个峰点的个数, 得到音频文件中的语音频率的峰点个数。例如,经过滤波处理后的语谱 图中的有多个峰点(例如,实际上是100个,但此时尚未对峰点的个数 进行统计),将该100个峰点分别对应的幅值与预设阈值进行比较,将 幅值小于预设阈值的峰点滤除,得到滤除峰点后的多个峰点(例如,实 际上是50个峰点,但此时尚未对峰点的个数进行统计),通过统计滤除 峰点后的多个峰点的个数,得到音频文件中的语音频率的峰点个数为50 个。
进一步地,由于前述的滤波处理会提升幅值较小但是相对于其相邻 的点而言幅值较大的峰点的幅值,从而本发明实施例可以采用统一的预 设阈值。
图4为在步骤320-330的滤波前的语谱图在时间与频率坐标轴中的 示意图,图5为经过步骤320-330的滤波后的语谱图在时间与频率坐标 轴中的示意图。如图4和图5所示,滤波前的语谱图中波形的毛刺较多, 峰点不明显,滤波后的语谱图中波形的毛刺基本消除,峰点很明显。因 此可以看出,通过上述步骤320-330的滤波处理,使语谱图中波形的毛 刺基本消除,峰点更加明显,为后续统计峰点个数能够更精确。
实施例三:
图6为本发明实施例三提供的音频文件的情绪活跃度获取方法的流 程示意图,如图6所示,本发明实施例的音频文件的情绪活跃度获取方 法包括以下步骤:
步骤610,获取音频文件的语谱图。
步骤620,通过第一滤波器在频率轴对语谱图进行寻峰滤波处理。
步骤630,通过第二滤波器在时间轴对语谱图进行寻峰滤波处理。
步骤640,从经过滤波处理后的语谱图中统计音频文件的峰点个数。
步骤650,通过峰点个数与音频文件的时长确定音频文件的旋律复 杂度。
步骤660,根据旋转复杂度与音频文件的节奏强度确定音频文件的 情绪活跃度。
本发明实施例中的步骤610的具体处理方式可以参考实施例一的步 骤210的描述,在此不再赘述。
本发明实施例中的步骤620-步骤640的具体处理及有益技术效果可 以参考实实施例二的步骤320-步骤340的描述,在此不再赘述。
在步骤650中,通过对歌曲文件进行分析可以得知,歌曲的旋律复 杂度越高,该歌曲对应的情绪活跃度也就越高。通过相关实验可以证明, 歌曲一般的旋律复杂度在0.3-1.3之间。
由于旋律复杂度与情绪活跃度紧密相关,而明显的节奏感会直接加 强情绪活跃度,因此,在步骤660中,可以根据旋转复杂度与音频文件 的节奏强度确定本发明实施例中所述音频文件的情绪活跃度。
本发明实施例可以通过式(2)得到音频文件的情绪活跃度:
A=C+X*0.2 (2)
其中,A表示情绪活跃度,C表示旋律复杂度,B表示节奏强度,X =C*C*B,若X>=1,X=1。此外,本发明实施例中的节奏强度可 以通过现有技术获取,本发明实施例不再详述。
本发明实施例根据旋转复杂度与音频文件的节奏强度确定音频文件 的情绪活跃度,通过将影响情绪活跃度的另一因素节奏强度来进行计算 音频文件的情绪活跃度,从而使得情绪活跃度更加准确、可靠。
本发明实施例还提供了一种音频文件的分类方法,该音频文件的分 类方法包括如下步骤:
首先,通过上述实施例一至实施例三任一所述的方法获取音频文件 的情绪活跃度;
其次,根据情绪活跃度对歌曲库中的音乐文件进行分类。
通过情绪活跃度对歌曲库中的音乐文件进行分类,可以实现用户对 歌曲库的泛需求,并根据情绪活跃度对歌曲进行场景分类,进一步地实 现个性化推荐,从而对用户在听歌的过程中产生积极的影响。此外,通 过对本发明实施例采用主观感受以及人工标注量化的评价方式,均可以 得出本发明实施例的有效性的结论。
实施例四:
图7为本发明实施例四提供的音频文件的情绪活跃度获取装置的结 构示意图,如图7所示,本发明实施例的音频文件的情绪活跃度获取装 置包括:
语谱图获取模块710,用于获取音频文件的语谱图。
峰点个数获取模块720,用于从语谱图中获取音频文件中的语音频 率的峰点个数。
情绪活跃度确定模块730,用于通过峰点个数与音频文件的时长确 定音频文件的情绪活跃度。
语谱图获取模块710可以对音频文件进行解码,并以预定的采样频 率(例如,44100Hz)对解码后的信号进行重采样,将重采样后的音频合 并为单声道,对合并后的音频进行分帧(例如,帧长为2048,帧间隔为 256),并进行汉宁窗处理,对经过上述处理后的音频进行傅立叶变换, 得到语谱图。
本发明实施例提供的音频文件的情绪活跃度获取装置,通过语谱图 获取模块710与峰点个数获取模块720获取音频文件中的语音频率的峰 点个数,并通过情绪活跃度确定模块730根据峰点个数与音频文件的时 长确定音频文件的情绪活跃度,实现了对音频文件的情绪活跃度进行量 化,为用户通过情绪活跃度选歌提供依据。
实施例五:
图8为本发明实施例五提供的音频文件的情绪活跃度获取装置的结 构示意图,如图8所示,本发明实施例的音频文件的情绪活跃度获取装 置包括:
语谱图获取模块710,用于获取音频文件的语谱图。
峰点个数获取模块720,用于从语谱图中获取音频文件中的语音频 率的峰点个数。
情绪活跃度确定模块730,用于通过峰点个数与音频文件的时长确 定音频文件的情绪活跃度。
进一步地,峰点个数获取模块720可以包括:
寻峰滤波单元721,用于分别在频率轴与时间轴上对所述语谱图进 行寻峰滤波处理。
峰点个数统计单元722,用于从经过滤波处理后的语谱图中统计音 频文件的峰点个数。
其中,寻峰滤波单元721具体处理可参考实施例二中的步骤 320-330,在此不再赘述。
更进一步地,峰点个数统计单元722可以包括:
第一获取子单元7221,用于获取经过滤波处理后的语谱图中的第一 多个峰点;
阈值比较子单元7222,用于将第一多个峰点分别对应的幅值与预设 阈值进行比较;
第二获取子单元7223,用于将第一多个峰点中幅值小于预设阈值的 峰点滤除,得到第二多个峰点;
统计子单元7224,用于统计第二多个峰点的个数,得到音频文件中 的语音频率的峰点个数。
第一获取子单元7221、阈值比较子单元7222、第二获取子单元7223 和统计子单元7224的具体处理可参考实施例二中的步骤340中的相关描 述,在此不再赘述。
进一步地,情绪活跃度确定模块730可以包括:
第一情绪活跃度确定单元731,用于将峰点个数除以音频文件的时 长,得到音频文件的情绪活跃度。
通过上述对峰点个数获取模块720、峰点个数统计单元723及情绪 活跃度确定模块730的进一步的补充所产生的有益技术效果可参考实施 例二中步骤320-步骤350中所述的有益技术效果,在此不再赘述。
实施例六:
图9为本发明实施例六提供的音频文件的情绪活跃度获取装置的结 构示意图,如图9所示,本发明实施例的音频文件的情绪活跃度获取装 置包括:
语谱图获取模块710,用于获取音频文件的语谱图。
峰点个数获取模块720,用于从语谱图中获取音频文件中的语音频 率的峰点个数。
情绪活跃度确定模块730,用于通过所述峰点个数与音频文件的时 长确定所述音频文件的情绪活跃度。
进一步地,峰点个数获取模块720可以包括:
第一滤波单元721,用于分别在频率轴与时间轴上对所述语谱图进 行寻峰滤波处理。
峰点个数统计单元722,用于从经过滤波处理后的语谱图中统计音 频文件的峰点个数。
更进一步地,峰点个数统计单元722可以包括:
第一获取子单元7221,用于获取经过滤波处理后的语谱图中的第一 多个峰点。
阈值比较子单元7222,用于将第一多个峰点分别对应的幅值与预设 阈值进行比较。
第二获取子单元7223,用于将第一多个峰点中幅值小于预设阈值的 峰点滤除,得到第二多个峰点。
统计子单元7224,用于统计第二多个峰点的个数,得到音频文件中 的语音频率的峰点个数。
进一步地,情绪活跃度确定模块730可以包括:
旋律复杂度获取单元732,用于通过峰点个数与音频文件的时长确 定音频文件的旋律复杂度。
第二情绪活跃度确定单元733,用于根据旋律复杂度与音频文件的 节奏强度确定音频文件的情绪活跃度。
旋律复杂度获取单元732与第二情绪活跃度确定模块单元733的具 体处理及有益效果可参考实施例三中步骤650-步骤660中相关描述,在 此不再详述。
实施例七:
可以将实施例五中的第一情绪活跃度确定单元731与实施例六中的 旋律复杂度获取单元732、第二情绪活跃度确定单元733合并到同一个 情绪活跃度确定模块中,形成实施例七,通过实施例七可以使用户选择 不同的方式获取歌曲的情绪活跃度。
此外,本发明实施例还提供一种音频文件的分类装置,该音频文件 的分类装置包括:
上述实施例四-实施例七任一所述的音频文件的情绪活跃度获取装 置,用于通过上述实施例一至实施例三的方法获取所述音频文件的情绪 活跃度;
分类模块,用于根据所述情绪活跃度对歌曲库中的音乐文件进行分 类。
通过分类模块对歌曲库中的音乐文件进行分类,可以实现用户对歌 曲库的泛需求,并根据情绪活跃度对歌曲进行场景分类,进一步地实现 个性化推荐,从而对用户在听歌的过程中产生积极的影响。此外,通过 对本发明实施例采用主观感受以及人工标注量化的评价方式,均可以得 出本发明实施例的有效性的结论。
综上所述,本发明实施例提供的音频文件的情绪活跃度获取方法及 装置,通过从语谱图中获取音频文件中的语音频率的峰点个数,并通过 峰点个数与音频文件的时长确定音频文件的情绪活跃度,实现了对音频 文件的情绪活跃度进行量化,为用户通过情绪活跃度选歌提供依据。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不 局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本 发明的保护范围应以所述权利要求的保护范围为准。
机译: 音频文件记录器,音频文件再现装置和音频文件记录回放系统,获取音频文件记录方法的文件获取部分,音频文件
机译: 便携式运动检测装置,情绪信息制表装置,情绪信息获取和通知系统,情绪信息获取和通知方法以及计算机程序
机译: 情绪分类装置及情绪分类方法