公开/公告号CN102664018A
专利类型发明专利
公开/公告日2012-09-12
原文格式PDF
申请/专利权人 杭州来同科技有限公司;
申请/专利号CN201210127133.6
申请日2012-04-26
分类号G10L19/00;G10L15/10;
代理机构杭州赛科专利代理事务所;
代理人陈辉
地址 310030 浙江省杭州市西湖区绿城紫金广场C座1001室
入库时间 2023-12-18 06:28:50
法律状态公告日
法律状态信息
法律状态
2016-06-22
未缴年费专利权终止 IPC(主分类):G10L15/01 授权公告日:20140108 终止日期:20150426 申请日:20120426
专利权的终止
2014-01-08
授权
授权
2012-11-07
实质审查的生效 IPC(主分类):G10L19/00 申请日:20120426
实质审查的生效
2012-09-12
公开
公开
技术领域
本发明涉及演唱评分领域,特别是涉及一种基于径向基函数统计模型的演唱 评分方法。
背景技术
演唱评分方法主要用于卡拉0K装置或软件,目的是对演唱者的声音作评价, 增加歌唱乐趣。
传统的演唱评分方法通过比对目标音频与参考音频的声学特征差异进行评 分,其缺陷在于:使用不同的参考音频将得到迥异的评分结果。
发明内容
为了克服现有技术的不足,本发明公开了一种基于径向基函数统计模型的演 唱评分方法。
本发明采用了如下的技术方案:
一种基于径向基函数统计模型的演唱评分方法,其特征在于,包括以下步骤:
(1)预处理,包括如下步骤:
制作特征库:采集同一歌曲的若干参考音频样本,即同一歌手在不同时期的 录音及不同歌手的录音,记为{Si},将样本分割成相互重叠时间长度为T的音 频段,记为提取音频段的短时信号特征,包括梅尔倒谱系数特征、线性 预测系数、基频特征,记为
建立统计模型并训练:建立各段音频对应的径向基函数统计模型:
Pj(X)=R(Dj(X))
其中,R为单调递减径向基函数;μj为各音频样本的第j段音频均值;σj为 第j段音频的协方差矩阵,代表样本在空间中的分布;Dj(X)为输入向量X与音 频均值的马氏距离,该距离计算方法用于归一化特征向量在不同方向上长度; Pj(X)为第j段音频对应的径向基函数统计模型;通过如下计算μj与σj:
其中,n代表参考音频样本的数量,i表示第i个参考音频样本;
(2)目标音频评分,包括如下步骤:
提取目标音频实时特征:将目标音频实时分割成相互重叠时间长度为T的 音频段,记为{Dj},提取音频段的短时信号特征,包括梅尔倒谱系数特征、线 性预测系数、基频特征,记为{Gj};
建立对数概率矩阵:评分系统每隔L个音频段对目标音频进行评分,每次评 分前建立目标音频特征与统计模型的对数概率矩阵:
Mk(x,y)=Log(Pk*L-v+x(Gk*L+y))
x∈[0,L+2v)
y∈[0,L)
Mk(x,y)表示第k次评分的对数概率矩阵中下标为(x,y)的元素值,v为偏差 忍受值,即允许演唱者的节奏相对特征库提前或滞后v个音频段;
动态规整匹配:使用对数概率矩阵Mk作为标准动态规整算法的输入,得到 目标音频段相对于统计模型的最佳匹配对数概率,记为bk,通过如下正规化公 式输出第k次评判分数pk:
使用所有实时评判分数的均值作为目标音频的总体评判分数。
本发明的优点在于:采集标准样本不同的参考音频并提取声学特征,包括梅 尔倒谱系数特征、线性预测系数、基频特征,使用这些特征训练得到基于径向基 函数统计模型,再利用该模型计算目标音频的对数概率矩阵,最后使用动态规整 计算最佳匹配对数概率,能得到更精确而稳定的评分。
附图说明
图1为本发明预处理的流程图;
图2为本发明目标音频评分的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步的说明:
一种基于径向基函数统计模型的演唱评分方法,包括以下步骤:
(1)预处理,参见图1,包括如下步骤:
特征库制作,参见图中101部分:采集同一歌曲的若干参考音频样本,即同 一歌手在不同时期的录音及不同歌手的录音,以.mp3标准格式存放,使用标准 解码器解码成16KHz波形流,记为{Si},将样本分割成长度为50毫秒,前后重 叠均为20毫秒的音频段,其中,记为提取音频段的短时信号特征,包括 梅尔倒谱系数特征、线性预测系数、基频特征,记为
建立各段音频对应的径向基函数统计模型,参见图1中102部分:
Pj(X)=R(Dj(X))
其中,R为高斯函数;μj为各音频样本的第j段音频均值;σj为第j段音 频的协方差矩阵,代表样本在空间中的分布;Dj(X)为输入向量X与音频均值的 马氏距离,该距离计算方法用于归一化特征向量在不同方向上长度;Pj(X)为第j 段音频对应的径向基函数统计模型;通过如下计算μj与σj:
其中,n代表参考音频样本的数量,i表示第i个参考音频样本;
(2)目标音频评分,包括如下步骤:
目标音频实时特征提取,参见图2中201部分:目标音频通过PC声卡提取, 提取频率为16KHz,将目标音频实时分割成长度为50毫秒,前后重叠均为20 毫秒的音频段,记为{Dj},提取音频段的短时信号特征,包括梅尔倒谱系数特 征、线性预测系数、基频特征,记为{Gj};
建立对数概率矩阵,参见图2中202部分:评分系统每隔L个音频段对目标 音频进行评分,L取值为10,每次评分前建立目标音频特征与统计模型的对数概 率矩阵:
Mk(x,y)=Log(Pk*L-v+x(Gk*L+y))
x∈[0,L+2v)
y∈[0,L)
Mk(x,y)表示第k次评分的对数概率矩阵中下标为(x,y)的元素值,v为偏差 忍受值,取值为3,即允许演唱者的节奏相对特征库提前或滞后3个音频段,即 150毫秒;
动态规整匹配,参见图2中203部分:使用对数概率矩阵Mk作为标准动态 规整算法的输入,可以得到目标音频段相对于特征库模型的最佳匹配对数概率, 记为bk,通过如下正规化公式输出第k次评判分数pk:
使用所有实时评判分数的均值作为目标音频的总体评判分数,参见图2中204 部分。
机译: 多技术通信设备中基于基于Hammerstein结构的非线性干扰管理的径向基函数神经网络的方法和系统
机译: 基于二维二维主成分分析算法和基于多项式的径向基函数神经网络的夜间视觉人脸识别方法
机译: 基于径向基函数网络的基于主成分分析的运动目标检测方法及装置