首页> 中国专利> 一种在线声纹特征更新方法及设备、存储设备和建模设备

一种在线声纹特征更新方法及设备、存储设备和建模设备

摘要

本申请提供了一种在线声纹特征更新方法,还提供了相应的在线声纹特征更新设备,以及存储设备和建模设备;本申请中的方法中,需要进行声纹特征更新的设备通过在需要测试音频数据时,采用初始化时默认的声纹模型提取器对待测试的测试音频数据进行声纹模型提取,并且进行数据分析后再采用新的声纹模型提取器重新提取分析后的注册音频数据,完成在线更新;通过这种方式,本申请能够使待测试的测试音频可以快速体验新的声纹模型提取器的检索比对效果。

著录项

  • 公开/公告号CN112735438A

    专利类型发明专利

  • 公开/公告日2021-04-30

    原文格式PDF

  • 申请/专利权人 科大讯飞股份有限公司;

    申请/专利号CN202011594594.5

  • 申请日2020-12-29

  • 分类号G10L17/04(20130101);G10L17/18(20130101);

  • 代理机构44280 深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人何倚雯

  • 地址 230088 安徽省合肥市高新开发区望江西路666号

  • 入库时间 2023-06-19 10:48:02

说明书

技术领域

本申请涉及声纹识别技术领域,具体涉及一种在线声纹特征更新方法及设备、存储设备,以及声纹模型提取器的建模设备,以及存储设备。

背景技术

声纹识别是生物认证领域中的关键技术之一,利用语音信号直接进行身份认证,不仅具有无需记忆、判决简单的特点,而且可以在用户不知情的情况下进行认证,具有较高的用户接受度,其广泛应用在国家安全、金融领域、智能家居等场景。

近年来,深度学习方法在众多研究领域中取得令人瞩目的成就,通过组合分析低层特征,形成抽象的高层属性描述,以发现数据的结构性特征表示。深度卷积神经网络(Convolutional Neural Networks,CNN)是近年发展起来并引起广泛重视的一种高效学习方法。首先对局部特征进行感知,然后在更高层将局部的信息综合起来,并利用多层卷积网络堆叠,提取时域和频域间交织的声纹信息。相对于单纯的全变量因子分析方法,卷积神经网络可以对时域和频域进行联合分析,深刻挖掘语音频谱中的声纹信息,获得更加细致的声纹特征表达,从而建立精准的声纹模型。

基于卷积神经网络的声纹模型提取语音的方法,由于计算复杂度较高,在大规模海量声纹库检索应用场景下,随着声纹模型提取器的优化迭代,需要对初始声纹模型进行更新。但即使拥有高性能计算资源的支撑,仍需要耗费大量时间才能完成对声纹库中存储的声纹模型进行全量更新。因此,如何快速高效地进行声纹模型的更新,是目前亟待解决地问题。

发明内容

本申请的目的在于如何快速高效地进行声纹特征更新的问题,本申请提供一种声纹特征更新方法,还提供了对应的设备以及存储设备,以及声纹模型提取器的建模设备;本申请提供的方案能够在使用有限的计算资源的前提下,快速高效地完成声纹特征更新;并且可以在更新声纹模型提取器的状况下,快速高效地反馈新的声纹模型效果,从而避免在海量数据声纹特征更新中耗费大量时间。

为解决上述技术问题,本申请提供一种在线声纹特征更新方法,包括:

获取测试音频数据;

采用原始声纹模型提取器对所述测试音频数据提取声纹特征,并根据所述声纹特征到预置的初始声纹数据库中检索得到相似度最高的M个注册音频数据,并根据M个注册音频数据构建初始声纹数据子库;

根据所述初始声纹数据库中的注册音频数据依据说话人标签进行分析处理,并形成所述注册音频数据的语音关系图;

根据所述初始声纹数据子库和所述注册音频数据的语音关系图进行数据分析,获取与所述测试音频数据的声纹特征相似度最高的M

采用新的声纹模型提取器重新提取所述注册音频数据库中M

进一步的,所述根据初始声纹数据库中的注册音频数据依据说话人标签进行分析处理,并形成所述注册音频数据的语音关系图的步骤包括:

将所述初始声纹数据库中的注册音频数据根据预设的聚类门限进行声纹聚类处理;或者

将所述初始声纹数据库中的注册音频数据根据语音对应的话单信息进行话单关联处理;

将所述注册音频数据依据说话人标签进行信息绑定,从而形成所述注册音频数据的语音关系图。

进一步的,所述根据初始声纹数据子库和所述注册音频数据的语音关系图进行数据分析,获取与所述测试音频数据的声纹特征相似度最高的M

将所述初始声纹数据子库中的M个注册音频数据在所述注册音频数据的语音关系图中进行查找,获取所述M个注册音频数据中每一个注册音频数据对应同一个说话人的K个邻近注册音频数据,从而获取与所述测试音频数据的声纹特征相似度最高的M

根据所述M

进一步的,所述根据M

将所述M

进一步的,所述采用新的声纹模型提取器重新提取所述注册音频数据库中M

采用新的声纹模型提取器重新提取测试音频数据的声纹特征并形成更新后的声纹特征;

将所述测试音频数据更新后的声纹特征与所述更新声纹子库中的注册音频数据的声纹特征进行比对分析,取得与所述测试音频数据更新后的声纹特征相似度最高的TopN个注册音频数据。

进一步的,所述将测试音频数据更新后的声纹特征与所述更新声纹子库中的注册音频数据的声纹特征进行比对分析,取得与所述测试音频数据更新后的声纹特征相似度最高的Top N个注册音频数据的步骤包括:

将所述测试音频数据更新后的声纹特征与所述更新声纹子库中的注册音频数据的声纹特征进行比对,获取与所述测试音频数据更新后的声纹特征最相似的N个注册音频数据;

将所述N个注册音频数据依据相似度进行排名计分;

根据所述M

根据所述融合排名计分将所述N个注册音频数据进行排序,得到Top N个注册音频比对结果。

进一步的,,所述方法还包括:

通过基于声纹特征和信道特征分离的深度卷积神经网络进行建模训练获得新的声纹模型提取器。

进一步的,所述通过基于声纹特征和信道特征分离的深度卷积神经网络进行建模训练获得新的声纹模型提取器的步骤包括:

判断所述声纹模型提取器的优化迭代次数是否达到预设的值;

如果所述声纹模型提取器的优化迭代次数没有达到预设的值,则执行步骤:

将输入的语音数据进行数据分割成多个语谱片段;

根据所述多个语谱片段进行数据映射得到所述语音数据的特征图;

将所述语音数据的特征图通过双向长短期记忆神经网络进行分离处理后,从声纹模型中分离出语谱片段的信道模型;

训练基于所述声纹特征和所述信道特征分离的深度卷积神经网络;

将所述迭代次数加1;

如果所述深度卷积神经网络的优化迭代次数达到预设的值,则获得新的声纹模型提取器,结束流程。

进一步的,所述对输入的语音数据进行数据处理,将所述语音数据分割成多个语谱片段的步骤包括:

获取输入的语音数据;

将所述语音数据进行加窗和傅里叶变换,取得所述语音数据的声学特征参数序列;

将所述声学特征参数序列按预设的窗长进行切分,取得多个语谱片段。

进一步的,所述训练基于所述从声纹特征和所述信道特征的深度卷积神经网络的步骤包括:

根据所述多个语谱片段的每一个语谱片段进行压缩处理得到低维的声纹特征softmax优化的损失值;

根据所述多个语谱片段进行优化处理得到多个语谱片段优化的损失值;

根据所述低维的声纹特征优化的损失值和所述多个语谱片段优化的损失值计算得到总的目标损失值;

根据所述总的目标损失值,通过误差反向传播算法对所述从声纹特征和所述信道特征的深度卷积神经网络进行训练。

为解决上述技术问题,本申请还提供一种存储设备,其中存储有多个指令,所述指令适于由处理器加载并执行如前述在线声纹特征更新方法中所述的指令。

为解决上述技术问题,本申请还提供一种在线声纹特征更新设备,包括:

处理器,适于实现各指令;以及

存储设备,适于存储多个指令,所述指令适于由处理器加载并执行如前述在线声纹特征更新方法中所述的指令。

为解决上述技术问题,本申请还提供一种建模设备,包括:

处理器,适于实现各指令;以及

存储设备,适于存储多个指令,所述指令适于由处理器加载并执行如前述在线声纹特征更新方法中所述的指令。

本申请提供的声纹特征更新方法,再需要进行声纹特征更新的设备通过在需要测试音频数据时,通过采用初始化时默认的声纹模型提取器对所有注册音频数据和待测试的测试音频数据进行声纹模型提取,并且进行数据分析后再采用新的声纹模型提取器重新提取分析后的注册音频数据,完成在线更新;从而能够在使用有限的计算资源的前提下,快速高效地完成声纹特征更新。

上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

附图说明

图1为本申请实施例提供的一种在线声纹特征更新方法的数据流程示意图。

图2为本申请实施例提供一种在线声纹特征更新方法的另一数据流程示意图。

图3为本申请实施例提供的一种在线声纹特征更新设备的逻辑结构示意图。

图4为本申请实施例提供的一种声纹模型提取器的建模设备的逻辑结构示意图。

具体实施方式

为更进一步阐述本申请为达成预定申请目的所采取的技术手段及功效,以下结合附图及较佳实施例,对本申请详细说明如下。

通过具体实施方式的说明,当可对本申请为达成预定目的所采取的技术手段及效果得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本申请加以限制。

实施例一:

请参阅图1,本实施例中的声纹特征更新为在线更新,并且是根据每个测试音频数据逐个更新的,更新速度快,能使每个测试音频快速体验新的声纹模型提取器的比对效果。其中更新的主体可以为终端设备,也可以是服务器设备,本实施例不做限制。本实施例中在线声纹特征更新方法包括:

101、获取测试音频数据;

获取待测试的测试音频数据,其中,测试音频数据是用户在需要验证时输入的音频数据。

102、采用原始声纹模型提取器对测试音频数据提取声纹特征,并根据该声纹特征到预置的初始声纹数据库中检索得到相似度最高的M个注册音频数据,并根据M个注册音频数据构建初始声纹数据子库;

获取测试音频数据后,采用原始声纹模型提取器对测试音频数据提取声纹特征,并根据提取的声纹特征到预置得初始声纹数据库中检索得到相似度最高的M个注册音频数据,再根据M个注册音频数据构建初始声纹数据子库;其中,初始声纹数据库包括了所有注册音频数据及其根据原始声纹模型提取器提取得的声纹特征,初始声纹数据库是预置得,不用另外生成。其中,注册音频数据是保存本地或者服务器端/云端的用户注册时输入并保存的音频数据。

其中,原始声纹模型提取器为之前用于提取声纹特征的声纹提取器,即未被更新的声纹提取器,具体可以是具有特征提取功能的神经网络;当采用新的声纹模型提取器将全部数据更新完毕后,整个系统切换采用更新后的声纹模型提取器进行声纹特征提取。

103、根据初始声纹数据库中的注册音频数据依据说话人标签进行分析处理,并形成注册音频数据的语音关系图;

构建初始声纹数据库后,设备再对初始声纹数据库进行声纹聚类或话单关联,将所有注册音频数据按照说话人标签进行信息绑定,最终形成所有注册音频数据的语音关系图。

104、根据初始声纹数据子库和注册音频数据的语音关系图进行数据分析,获取与测试音频数据的声纹特征相似度最高的M

将初始声纹数据子库中的M个注册音频数据在注册音频数据的语音关系图中进行查找,并且获取前述M个注册音频数据中每一个注册音频数据对应同一个说话人的K个邻近注册音频数据,从而获取与测试音频数据的声纹模型相似度最高的M

105、采用新的声纹模型提取器重新提取注册音频数据库中M

设备再采用新的声纹模型提取器重新提取注册音频数据库中M

在本实施例中,需要进行声纹特征更新的设备通过在需要提取测试音频数据的声纹特征时,采用初始化时默认的声纹模型提取器对所有待测试的测试音频数据进行声纹特征提取,并且进行数据分析后再采用新的声纹模型提取器重新提取分析后的注册音频数据,完成在线更新,从而待测试的测试音频可以快速体验新的声纹模型提取器的检索比对效果。

实施例二:

请参阅图2,本实施例中的声纹特征更新为在线更新,并且是根据每个测试音频数据逐个更新的,更新速度快,能使每个测试音频快速体验新的声纹模型提取器的比对效果。其中更新的主体可以为终端设备,也可以是服务器设备,本实施例不做限制。本实施例中在线声纹特征更新方法包括:

201、获取测试音频数据;

获取待测试的测试音频数据,其中,测试音频数据是用户在需要验证时输入的音频数据。

202、采用原始声纹模型提取器对测试音频数据提取声纹特征,并根据该声纹特征到预置的初始声纹数据库中检索得到相似度最高的M个注册音频数据,并根据M个注册音频数据构建初始声纹数据子库;

获取测试音频数据后,采用原始声纹模型提取器对测试音频数据提取声纹特征,并根据提取的声纹特征到预置得初始声纹数据库中检索得到相似度最高的M个注册音频数据,再根据M个注册音频数据构建初始声纹数据子库;其中,初始声纹数据库包括了所有注册音频数据及其根据原始声纹模型提取器提取得的声纹特征,初始声纹数据库是预置得,不用另外生成。其中,注册音频数据是保存本地或者服务器端/云端的用户注册时输入并保存的音频数据。

其中,原始声纹模型提取器为之前用于提取声纹特征的声纹提取器,即未被更新的声纹提取器,具体可以是具有特征提取功能的神经网络;当采用新的声纹模型提取器将全部数据更新完毕后,整个系统切换采用更新后的声纹模型提取器进行声纹特征提取。

203、将初始声纹数据库中的注册音频数据根据预设的聚类门限进行声纹聚类处理;或者,将初始声纹数据库中的注册音频数据根据语音对应的话单信息进行话单关联处理;

再将初始声纹数据库中的注册音频数据根据预设的聚类门限进行声纹聚类处理,具体的:

设置聚类门限T,根据实验经验,为了让更多的注册音频数据聚合成同一个说话人,T的值一般设置较低,根据经验优选值可设为0.4;最终可将注册音频数据依据说话人标签进行信息绑定。

或者,将初始声纹数据库中的注册音频数据根据语音对应的话单信息进行话单关联处理;最终可将注册音频数据依据说话人标签进行信息绑定。

204、将注册音频数据依据说话人标签进行信息绑定,形成注册音频数据的语音关系图;

通过步骤203中的两种方式,将注册音频数据依据说话人标签进行信息绑定,最终均可形成注册音频数据的语音关系图。

205、将初始声纹数据子库中的M个注册音频数据在注册音频数据的语音关系图中进行查找,获取M个注册音频数据中每一个注册音频数据对应同一个说话人的K个邻近注册音频数据,从而获取与测试音频数据的声纹特征相似度最高的M

再用初始声纹数据子库中的M个注册音频数据,去注册音频数据的语音关系图中进行查找,查找出该M个注册音频数据中每一个注册音频数据对应同一个说话人的K个邻近的注册音频数据,从而获取与测试音频数据的声纹特征相似度最高的M

206、根据M

将获取的M

207、采用新的声纹模型提取器重新提取注册音频数据库中M

设备再采用新的声纹模型提取器重新提取注册音频数据库中M

针对每一个测试音频数据,本实施例不但可以采用新的声纹模型提取器快速将与该待测试音频数据最接近的注册音频数据的更新声纹子库在线更新,本实施例中还可以让用户即时体验新的声纹模型提取器的检索比对效果。

208、采用新的声纹模型提取器重新提取测试音频数据的声纹特征并形成更新后的声纹特征;

更新测试音频数据的声纹数据子库后,采用新的声纹模型提取器重新提取测试音频数据的声纹特征,并形成更新后的声纹特征。

209、将测试音频数据更新后的声纹特征与更新声纹子库中的注册音频数据的声纹特征进行比对分析,获取与测试音频数据更新后的声纹特征最相似的N个注册音频数据;

再将测试音频数据更新后的声纹特征与更新声纹子库中的注册音频数据的声纹特征进行比对分析,得到与该测试音频数据更新后的声纹特征最相似的N个声纹特征,并获取该N个声纹特征对应的注册音频数据。

210、将前述N个注册音频数据依据相似度进行排名计分;

同样,将步骤209中获取的N个注册音频数据依据相似度进行排名计分,具体的:

将获得的N个注册音频,每个注册音频数据赋予排名得分:

其中E

211、将M

步骤205中获取与测试音频数据的声纹特征相似度最高的M

将获得的M

其中E

212、根据M

再根据步骤211和步骤212获取的排名得分,将二者进行融合,得到N个注册音频数据的融合排名计分,具体的:

获得的N个注册音频,每个注册音频数据E进行得分排名融合:Score(E)=α·Score

213、根据融合排名计分将N个注册音频数据进行排序,得到Top N个注册音频比对结果;

将N个注册音频进行排名融合计算后,再根据融合排名计分将N个注册音频数据进行排序,得到Top N个注册音频比对结果。

进一步的,关于M与N的取值,因为N是期望最终返回的注册音频数据,M是根据测试音频数据的声纹特征,在初始声纹数据库中进行检索比对的返回结果,因此M的值远大于N的值,根据实验经验,一般M的值在10000左右。

进一步的,在本实施例中,新的声纹模型提取器是建模设备通过基于声纹特征和信道特征分离的深度卷积神经网络进行建模训练获得的,信道特征用于表征反映语音信号的特征,能够体现语音通信的过程中由于通信工具导致的原始语音信号的畸变不同,如模拟传输信道的影响、语音编解码的影响、数字通信方式中存在的数据丢失等问题,其中,建模设备可以是服务器设备,也可以是终端设备,此处不做限制;具体的建模训练过程为:

步骤1:首先判断待建模的声纹模型提取器的优化迭代次数是否达到预设的值;如果该声纹模型提取器的优化迭代次数没有达到预设的值,则执行后续步骤;如果该声纹模型提取器的优化迭代次数达到预设的值,则获得新的声纹模型提取器,结束流程。

步骤2:对输入的语音数据进行分割处理,将语音数据分割成多个语谱片段;具体的:

首先将语音数据进行加窗和/或傅里叶变换处理,得到声学特征参数,例如FilterBank特征,其维度记为d;

再将声学特征参数,例如FilterBank特征序列,按窗长l进行切分,得到N个语谱片段{Seg

步骤3:根据多个语谱片段进行映射得到语音数据的特征图;

将多个语谱片段进行数据处理,具体为:采用卷积convolution、池化pooling以及激活处理,将语谱片段映射成C个特征图,堆叠若干层形成卷积神经网络,将单个语谱片段Seg

步骤4:再将生成的单个语谱片段Seg

步骤5:将步骤4中生产的单个语谱片段Seg

步骤6:计算卷积神经网络训练过程中总的目标损失值Loss=Loss

经过多次迭代优化后,即可得到提取声纹特征的新的声纹模型提取器;该建模方法将声纹特征和信道特征分离建模,可剔除信道等因素对声纹特征提取的干扰,从而可以建立更精准的声纹模型提取器。

在本实施例中,设备需要进行声纹特征更新的设备通过在需要测试音频数据时,采用初始化时默认的声纹模型提取器对待测试的测试音频数据进行声纹特征提取,并且进行数据分析后再采用新的声纹模型提取器重新提取分析后的注册音频数据,完成在线更新,从而待测试的测试音频可以快速体验新的声纹模型提取器的检索比对效果;并且,本实施例揭示的新的声纹模型提取器的建模和训练,采用基于声纹特征和信道特征分离的深度卷积神经网络,可剔除信道等因素对声纹特征提取的干扰,从而能够建立更精准的声纹模型。

实施例三:

本实施例中的存储设备,其中存储多个指令,该指令适于由处理器加载并执行如图1和图2所述的指令,具体执行过程及有益效果请参阅前述实施例,此处不做赘述。

实施例四:

请参阅图3,本实施例中的在线声纹特征更新设备包括:

处理器301,适于实现各指令;以及

存储设备302,适于存储多个指令,所述指令适于由处理器加载并执行如图1和图2所述的指令,具体执行过程及有益效果请参阅前述实施例,此处不做赘述。

实施例五:

请参阅图4,本实施例中一种建模设备,包括:

处理器401,适于实现各指令;以及

存储设备402,适于存储多个指令,所述指令适于由处理器加载并执行实施例二中建模训练过程的指令,具体执行过程及有益效果请参阅前述实施例二,此处不做赘述。

以上所述,仅是本申请的较佳实施例而已,并非对本申请作任何形式上的限制,虽然本申请已以较佳实施例揭露如上,然而并非用以限定本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本申请的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本申请技术方案的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号