首页> 中国专利> 身份认证和声学环境检测方法、系统、电子设备及介质

身份认证和声学环境检测方法、系统、电子设备及介质

摘要

本申请为身份认证和声学环境检测方法、系统、电子设备及介质,公开了一种基于声纹识别的身份认证方法、系统、电子设备及介质。基于声纹识别的身份认证方法,包括:在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语音;将声学环境语音与用户验证语音输入预先训练的声学环境一致性检测模型进行声学环境检测,得到声学环境语音的声学环境与用户验证语音的声学环境的检测结果;对用户验证语音与用户注册语音进行声纹识别,得到用户验证语音的声纹特征与用户注册语音的声纹特征的识别结果;基于声学环境的检测结果、以及声纹特征的识别结果,确定用户身份认证结果。该方案能够提升基于声纹识别进行身份认证的安全性和可靠性。

著录项

  • 公开/公告号CN114826709A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 马上消费金融股份有限公司;

    申请/专利号CN202210395690.X

  • 申请日2022-04-15

  • 分类号H04L9/40(2022.01);G10L25/48(2013.01);G10L17/04(2013.01);G10L17/00(2013.01);

  • 代理机构北京国昊天诚知识产权代理有限公司 11315;

  • 代理人许振新

  • 地址 401120 重庆市渝北区黄山大道中段52号渝兴广场B2栋4至8楼

  • 入库时间 2023-06-19 16:12:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-16

    实质审查的生效 IPC(主分类):H04L 9/40 专利申请号:202210395690X 申请日:20220415

    实质审查的生效

说明书

技术领域

本申请涉及网络安全及机器学习技术领域,尤其涉及一种基于声纹识别的身份认证方法、系统、电子设备及介质,以及一种声学环境检测方法、系统、电子设备及介质,以及一种声学环境一致性检测模型的训练方法。

背景技术

随着声纹识别技术的发展,声纹识别作为可信的声纹特征认证技术,在身份认证、安全核身等诸多领域和场景中都有广阔的应用前景。声纹识别系统通常用于远程身份认证中。现有技术中基于声纹识别进行远程身份认证时,一般由客服与用户(即认证对象)进行预设认证问题的问答,通过声纹特征的比较对用户进行身份认证。该方案并没有考虑预设认证问题的答案被录音并重放的攻击场景,如果用户的预设认证问题的答案被他人录音并用于远程身份认证,则远程身份认证时接收到的用户验证语音(实际为重放录音)与预设认证问题对应的答案完全匹配,导致重放录音攻击通过认证。由于声纹识别系统,无法对认证对象是否是本人、以及听到的语音是否是本人正在说话进行监督,所以声纹识别系统的应用安全性受到广泛的关注。

鉴于声纹识别系统非常容易受到重放录音攻击,声纹识别系统能够高效的检测出是否为本人正在说话,而非重放录音或者重放经过拼接的录音具有非常重要的实际意义。现有技术中常用的重放攻击检测系统,需要利用数据集构造重放攻击数据,使用构造的重放攻击数据训练分类检测模型,基于训练好的分类检测模型针对用户语音进行重放攻击检测,得到是用户本人正在说话还是重放录音的检测结果。而往往在同一个数据集上训练的模型在另一个数据集上的应用效果较差,想要有一个较好的模型,需要构造不同的攻击场景、声学环境和多种录放设备,成本高昂。

有鉴于此,如何提升重放攻击检测能力,有效避免声纹识别系统受到重放录音攻击的影响,成为现有技术中亟待解决的技术问题之一。

发明内容

本说明书实施例的一个目的是提供一种基于声纹识别的身份认证方法、系统、电子设备及介质,以避免声纹识别系统受到重放录音攻击的影响,提升基于声纹识别进行身份认证的安全性和可靠性。

基于同一技术构思,本说明书实施例的另一个目的是提供一种声学环境检测方法、系统、电子设备及介质,针对短时间内两条语音实现声学环境一致性检测,提升重放攻击检测能力。

基于同一技术构思,本说明书实施例的再一个目的是提供一种声学环境一致性检测模型的训练方法。

为了实现上述目的,本说明书实施例采用下述技术方案:

第一方面,提供一种基于声纹识别的身份认证方法,包括:

在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语音;

将所述声学环境语音与所述用户验证语音输入预先训练的声学环境一致性检测模型进行声学环境检测,得到所述声学环境语音的声学环境与所述用户验证语音的声学环境的检测结果;

对所述用户验证语音与用户注册语音进行声纹识别,得到所述用户验证语音的声纹特征与所述用户注册语音的声纹特征的识别结果;

基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果。

第二方面,提供一种基于声纹识别的身份认证系统,包括:

采集子系统,用于在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语音;

声学环境检测子系统,用于将所述声学环境语音与所述用户验证语音输入预先训练的声学环境一致性检测模型进行声学环境检测,得到所述声学环境语音的声学环境与所述用户验证语音的声学环境的检测结果;

声纹识别子系统,用于对所述用户验证语音与用户注册语音进行声纹识别,得到所述用户验证语音的声纹特征与所述用户注册语音的声纹特征的识别结果;

认证子系统,用于基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果。

第三方面,提供一种声学环境检测方法,包括:

提取待检测语音对中第一语音的频谱特征、以及第二语音的频谱特征,所述第二语音为实时采集的用户语音,所述第一语音为在采集所述第二语音之前设定时间段内采集的所述用户所处的声学环境语音;

将所述第一语音的频谱特征、以及所述第二语音的频谱特征输入预先训练的声学环境一致性检测模型,输出所述第一语音对应的第一声学特征向量、以及所述第二语音对应的第二声学特征向量;

计算所述第一声学特征向量与所述第二声学特征向量之间的余弦距离;

若所述余弦距离大于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境不一致。

第四方面,提供一种声学环境检测系统,包括:

提取模块,用于提取待检测语音对中第一语音的频谱特征、以及第二语音的频谱特征,所述第二语音为实时采集的用户语音,所述第一语音为在采集所述第二语音之前设定时间段内采集的所述用户所处的声学环境语音;

声学环境一致性检测模型,用于接收所述第一语音的频谱特征、以及所述第二语音的频谱特征,输出所述第一语音对应的第一声学特征向量、以及所述第二语音对应的第二声学特征向量;

计算模块,用于计算所述第一声学特征向量与所述第二声学特征向量之间的余弦距离;

检测模块,用于检测所述余弦距离是否大于预设的余弦距离阈值,若所述余弦距离大于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境不一致。

第五方面,提供一种声学环境一致性检测模型的训练方法,包括:

获取训练数据集,从所述训练数据集中确定预设数量的样本语音对,并标记所述样本语音对中的两条语音是否来自同一声学环境,其中,所述训练数据集中各语音来自的声学环境为已知;

提取所述样本语音对中两条语音各自的频谱特征;

将所述样本语音对中两条语音各自的频谱特征输入经过初始化的第一声学环境一致性检测模型,得到所述样本语音对中两条语音分别对应的声学特征向量,其中,所述第一声学环境一致性检测模型采用具备空间环境感知能力的网络;

根据所述样本语音对中两条语音分别对应的声学特征向量之间的余弦距离、以及所述样本语音对中两条语音是否来自同一声学环境的标记,确定损失函数的损失值;

根据所述损失函数的损失值对所述第一声学环境一致性检测模型进行训练,直至所述损失函数的损失值达到预设值,则将此时的第一声学环境一致性检测模型确定为所述声学环境一致性检测模型。

第六方面,提供一种电子设备,包括:

处理器;

用于存储所述处理器可执行指令的存储器;

其中,所述处理器被配置为执行所述指令,以实现如第一方面或者第三方面所述的方法。

第七方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面或者第三方面所述的方法。

本说明书实施例提供的基于声纹识别的身份认证方案,通过基于声学环境一致性检测模型的声学环境检测,可以得到用户当前所处的声学环境语音的声学环境与用户验证语音的声学环境是否一致的检测结果,如果声学环境一致则说明未受到重放录音攻击,同时通过声纹识别得到用户验证语音的声纹特征与用户注册语音的声纹特征是否一致的识别结果,如果声纹特征一致则说明是注册用户本人,将声学环境一致性检测和声纹识别相结合对用户进行身份认证,即可准确确定用户身份认证结果;该方案不仅能够对用户验证语音(认证对象)与用户注册语音进行声纹识别,同时还能够对用户验证语音与用户当前所处的声学环境语音进行声学环境一致性检测,有效避免声纹识别系统受到重放录音攻击影响的影响,提升声纹识别系统的应用安全性和可靠性,从而提升基于声纹识别进行身份认证的安全性和可靠性。

本说明书实施例提供的声学环境检测方案,鉴于重放录音与正常语音最大的区别是两条语音经过的录放设备、声学环境不一致,提出通过检测用户说话之前和用户说话时的声学环境是否一致,判断是否受到重放录音攻击的技术构思;在短时间内采集用户所处的声学环境语音和用户语音,将短时间内的两条语音各自的频谱特征输入预先训练的声学环境一致性检测模型,输出两条语音分别对应的声学特征向量,声学环境一致性检测模型输出的两个声学特征向量能够准确反应两条语音的声学环境是否一致,进一步通过两个声学特征向量之间的余弦距离判断两条语音的声学环境是否一致,如果声学环境不一致,则说明受到了重放录音攻击。该方案能够有效对短时间内的两条语音是否来自同一声学环境进行检测,从而提升防重放录音攻击的能力。

本说明书实施例提供的声学环境一致性检测模型的训练方法,利用训练数据集构造预设数量的样本语音对,并标记样本语音对中的两条语音是否来自同一声学环境,训练数据集中各语音来自的声学环境是已知的;利用构造的样本语音对进行声学环境一致性检测模型的训练,提取样本语音对中两条语音各自的频谱特征再输入经过初始化的第一声学环境一致性检测模型,得到样本语音对中两条语音分别对应的声学特征向量,根据样本语音对中两条语音分别对应的声学特征向量之间的余弦距离、以及样本语音对的标记,确定损失函数的损失值,通过不断的训练直至损失函数的损失值达到预设值,即可得到最终的声学环境一致性检测模型。在模型训练中训练数据集可以使用现有的开源数据集,可以直接利用训练数据集构造样本语音对,并利用训练数据集中各语音已知的声学环境标记样本语音对中两条语音是否来自同一声学环境,该训练方法能够充分利用现有各种用于声纹识别行业标准评估的数据集、用于语音识别训练的数据集等非重放攻击数据,训练数据非常容易获取,与现有的重放攻击检测所采用的基于重放攻击数据的分类检测模型相比,能够避免构造复杂场景下的重放攻击数据和跨领域问题,避免昂贵的重放攻击数据的采集成本和采集周期。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:

图1为本说明书的一个实施例提供的一种声学环境一致性检测模型的训练方法的流程示意图;

图2为本说明书的一个实施例中语音信号采用的频谱特征提取流程示意图;

图3为本说明书的一个实施例中采用的LCNN-29的结构示意图;

图4为本说明书的一个实施例中采用的LCNN-29结构中的MFM操作示意图;

图5为本说明书的一个实施例提供的一种采用LCNN-29训练声学环境一致性检测模型的流程示意图;

图6为本说明书的一个实施例提供的一种声学环境检测方法的流程示意图;

图7为本说明书的一个实施例提供的一种声学环境检测装置的结构示意图;

图8为本说明书的一个实施例提供的一种基于声纹识别的身份认证方法的流程示意图;

图9为本说明书的一个实施例提供的一种基于声纹识别的身份认证系统的结构示意图;

图10为本说明书的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。

首先对本申请的技术构思进行说明。

本发明人在发明过程中发现:

一方面,声纹识别系统在训练过程中,为了声纹识别应用的鲁棒性,通常在训练时会忽略录放设备、声学环境等差异,仅关注说话人本身的声纹特征,导致声纹识别系统非常容易受到重放录音攻击。

另一方面,重放攻击检测最大的难点在于跨领域检测。同一个数据集(领域)中,录音配置例如播放设备、录音设备、声学环境等比较相似,所以重放录音攻击比较相似;而不同的数据集的录音配置差异较大,即重放录音攻击存在较大差异。所以,同一个数据集上训练的分类检测模型在另一个数据集上的应用效果较差,想要有一个较好的分类检测模型,需要构造不同的攻击场景、声学环境和多种录放设备,也就是说,需要构造复杂场景下的重放攻击数据。

再一方面,同一人的重放录音与正常语音的差异主要在于声学环境和录放设备的差异,用户说话之前和用户说话时的声学环境是否一致,可以作为是否受到重放录音攻击的判断依据。

综合考虑以上几方面因素,提出抛弃基于分类检测模型对用户的单条语音进行重放攻击检测的传统思路,改为检测用户说话之前和用户说话时的声学环境是否一致,基于声学环境一致性检测实现重放攻击检测的技术构思,同时,声学环境一致性检测可以与声纹识别相结合,解决声纹识别系统受到重放录音攻击的问题。

为此,本说明书实施例旨在提供一种基于声纹识别的身份认证方法及系统,在接受到用户(即认证对象)身份认证请求的情况下,接受终端当前采集的声学环境语音,然后采集该用户提供的用户验证语音,通过检测上述两条语音的声学环境是否一致,可以判断出是否受到重放录音攻击;通过检测上述两条语音是否来自同一声学环境,并将该声学环境一致性检测和声纹识别相结合应用于身份认证,不仅能够对用户的声纹特征进行识别,同时还能够对用户说话之前和用户说话时的声学环境进行一致性检测,有效避免声纹识别系统受到录音重放攻击的影响,提升声纹识别系统的应用安全性和可靠性,从而提升基于声纹识别进行身份认证的安全性和可靠性。

基于同一技术构思,本说明书实施例还提供一种声学环境检测方法及系统,鉴于重放录音与正常语音最大的区别在于两条语音经过的录放设备、声学环境不一致,通过检测用户说话之前和用户说话时的声学环境是否一致,即可判断是否受到重放录音攻击;该方案抛弃了根据用户的单条语音进行重放攻击检测的传统思路,关注用户说话之前和用户说话(或者重放录音)时的声学环境的差异,在用户无感知的情况下采集两次声学环境进行是否受到重放录音攻击的检测;该方案能够有效对短时间内的两条语音是否来自同一声学环境进行检测,有效对抗重放录音攻击,提升重放攻击检测能力。

本说明书实施例还提供一种声学环境一致性检测模型的训练方法,在模型训练中训练数据集可以使用现有的开源数据集,可以直接利用训练数据集构造样本语音对,并利用训练数据集中各语音已知的声学环境标记样本语音对中两条语音是否来自同一声学环境,该训练方法能够充分利用现有各种用于声纹识别行业标准评估的数据集、用于语音识别训练的数据集等非重放攻击数据,训练数据非常容易获取,与现有的重放攻击检测所采用的基于重放攻击数据的分类检测模型相比,能够避免构造复杂场景下的重放攻击数据和跨领域问题,避免昂贵的重放攻击数据的采集成本和采集周期。

以下结合附图,详细说明本说明书各实施例提供的技术方案。

本说明书实施例提供的声学环境检测方法及系统,基于声纹识别的身份认证方法及系统,均基于预先训练的声学环境一致性检测模型实现,首先对本说明书实施例提供的声学环境一致性检测模型的训练方法进行详细说明。

本说明书实施例提供的声学环境一致性检测模型的训练方法的实施环境包括终端,或者该实施环境包括终端和服务端,终端通过无线网络或者有线网络与服务端相连。终端可以是智能手机、台式计算机、平板电脑、便携式计算机中的至少一种。终端安装和运行有支持声学环境检测的应用程序。

示例性地,该终端能够获取训练数据集,构造设定数量的样本语音对,基于构造的样本语音对训练声学环境一致性检测模型,训练结束后得到一个准确性和鲁棒性好的声学环境一致性检测模型,后续能够基于该训练好的声学环境一致性检测模型对两条语音进行声学环境一致性检测,确定该两条语音是否来自同一声学环境。该终端能够独立完成该工作,也能够通过服务端为其提供数据服务。本说明书实施例对此不作限定。

服务端包括一台服务器、多台服务器组成的服务器集群、云计算平台和虚拟化中心中的至少一种。服务端用于为支持声学环境检测的应用程序提供后台服务。可选地,服务端承担主要处理工作,终端承担次要处理工作;或者,服务端承担次要处理工作,终端承担主要处理工作。

当然,本领域技术人员可以理解的是,声学环境一致性检测模型的训练方法的实施环境也适用于基于声纹识别的身份认证方法的实施环境以及声学环境检测方法的实施环境。

基于声纹识别的身份认证方法的实施环境以及声学环境检测方法的实施环境包括具有录音功能的终端,终端中部署有基于声纹识别的身份认证系统或声学环境检测系统,用于执行本申请提供的基于声纹识别的身份认证方法或声学环境检测方法。终端可以是安装有如麦克风等录音模块的手机、平板电脑、台式计算机、便携笔记本式计算机等移动设备。

或者,所述实施环境包括服务端和具有录音功能的终端,服务端与终端通过网络通讯连接。其中,终端可以是独立的录音设备,例如麦克风等;终端还可以是安装有如麦克风等录音模块的手机、平板电脑、台式计算机、便携笔记本式计算机等移动设备。服务端可以是独立的服务器,也可以是由多台服务器组成的服务器集群等。服务端中部署有基于声纹识别的身份认证系统或声学环境检测系统,用于执行本申请提供的基于声纹识别的身份认证方法或声学环境检测方法。

本说明书实施例提供的声学环境一致性检测模型的训练方法能够应用于任一种需要声学环境一致性检测的场景中,则该方法能够应用于这些场景的产品中,例如声学环境检测系统、重放攻击检测系统,基于声纹识别的远程身份认证系统等。

本说明书实施例提供的声学环境一致性检测模型的训练方法,如图1所示,包括如下步骤:

S101、获取训练数据集,从训练数据集中确定设定数量的样本语音对,并标记样本语音对中的两条语音是否自来自同一声学环境;

在S101的具体实施中,可以将开源数据集作为训练数据集,所述的开源数据集可以是各种用于声纹识别行业标准评估的数据集,和/或用于语音识别训练的数据集;通常,开源数据集中各语音来自的声学环境为已知。

可以采用如下两种方案构造样本语音对:

方案一、从训练数据集中随机抽取两条语音作为样本语音对,如果随机抽取的两条语音来自同一声学环境,则将该样本语音对标记为第一标识,如果随机抽取的两条语音来自不同声学环境,则将该样本语音对标记为第二标识;

方案二、从训练数据集中提取一条语音,从提取的语音中切分两个非重叠的语音片段作为样本语音对,并将该样本语音对标记为第一标识;提取同一用户的、且来自不同声学环境的两条语音作为样本语音对,并将该样本语音对标记为第二标识;

其中,第一标识与第二标识不同,需要说明的是,只要第一标识与第二标识不同即可满足要求,第一标识和第二标识可以为数值、字母、文字或其他符号。为了便于计算,第一标识可以取值为1,第二标识可以取值为-1;构造样本语音对的数量N由训练数据集中的语音条数和用户数决定。

S102、提取确定的样本语音对中两条语音各自的频谱特征;

语音信号的频谱特征可以包括Spectrogram(语谱图)、Fbank(Filter-Bank,滤波器组)、MFCC(Mel-frequency cepstral coefficients,梅尔频率倒谱系数)、PLP(Perceptual Linear Predictive,感知线性预测系数)、CQCC等,上述几种频谱特征的提取流程如图2所示,简单介绍如下:

Fbank是一种前端处理算法,由于人耳对声音频谱的响应是非线性的,因此Fbank以类似于人耳的方式对音频进行处理,可以提高语音识别的性能;获得语音信号的Fbank特征的一般步骤是预加重、分帧、加窗、短时傅里叶变换(STFT)、取功率谱、幅度平方、Mel滤波器组、取对数等;对Fbank做离散余弦变换(DCT)即可获得MFCC特征;

梅尔频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系;MFCC则是利用它们之间的这种关系,计算得到的Hz频谱特征;主要用于语音特征提取和降低运算维度;

PLP是一种基于Bark听觉模型的特征参数,其采取线性预测方法实现语音信号的解卷处理,得到对应的声学特征参数;主要经过频谱分析、临界频带分析、零响度预加重、强度-响度转换、离散傅里叶逆变换、线性预测等步骤;

CQCC主要经过预加重、分帧(常用的方式为帧长25ms,帧移10ms)、加窗、傅里叶变换、滤波器、对数运算等步骤。

S103、将样本语音对中两条语音各自的频谱特征输入经过初始化的第一声学环境一致性检测模型,得到样本语音对中两条语音分别对应的声学特征向量,所述第一声学环境一致性检测模型采用具备空间环境感知能力的网络;

在S103的具体实施中,所述的具备空间环境感知能力的网络可以为CNN(卷积神经网络)类,例如ResNet(残差网络)、TDNN(Time-Delay Neural Network,时延神经网络)、LCNN(Light Convolutional Neural Network,轻型卷积神经网络)等。

S104、根据样本语音对中两条语音分别对应的声学特征向量之间的余弦距离、以及样本语音对中两条语音是否来自同一声学环境的标记,确定损失函数的损失值;

一种较佳的损失函数通过如下公式[1]定义:

其中,x表示样本语音对,y表示所述样本语音对中两条语音是否来自同一声学环境的标记,若所述样本语音对中两条语音来自同一声学环境,则所述样本语音对的标记为第一标识,若所述样本语音对中两条语音来自不同声学环境,则所述样本语音对的标记为第二标识,x1、x2表示所述样本语音对中两条语音分别对应的声学特征向量,cos(x1,x2)表示所述样本语音对中两条语音分别对应的声学特征向量之间的余弦距离;在公式中仅是为了表述方便,第一标识用ID1表示,第二标识用ID2表示,可以理解,第一标识ID1和第二标识ID2可以设置为不同的数值、字母、文字、或其他符号;S105、根据损失函数的损失值对所述第一声学环境一致性检测模型进行训练,直至所述损失函数的损失值达到预设值,则将此时的第一声学环境一致性检测模型确定为所述声学环境一致性检测模型;

在声学环境一致性检测模型的训练过程中,可以将确定的样本语音对按照特定比例划分为训练集和测试集,训练集用于模型训练,测试集用于测试模型效果,训练集和测试集的一种较佳比例可以为9:1,该特定比例并不作严格限制。

在样本语音对的标记为第一标识,即样本语音对中两条语音来自同一声学环境的条件下,样本语音对中两条语音分别对应的声学特征向量之间的余弦距cos(x1,x2)离应该接近于1;在样本语音对的标记为第二标识,即样本语音对中两条语音来自不同声学环境的条件下,样本语音对中两条语音分别对应的声学特征向量之间的余弦距离cos(x1,x2)应该接近于-1,所以在理想条件下损失函数的损失值应该趋近于0。通过对第一声学环境一致性检测模型进行训练,如果损失函数的损失值小于预设的损失值阈值,则说明声学环境一致性检测模型已经具备了声学环境检测的能力,可将该模型用于声学环境一致性检测,将任意两条语音的频谱特征输入训练好的声学环境一致性检测模型,则输出的该两条语音分别对应的声学特征向量,能够准确反应该两条语音的声学环境是否一致,具体的,如果该两条语音分别对应的声学特征向量之间的余弦距离如果大于预设的余弦距离阈值,则认为该两条语音的声学环境一致,否则认为该两条语音的声学环境不一致。余弦距离阈值的取值范围为[-1,1],可以根据系统安全性要求、以及错误率容忍度等灵活设置并调整,示例性地,余弦距离阈值可以设置为0.3、0.4等。

需要说明的是,声学环境一致性检测模型学习的是除去说话人语音以外的其他声学信息,包含但不限于环境噪声,录音设备噪声,混响等。示例性地,用户A在当前环境中使用自己的手机录了一条语音,然后,用户B也在当前环境中使用用户A的手机录了一条语音,这两条语音的声学环境就是一致的,因为环境噪音一致、录音设备一致;用户A在当前环境中使用自己的手机录了一条语音,然后,用户A在当前环境中使用用户B的手机录了一条语音,这两条语音的声学环境就是不一致的,因为录音设备不一致。

较佳的,声学环境一致性检测模型可以采用LCNN-29,即具有29层卷积层的LCNN,该LCNN结构如图3所示,该LCNN结构在重放攻击检测中能够取得较好的效果。

在LCNN结构中,将MFM(Max-Feature-Map)操作引入CNN,MFM操作有着和生物统计学中的局部特征相似的特征选取作用,同时MFM操作还能够起到稀疏连接的作用。LCNN结构中的MFM操作如图4所示,一种特殊的Maxout来学习LCNN,使得LCNN有较小数量的参数。相较于ReLU,MFM应用了一个竞争关系,因此有更加广泛的能力,且适用于复杂的数据。

下面,以声学环境一致性检测模型采用LCNN-29为例,详细说明声学环境一致性检测模型的训练过程,如图5所示,包括如下步骤:

S501、获取开源数据集作为训练数据集,例如各种用于声纹识别行业标准评估的数据集,和/或用于语音识别训练的数据集。

S502、从训练数据集中构造设定数量的训练样本对,可以采用如下两种方案构造样本语音对:

方案一、从训练数据集中随机抽取两条语音作为样本语音对,如果随机抽取的两条语音来自同一声学环境,则将该样本语音对标记为1,如果随机抽取的两条语音来自不同声学环境,则将该样本语音对标记为-1;

方案二、从训练数据集中提取一条语音,从提取的语音中切分两个非重叠的语音片段作为样本语音对,并将该样本语音对标记为1;提取同一用户的、且来自不同声学环境的两条语音作为样本语音对,并将该样本语音对标记为-1。

S503、提取构造的样本语音对中两条语音各自的频谱特征,本实施例中可以采用CQCC,对构造的样本语音对经过预加重、分帧、加窗、傅里叶变换、滤波器、对数运算得到两条语音各自的CQCC特征。

S504、将构造的样本语音对按照特定比例划分为训练集和测试集,本实施例中训练集和测试集的比例可以设置为9:1,训练集用于模型训练,测试集用于测试模型的训练效果。

S505、将样本语音对中两条语音各自的CQCC特征输入经过初始化的LCNN-29,得到样本语音对中两条语音分别对应的编码后的声学特征向量,经过LCNN-29输出的是256维的声学特征向量。

S506、根据样本语音对中两条语音分别对应的编码后的声学特征向量之间的余弦距离、以及样本语音对的标记,确定公式[2]所示损失函数的损失值;

其中,x表示样本语音对,y表示样本语音对的标记,如果所述样本语音对中两条语音来自同一声学环境,则样本语音对的标记为1,如果所述样本语音对中两条语音来自不同声学环境,则样本语音对的标记为-1;x1、x2表示样本语音对中两条语音分别对应的编码后的声学特征向量,cos(x1,x2)表示样本语音对中两条语音分别对应的编码后的声学特征向量之间的余弦距离。

S507、使用训练集采用梯度下降算法进行模型训练,使用测试集测试模型的训练效果,直至在测试集上的损失函数的损失值小于预设的损失值阈值,可以理解为在测试集上的效果不再提升,则将此时的LCNN-29确定为所述声学环境一致性检测模型;

梯度下降(gradient descent)在机器学习中应用十分的广泛,不论是在线性回归还是Logistic回归中,主要目的是通过迭代找到损失函数(也可以称为目标函数)的最小值,或者收敛到最小值;针对一个可微分的函数,确定给定点的梯度,梯度的方向是函数在给定点上升最快的方向,梯度的反方向就是函数在给定点下降最快的方向。

至此,采用LCNN-29训练的声学环境一致性检测模型已经具备了声学环境检测的能力,可将该声学环境一致性检测模型用于声学环境一致性检测,该声学环境一致性检测模型能够针对输入的两条语音输出各自对应的声学特征向量,输出的两个声学特征向量能够准确反映两条语音之间的声学环境是否一致。

本说明书实施例提供的声学环境一致性检测模型的训练方法,在模型训练中训练数据集可以使用现有的开源数据集,可以直接利用训练数据集构造出样本语音对,由于训练数据集中各语音来自的声学环境是已知的,易于标记样本语音对中两条语音是否来自同一声学环境,该训练方法能够充分利用现有各种用于声纹识别行业标准评估的数据集、用于语音识别训练的数据集等非重放攻击数据,训练数据非常容易获取,与现有的重放攻击检测所采用的基于重放攻击数据的分类检测模型相比,能够避免构造复杂场景下的重放攻击数据和跨领域问题,避免昂贵的重放攻击数据的采集成本和采集周期。

在声学环境一致性检测模型训练完成,具备声学环境检测的能力的基础上,下面对本说明书实施例提供的基于声学环境一致性检测模型的声学环境检测方法进行详细说明,如图6所示,包括如下步骤:

S601、提取待检测语音对中第一语音的频谱特征、以及第二语音的频谱特征,所述第二语音为实时采集的用户语音,所述第一语音为在采集所述第二语音之前设定时间段内采集的所述用户所处的声学环境语音。

具体实施中,可以针对重放攻击检测的需求、或者声学环境一致性检测的需求,对用户进行基于声学环境一致性检测模型的声学环境检测,在用户发起相应的检测需求时会发起触发操作,通过调取录音设备(例如麦克风)即可采集用户当前所处的声学环境语音,所述的声学环境语音是指语音中除去说话人语音之外的其他声学信息,包含但不限于环境噪声,录音设备噪声,混响等;之后,可以通过下发语音指令或其他方式的指令,通过提示用户说话、回答问题、或复述内容等方式采集用户语音,示例性地,用户可能听到一条语音指令“请说出你的姓名”,用户会进行相应的回答“我叫***”,从而通过调取录音设备(例如麦克风)即可实时采集到该条用户语音;针对重放攻击检测的需求、或者声学环境一致性检测的需求来说,具体的语音内容并不重要,目的在于用户语音的声学环境。

将实时采集的用户语音、以及在采集用户语音之前采集的所述用户所处的声学环境语音作为待检测语音对,为了便于说明,可以将用户语音称为待检测语音对的第二语音,在采集所述用户语音之前采集的所述用户所处的声学环境语音称为待检测语音对的第一语音。

为了保证检测结果的准确性,第二语音与第一语音应该是短时间内(例如几分钟之内)的两条语音,所以采集第一语音与第二语音的时间间隔不应过长,如果采集第二语音与第一语音的时间间隔过长,声学环境可能会发生较大变化,则认为本次采集无效,需重新进行采集。

S602、将所述第一语音的频谱特征、以及第二语音的频谱特征输入预先训练的声学环境一致性检测模型,输出所述第一语音对应的第一声学特征向量、以及第二语音对应的第二声学特征向量。

语音信号的频谱特征可以包括Spectrogram、Fbank、MFCC、PLP、CQCC等,通过声学环境一致性检测模型,可以得到两条语音分别对应的声学特征向量,输出的两个声学特征向量能够准确反映两条语音之间的声学环境是否一致;其中,声学环境一致性检测模型的训练方法在前述实施例中已经进行了详细说明,具体不再赘述。

S603、计算所述第一声学特征向量与第二声学特征向量之间的余弦距离。

S604~S606、若所述余弦距离大于预设的余弦距离阈值,则检测结果为第一语音与第二语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为第一语音与第二语音的声学环境不一致。

可以理解,如果检测结果为第一语音与第二语音(即短时间内两条语音)的声学环境一致,则说明用户说话前与用户说话时的声学环境一致,即未受到重放录音攻击;如果检测结果为第一语音与第二语音(即短时间内两条语音)的声学环境不一致,则说明用户说话前与用户说话时的声学环境不一致,即受到重放录音攻击。

本说明书实施例提供的声学环境检测方法,将短时间内两条语音输入声学环境一致性检测模型,其中一条为用户语音,另一条为用户所处的声学环境语音,如果声学环境一致性检测模型输出的两个声学特征向量之间的余弦距离大于设定的余弦距离阈值,则说明两条语音的声学环境一致,否则,说明两条语音的声学环境不一致,能够有效对短时间内的两条语音是否来自同一声学环境进行检测,鉴于重放录音攻击与正常语音最大的区别在于两条语音经过的录放设备、声学环境不一致,利用有效地声学环境一致性检测即可准确判断是否受到重放录音攻击,从而能够提升防重放录音攻击的能力;在安全等级要求较高的应用场景下,该声学环境一致性检测和现有的重放攻击检测可叠加使用。

此外,与上述图6所示的声学环境检测方法相对应地,本说明书实施例还提供一种声学环境检测系统。图7是本说明书实施例提供的一种声学环境检测系统的结构示意图,包括:

提取模块701,用于提取待检测语音对中第一语音的频谱特征、以及第二语音的频谱特征,所述第二语音为实时采集的用户语音,所述第一语音为在采集所述第二语音之前设定时间段内采集的所述用户所处的声学环境语音;

声学环境一致性检测模型702,用于接收所述第一语音的频谱特征、以及所述第二语音的频谱特征,输出所述第一语音对应的第一声学特征向量、以及所述第二语音对应的第二声学特征向量;

计算模块703,用于计算所述第一声学特征向量与所述第二声学特征向量之间的余弦距离;

检测模块704,用于检测计算模块703计算出的余弦距离是否大于预设的余弦距离阈值,若所述余弦距离大于预设的余弦距离阈值,则检测结果为所述第一语音与所述第二语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述第一语音与所述第二语音的声学环境不一致。

可选地,声学环境检测系统还包括:

构造模块705,用于获取训练数据集,从所述训练数据集中确定预设数量的样本语音对,并标记所述样本语音对中的两条语音是否来自同一声学环境,其中,所述训练数据集中各语音来自的声学环境为已知;提取构造的样本语音对中两条语音各自的频谱特征;

模型训练模块706,用于将所述样本语音对中两条语音各自的频谱特征输入经过初始化的第一声学环境一致性检测模型,得到所述样本语音对中两条语音分别对应的声学特征向量,其中,所述第一声学环境一致性检测模型采用具备空间环境感知能力的网络;根据所述样本语音对中两条语音分别对应的声学特征向量之间的余弦距离、以及所述样本语音对中两条语音是否来自同一声学环境的标记,确定损失函数的损失值;根据所述损失函数的损失值对所述第一声学环境一致性检测模型进行训练,直至所述损失函数的损失值达到预设值,则将此时的第一声学环境一致性检测模型确定为所述声学环境一致性检测模型。

可选地,具备空间环境感知能力的网络包括:轻型卷积神经网络LCNN。

可选地,构造模块705,具体用于从所述训练数据集中随机抽取两条语音作为样本语音对,若所述随机抽取的两条语音来自同一声学环境,则将所述样本语音对标记为第一标识,若所述随机抽取的两条语音来自不同声学环境,则将所述样本语音对标记为第二标识;

或者,从所述训练数据集中提取一条语音,从所述提取的语音中切分两个非重叠的语音片段作为样本语音对,并将所述样本语音对标记为第一标识;提取同一用户的、且来自不同声学环境的两条语音作为样本语音对,并将所述样本语音对标记为第二标识;其中,所述第一标识与所述第二标识不同。

可选地,模型训练模块706采用的损失函数通过如下公式定义:

其中,x表示样本语音对,y表示样本语音对中两条语音是否来自同一声学环境的标记,如果所述样本语音对中两条语音来自同一声学环境,则样本语音对的标记为第一标识ID1,如果所述样本语音对中两条语音来自不同声学环境,则样本语音对的标记为第二标识ID2;x1、x2表示所述样本语音对中两条语音分别对应的声学特征向量,cos(x1,x2)表示样本语音对中两条语音分别对应的编码后的声学特征向量之间的余弦距离。

可选地,构造模块705和模型训练模块706可以组成声学环境一致性检测模型的训练装置,具体功能不再赘述。

显然,本说明书实施例的声学环境检测系统可以作为上述图6所示的声学环境检测方法的执行主体,因此能够实现声学环境检测方法在图6所实现的功能。由于原理相同,在此不再赘述。

在声学环境一致性检测模型训练完成,具备声学环境检测的能力的基础上,下面对本说明书实施例提供的基于声纹识别的身份认证方法进行详细说明,如图8所示,包括如下步骤:

S801、在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语音。

在S801的具体实施中,在接收到用户身份认证请求的情况下,会发起触发操作,基于触发操作通过调取录音设备(例如麦克风)即可采集用户当前所处的声学环境语音;所述的声学环境语音是指语音中除去说话人语音之外的其他声学信息,包含但不限于环境噪声,录音设备噪声,混响等,所述的声学环境语音中可以包括用户说话声音,也可以不包括用户说话声音。

在接收到用户身份认证请求的情况下,可以按照各种身份认证方式开启身份认证,例如提示用户回答指定问题或者复述指定内容,用户针对当前的身份认证方式进行应答,例如针对指定问题给出答案,或者复述听到或看到的内容,通过调取录音设备(例如麦克风)即可采集用户针对当前指定的身份认证方式提供的用户验证语音。

可以理解,发起身份认证请求的用户为认证对象,该用户可能是合法的注册用户,也可能是非法的进行重放录音攻击的用户。

S802、将所述声学环境语音与用户验证语音输入预先训练的声学环境一致性检测模型进行声学环境检测,得到所述声学环境语音的声学环境与所述用户验证语音的声学环境的检测结果。

声学环境一致性检测模型的训练方法及实施环境、以及基于声学环境一致性检测模型的声学环境检测方法及系统,在本说明书前述实施例中已经进行了详细介绍,此处不再赘述;可以采用声学环境检测系统进行基于预先训练的声学环境一致性检测模型的声学环境检测,可以理解,所述的声学环境语音即为前述声学环境检测方法中的第一语音,所述的用户验证语音即为前述声学环境检测方法中的第二语音,如果检测结果为声学环境一致,则认为未受到重放录音攻击,如果检测结果为声学环境不一致,则认为受到重放录音攻击。

S803、对所述用户验证语音与用户注册语音进行声纹识别,得到所述用户验证语音的声纹特征与所述用户注册语音的声纹特征的识别结果。

在S803的具体实施中,可以采用现有的声纹识别系统进行声纹识别,主要功能是比较用户注册语音的声纹特征与用户验证语音的声纹特征之间的相似度,如果相似度高于设定的相似度阈值,则识别结果为声纹特征一致,否则,识别结果为声纹特征不一致;在使用声纹识别系统进行身份认证之前,会预先要求用户注册,在用户注册时要求用户提供一段语音作为用户注册语音,以便从用户注册语音中提取用户标准的声纹特征;声纹识别系统中会保存用户注册语音,以便在后续基于声纹识别进行身份认证时将用户验证语音与用户注册语音进行声纹识别,如果识别结果为声纹特征一致,则认为是注册用户本人,如果识别结果为声纹特征不一致,则认为不是注册用户本人。

S804、基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果。

经过前述分析,根据声学环境一致性检测的检测结果,如果声学环境一致,则认为未受到重放录音攻击,如果声学环境不一致,则认为受到重放录音攻击;根据声纹识别的识别结果,如果声纹特征一致,则认为是注册用户本人,如果声纹特征不一致,则认为不是注册用户本人;假设只进行声纹识别和声学环境一致性检测,在此前提下,如果声学环境一致、且声纹特征一致,则认为未受到重放录音攻击且是注册用户本人,确定用户身份认证结果,即判定所述用户的身份认证通过,否则,则认为受到重放录音攻击,和/或不是注册用户本人,确定用户身份认证结果,即判定所述用户的身份认证不通过。

具体实施中,如果对身份认证的安全性和可靠性要求较高,在声学环境一致性检测和声纹识别的基础上,可以进一步结合语音内容比对进行身份认证,也就是说,在S804基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果之前,可以增加如下步骤:

S805、将所述用户验证语音与身份认证方式对应的正确答案进行语音内容比对,得到所述用户验证语音的文本内容与正确答案的文本内容的比对结果,所述用户验证语音是对应所述身份认证方式由终端采集的。

具体实施中,通过将用户验证语音进行语音内容识别可以识别出相应的文本内容,可以采用语音内容比对系统进行语音内容比对,主要功能是针对当前的身份认证方式,判断用户是否正确回答指定问题或者准确复述指定内容。

认证方式可以是要求用户回答用户注册时提交的个人信息,例如生日、交易密码、身份证号码、家庭地址、属相等个人隐私信息,则进行语音内容比对是指将用户验证语音进行语音内容识别之后与保存的正确答案进行文本内容一致性比对,得到所述用户验证语音的文本内容与正确答案的文本内容是否一致的比对结果,如果文本内容一致则认为口令通过。

认证方式也可以是随机生成动态口令密码,以短信方式或语音方式告知发起身份认证请求的用户,要求用户在指定时间内复述动态口令密码,则进行语音内容比对是指将用户验证语音进行语音内容识别之后与下发给用户的动态口令密码(正确答案)进行语音内容比对,得到用户验证语音的文本内容与正确答案的文本内容是否一致的比对结果,如果文本内容一致则认为口令通过。

相应的,在声学环境一致性检测、声纹识别、语音内容比对的基础上,S804基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果的步骤,可以替换为如下步骤:

S806、根据所述声学环境的检测结果、所述声纹特征的识别结果、以及所述文本内容的比对结果,确定用户身份认证结果。

假设只进行声纹识别、声学环境一致性检测和语音内容比对,在此前提下,如果声学环境一致、声纹特征一致、且内容一致,则可判定用户的身份认证通过,否则,判定用户的身份认证不通过。

在S802的具体实施中,将所述声学环境语音与所述用户验证语音输入预先训练的声学环境一致性检测模型的声学环境检测,得到声学环境语音的声学环境与用户验证语音的声学环境的检测结果,具体可以包括如下步骤:

S821、提取所述声学环境语音的频谱特征、以及所述用户验证语音的频谱特征;

S822、将所述声学环境语音的频谱特征、以及所述用户验证语音的频谱特征输入预先训练的声学环境一致性检测模型,输出所述声学环境语音对应的第一声学特征向量X1、以及用户验证语音对应的第二声学特征向量X2;

S823、计算所述第一声学特征向量X1与所述第二声学特征向量X2之间的余弦距离S;

S824、若余弦距离S大于预设的余弦距离阈值,则检测结果为所述声学环境语音的声学环境与所述用户验证语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述声学环境语音的声学环境与所述用户验证语音的声学环境不一致。

本说明书实施例提供的基于声纹识别的身份认证方法,将声学环境一致性检测和声纹识别相结合,不仅能够对用户(认证对象)进行声纹识别,同时还能够对用户验证语音的声学环境与该用户当前所处的声学环境语音的声学环境进行一致性检测,如果声学环境不一致则说明受到重放录音攻击,则该用户的身份认证不通过,从而避免声纹识别系统受到重放录音攻击的影响,提升声纹识别系统的应用安全性和可靠性,从而提升身份认证的安全性和可靠性;可选地,将声学环境一致性检测、声纹识别和语音内容比对相结合,从而进一步提升身份认证的安全性和可靠性。

与上述图8所示的基于声纹识别的身份认证方法相对应地,本说明书实施例还提供一种基于声纹识别的身份认证系统。图9是本说明书实施例提供的一种基于声纹识别的身份认证系统的结构示意图,包括:

采集子系统901,用于在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语及用户验证语音;

声学环境检测子系统902,用于将所述声学环境语音与所述用户验证语音输入预先训练的声学环境一致性检测模型的声学环境检测,得到所述声学环境语音的声学环境与所述用户验证语音的声学环境的检测结果;

声纹识别子系统903,用于对所述用户验证语音与用户注册语音进行声纹识别,得到所述用户验证语音的声纹特征与所述用户注册语音的声纹特征的识别结果;

认证子系统904,用于基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果。

可选地,基于声纹识别的身份认证系统还包括:

语音内容比对子系统905,用于将所述用户验证语音与身份认证方式对应的正确答案进行语音内容比对,得到所述用户验证语音的文本内容与所述正确答案的文本内容的比对结果,所述用户验证语音是对应身份认证方式由终端采集的;

认证子系统904,具体用于根据所述声学环境的检测结果、所述声纹特征的识别结果、以及所述文本内容的比对结果,确定用户身份认证结果。

显然,本说明书实施例的基于声纹识别的身份认证系统可以作为上述图8所示的基于声纹识别的身份认证方法的执行主体,因此能够实现基于声纹识别的身份认证方法在图8所实现的功能。由于原理相同,在此不再赘述。

需要说明的是,仅是为了体现系统的层次架构,才将基于声纹识别的身份认证系统所包括的各系统(例如声学环境检测系统、声纹识别系统、语音内容比对系统等)而统一改名为子系统;也就是说,上述图9中所示的声学环境检测子系统902、声纹识别子系统903、语音内容比对子系统905,与图8所示的基于声纹识别的身份认证方法中涉及的声学环境检测系统、声纹识别系统、语音内容比对系统,分别对应表示同一系统。

可选地,声学环境检测子系统902,具体包括:

提取模块701,用于提取所述声学环境语音的频谱特征、以及所述用户验证语音的频谱特征;

声学环境一致性检测模型702,用于接收所述声学环境语音的频谱特征、以及所述用户验证语音的频谱特征,输出所述声学环境语音对应的第一声学特征向量、以及所述用户验证语音对应的第二声学特征向量;

计算模块703,用于计算所述第一声学特征向量与第二声学特征向量之间的余弦距离;

检测模块704,用于检测所述计算模块703计算出的余弦距离是否大于预设的余弦距离阈值,若所述余弦距离大于预设的余弦距离阈值,则检测结果为所述声学环境语音的声学环境与所述用户验证语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述声学环境语音的声学环境与所述用户验证语音的声学环境不一致。

声学环境检测子系统902的各种可能结构可参见图7所示的声学环境检测系统,不再赘述。

本发明实施例提供的基于声纹识别的身份认证方案,将声纹识别和声学环境一致性检测相结合,相比现有技术中基于纯语音识别的远程身份认证更加安全可靠,相比现有技术中结合视频的远程身份认证具有更广阔的应用场景,例如可以应用在呼叫中心身份核验等场景中。

图10是本说明书的一个实施例电子设备的结构示意图。请参考图10,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。

存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成声学环境检测系统。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

提取待检测语音对中第一语音的频谱特征、以及第二语音的频谱特征,所述第二语音为实时采集的用户语音,所述第一语音为在采集所述第二语音之前设定时间段内采集的所述用户所处的声学环境语音;

将所述第一语音的频谱特征、以及所述第二语音的频谱特征输入预先训练的声学环境一致性检测模型,输出所述第一语音对应的第一声学特征向量、以及所述第二语音对应的第二声学特征向量;

计算所述第一声学特征向量与所述第二声学特征向量之间的余弦距离;

若所述余弦距离大于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境不一致。

上述如本说明书图6所示实施例揭示的声学环境检测系统执行的方法可以应用于处理器中,或者由处理器实现。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成基于声纹识别的身份认证系统。处理器,执行存储器所存放的程序,并具体用于执行以下操作:

在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语音;

将所述声学环境语音与所述用户验证语音输入预先训练的声学环境一致性检测模型进行声学环境检测,得到所述声学环境语音的声学环境与所述用户验证语音的声学环境的检测结果;

对所述用户验证语音与用户注册语音进行声纹识别,得到所述用户验证语音的声纹特征与所述用户注册语音的声纹特征的识别结果;

基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果。

上述如本说明书图8所示实施例揭示的基于声纹识别的身份认证系统执行的方法可以应用于处理器中,或者由处理器实现。

处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。

应理解,本说明书实施例的电子设备可以实现声学环境检测系统在图6所示实施例的功能。由于原理相同,本说明书实施例在此不再赘述。

应理解,本说明书实施例的电子设备可以实现基于声纹识别的身份认证系统在图8所示实施例的功能。由于原理相同,本说明书实施例在此不再赘述。

当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图6所示实施例的方法,并具体用于执行以下操作:

提取待检测语音对中第一语音的频谱特征、以及第二语音的频谱特征,所述第二语音为实时采集的用户语音,所述第一语音为在采集所述第二语音之前设定时间段内采集的所述用户所处的声学环境语音;

将所述第一语音的频谱特征、以及所述第二语音的频谱特征输入预先训练的声学环境一致性检测模型,输出所述第一语音对应的第一声学特征向量、以及所述第二语音对应的第二声学特征向量;

计算所述第一声学特征向量与所述第二声学特征向量之间的余弦距离;

若所述余弦距离大于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境一致,若所述余弦距离小于或等于预设的余弦距离阈值,则检测结果为所述第一语音的声学环境与所述第二语音的声学环境不一致。

本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图8所示实施例的方法,并具体用于执行以下操作:

在接收到用户身份认证请求的情况下,接收终端当前采集的声学环境语音及用户验证语音;

将所述声学环境语音与所述用户验证语音输入预先训练的声学环境一致性检测模型进行声学环境检测,得到所述声学环境语音的声学环境与所述用户验证语音的声学环境的检测结果;

对所述用户验证语音与用户注册语音进行声纹识别,得到所述用户验证语音的声纹特征与所述用户注册语音的声纹特征的识别结果;

基于所述声学环境的检测结果、以及所述声纹特征的识别结果,确定用户身份认证结果。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号