首页> 中国专利> 一种对若干个输入音频信号进行去混响的信号处理装置

一种对若干个输入音频信号进行去混响的信号处理装置

摘要

本发明涉及一种用于对若干个输入音频信号进行去混响的信号处理装置(100),其中所述信号处理装置100包括:变换器(101),用于将所述若干个输入音频信号变换为变换域以获得输入变换系数,其中所述输入变换系数排列形成输入变换系数矩阵;滤波系数确定器(103),用于基于信号空间的特征值确定滤波系数,其中所述滤波系数排列形成滤波系数矩阵;滤波器(105),用于对所述输入变换系数矩阵的输入变换系数与所述滤波系数矩阵的滤波系数进行卷积以获得输出变换系数,其中所述输出变换系数排列形成输出变换系数矩阵;逆变换器(107),用于对来自所述变换域的所述输出变换系数矩阵进行逆变换以获得若干个输出音频信号。

著录项

  • 公开/公告号CN106233382A

    专利类型发明专利

  • 公开/公告日2016-12-14

    原文格式PDF

  • 申请/专利权人 华为技术有限公司;

    申请/专利号CN201480066986.0

  • 发明设计人 卡里姆·赫尔旺尼;庞立昀;

    申请日2014-04-30

  • 分类号G10L21/0208;

  • 代理机构

  • 代理人

  • 地址 518129 广东省深圳市龙岗区坂田华为总部办公楼

  • 入库时间 2023-06-19 01:08:44

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-09-20

    授权

    授权

  • 2017-01-11

    实质审查的生效 IPC(主分类):G10L21/0208 申请日:20140430

    实质审查的生效

  • 2016-12-14

    公开

    公开

说明书

技术领域

本发明涉及音频信号处理领域,尤其涉及去混响和音频源分离领域。

背景技术

去混响和音频源分离是许多应用的主要挑战,如多声道音频采集、语音采集或单声道音频信号的上混。适用技术可划分为单声道技术和多声道技术。

单声道技术可以基于最小统计原则,能够分别估计音频信号的环境部分和直接部分。单声道技术可以进一步基于统计系统模型。然而,常用的单声道技术在复杂声音场景中性能有限,且可能无法推广到多声道场景中。

多声道技术的目的在于转化若干个音频信号源与麦克风之间的多输入多输出有限冲击响应(multiple input/multiple output finite impulse response,简称MIMOFIR)系统,其中音频信号源与麦克风之间的各个声道可以由FIR滤波器建模。多声道技术可以基于高阶统计,可以采用使用训练数据的启发式统计模型。然而,常用的多声道技术计算复杂度高,且可能无法应用到单声道场景中。

在2010年Herbert Buchner等人在施普林格伦敦分部《语音去混响:信号与通信技术》杂志的第311-385页发表的《用于语音与音频信号去混响的彩色单管》中描述了一种用于估计理想逆系统的方法。

在2011年Andreas Walther等人在关于音频与声学中信号处理应用的IEEE研讨会《环绕信号的直接-环境分解和上混》中描述了一种用于估计分散和直接音频分量的方法。

发明内容

本发明的目的在于提供用于对若干个输入音频信号进行去混响的高效概念。所述概念还可以应用到所述若干个输入音频信号内的音频源分离。

该目的是通过独立权利要求的特征实现的。结合从属权利要求、说明书和附图更易于理解具体实施方式。

本发明的各方面和各实施方式基于以下发现:可以将滤波系数矩阵设计得使各个输出音频信号在后续时间间隔内与自己的历史相干,与其他音频源信号的历史正交。所述滤波系数矩阵可以基于所述音频源信号的初始预测或基于盲估计方法确定。本发明可以应用于单声道音频信号以及多声道音频信号。

根据第一方面,本发明涉及一种用于对若干个输入音频信号进行去混响的信号处理装置,其中所述信号处理装置包括变换器,用于将所述若干个输入音频信号变换为变换域以获得输入变换系数,其中所述输入变换系数排列形成输入变换系数矩阵;滤波系数确定器,用于基于信号空间的特征值确定滤波系数,其中所述滤波系数排列形成滤波系数矩阵;滤波器,用于对所述输入变换系数矩阵的输入变换系数与所述滤波系数矩阵的滤波系数进行卷积以获得输出变换系数,其中所述输出变换系数排列形成输出变换系数矩阵;逆变换器,用于对来自所述变换域的所述输出变换系数矩阵进行逆变换以获得若干个输出音频信号。所述若干个输入音频信号的数量可以是一个或多个。因此,可以实现去混响和/或音频源分离的高效概念。

根据所述第一方面,在所述装置的第一种实施方式中,所述滤波系数确定器用于基于所述输入变换系数矩阵的输入自相关矩阵确定所述信号空间。因此,所述信号空间可以基于所述输入音频信号的相关性特征确定。

根据所述第一方面或所述第一方面的任一种前述实施方式,在所述装置的第二种实施方式中,所述变换器用于将所述若干个输入音频信号变换为频域以获得所述输入变换系数。因此,所述输入音频信号的频域特征可以用来获得所述输入变换系数。所述输入变换系数可以涉及离散傅里叶变换(discrete Fourier transform,简称DFT)或者快速傅里叶变换(fast Fourier transform,简称FFT)的指数为如k的频率点。

根据所述第一方面或所述第一方面的任一种前述实施方式,在所述装置的第三种实施方式中,所述变换器用于将所述若干个输入音频信号变换为针对若干个过去时间间隔的所述变换域以获得所述输入变换系数。因此,当前时间间隔和过去时间间隔内的所述输入音频信号的时域特征可以用来获得所述输入变换系数。所述输入变换系数可以涉及短时傅里叶变换(short time Fourier transform,简称STFT)的指数为如n的时间间隔。

根据所述第一方面的第三种实施方式,在所述装置的第四种实施方式中,所述滤波系数确定器用于基于所述输入变换系数确定输入自相干系数,其中所述输入自相干系数表示与当前时间间隔和过去时间间隔相关的所述输入变换系数的相干性,所述输入自相干系数排列形成输入自相干矩阵;所述滤波系数确定器还用于基于所述输入自相干矩阵确定所述滤波系数。因此,所述输入音频信号内的相干性可以用来确定所述滤波系数。

根据所述第一方面或所述第一方面的任一种前述实施方式,在所述装置的第五种实施方式中,所述滤波系数确定器用于根据以下方程确定所述滤波系数矩阵:

>H=Φxx-1ΓxS0·(ΓxS0HΦxx-1ΓxS0)-1>

其中H表示所述滤波系数矩阵,x表示所述输入变换系数矩阵,S0表示辅助变换系数矩阵,Φxx表示所述输入变换系数矩阵的输入自相关矩阵,ΓxS0表示所述输入变换系数矩阵与所述辅助变换系数矩阵之间的互相干矩阵。因此,可以基于所述辅助变换系数矩阵的初始猜测有效确定所述滤波系数矩阵。

根据所述第一方面的第五种实施方式,在所述装置的第六种实施方式中,所述信号处理装置还包括辅助音频信号生成器,用于基于所述若干个输入音频信号生成若干个辅助音频信号;另一变换器,用于将所述若干个辅助音频信号变换为所述变换域以获得辅助变换系数,所述辅助变换系数排列形成所述辅助变换系数矩阵。因此,可以基于所述输入音频信号确定所述辅助变换系数矩阵。

所述辅助音频信号生成器可以通过使用波束成形技术如延迟-求和波束成形技术和/或使用现场麦克风的音频信号生成所述若干个辅助音频信号。因此,所述辅助音频信号生成器可以提供若干个音频源的初始分离。

根据所述第一方面或所述第一方面的第一种至第四种实施方式,在所述装置的第七种实施方式中,所述滤波系数确定器用于根据以下方程确定所述滤波系数矩阵:

>H=Φxx-1Γ^sS·(Γ^sSHΦxx-1Γ^sS)-1>

其中H表示所述滤波系数矩阵,x表示所述输入变换系数矩阵,Φxx表示所述输入变换系数矩阵(x)的输入自相关矩阵,表示估计自相干矩阵。因此,可以基于估计自相干矩阵有效地确定所述滤波系数矩阵。

根据所述第一方面的第七种实施方式,在所述装置的第八种实施方式中,所述滤波系数确定器用于根据以下方程确定所述估计自相干矩阵:

>Γ^sS(k,n):=(IMU-1)·ΓxX·U>

其中表示所述估计自相干矩阵,x表示所述输入变换系数矩阵,ΓxX表示所述输入变换系数矩阵的输入自相干矩阵,IM表示矩阵维度M的单位矩阵,U表示基于所述输入自相干矩阵进行的特征值分解的特征向量矩阵。因此,可以基于特征值分解有效地确定所述估计自相干矩阵。

根据所述第一方面或所述第一方面的任一种前述实施方式,在所述装置的第九种实施方式中,所述信号处理装置还包括声道确定器,用于基于所述输入变换系数矩阵的输入变换系数与所述滤波系数矩阵的滤波系数确定声道变换系数,其中所述声道变换系数排列形成声道变换矩阵。因此,可以进行声道盲估计。

根据所述第一方面的第九种实施方式,在所述装置的第十种实施方式中,所述声道确定器用于根据以下方程确定所述声道变换矩阵:

>G^(k,n)=(HHx(k,n)diag{X1(k,n),X2(k,n),...,XP(k,n)}-1)-1>

其中表示所述声道变换矩阵,x表示所述输入变换系数矩阵,H表示所述滤波系数矩阵,X1至XP表示输入变换系数。因此,可以有效地确定所述声道变换矩阵。

根据所述第一方面或所述第一方面的任一种前述实施方式,在所述装置的第十一种实施方式中,所述若干个输入音频信号包含与若干个音频信号源相关的音频信号部分,其中所述信号处理装置用于基于所述若干个输入音频信号分离所述若干个音频信号源。因此,可以进行去混响和/或音频源分离。

根据第二方面,本发明涉及一种用于对若干个输入音频信号进行去混响的信号处理方法,其中所述信号处理方法包括将所述若干个输入音频信号变换为变换域以获得输入变换系数,其中所述输入变换系数排列形成输入变换系数矩阵;基于信号空间的特征值确定滤波系数,其中所述滤波系数排列形成滤波系数矩阵;对所述输入变换系数矩阵的输入变换系数与所述滤波系数矩阵的滤波系数进行卷积以获得输出变换系数,其中所述输出变换系数排列形成输出变换系数矩阵;对来自所述变换域的所述输出变换系数矩阵进行逆变换以获得若干个输出音频信号。所述若干个输入音频信号的数量可以是一个或多个。因此,可以实现去混响和/或音频源分离的高效概念。

所述信号处理方法可以由所述信号处理装置执行。所述信号处理方法进一步的特征可以直接由所述信号处理装置的功能实现。

根据所述第二方面,在所述方法的第一种实施方式中,所述信号处理方法还包括基于所述输入变换系数矩阵的输入自相关矩阵确定所述信号空间。因此,所述信号空间可以基于所述输入音频信号的相关性特征确定。

根据第三方面,本发明涉及一种计算机程序,包括程序代码,用于当在计算机上运行时执行根据第二方面或所述第二方面的任一实施方式所述的信号处理方法。因此,所述方法可以以自动和重复的方式执行。

该计算机程序以机器可读代码的形式提供。该计算机程序可以包括一系列计算机处理器的命令。所述计算机的处理器可用于执行该计算机程序。所述计算机可以包括处理器、存储器、和/或输入/输出装置。

本发明可以以硬件和/或软件形式来实现。

附图说明

本发明的具体实施方式将结合以下附图进行描述,其中:

图1示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理装置的示意图;

图2示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理方法的示意图;

图3示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理装置的示意图;

图4示出一种实施方式提供的音频信号采集场景的示意图;

图5示出一种实施方式提供的自相干矩阵的结构示意图;

图6示出一种实施方式提供的中间矩阵的结构示意图;

图7示出一种实施方式提供的输入音频信号的声谱图与输出音频信号的声谱图;

图8示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理装置的示意图。

具体实施方式

图1示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理装置100的示意图。

所述信号处理装置100包括:变换器101,用于将所述若干个输入音频信号变换为变换域以获得输入变换系数,其中所述输入变换系数排列形成输入变换系数矩阵;滤波系数确定器103,用于基于信号空间的特征值确定滤波系数,其中所述滤波系数排列形成滤波系数矩阵;滤波器105,用于对所述输入变换系数矩阵的输入变换系数与所述滤波系数矩阵的滤波系数进行卷积以获得输出变换系数,其中所述输出变换系数排列形成输出变换系数矩阵;逆变换器107,用于对来自所述变换域的所述输出变换系数矩阵进行逆变换以获得若干个输出音频信号。

图2示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理方法200的示意图。

所述信号处理方法200包括:将所述若干个输入音频信号变换201为变换域以获得输入变换系数,其中所述输入变换系数排列形成输入变换系数矩阵;基于信号空间的特征值确定203滤波系数,其中所述滤波系数排列形成滤波系数矩阵;对所述输入变换系数矩阵的输入变换系数与所述滤波系数矩阵的滤波系数进行卷积205以获得输出变换系数,其中所述输出变换系数排列形成输出变换系数矩阵;对来自所述变换域的所述输出变换系数矩阵进行逆变换207以获得若干个输出音频信号。

所述信号处理方法200可以由所述信号处理装置100执行。如上所述以及以下进一步的详述,所述信号处理方法200进一步的特征可以直接由所述信号处理装置100的功能实现。

图3示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理装置100的示意图。所述信号处理装置100包括变换器101、滤波系数确定器103、滤波器105、逆变换器107、辅助音频信号生成器301、另一变换器303以及后处理器305。

所述变换器101可以是短时傅里叶变换(short time Fourier transform,简称STFT)变换器。所述滤波系数确定器103可以执行一个算法。所述滤波器105可通过滤波系数矩阵H进行表征。所述逆变换器107可以是短时傅里叶逆变换(inverse short timeFourier transform,简称ISTFT)变换器。所述辅助音频信号生成器301可以通过如延迟-求和技术和/或现场麦克风音频信号提供初始猜测。所述另一变换器303可以是短时傅里叶变换(short time Fourier transform,简称STFT)变换器。所述后处理器305可以提供后处理能力,如自动语音识别(automatic speech recognition,简称ASR)和/或上混。

可以向所述变换器101和所述辅助音频信号生成器301提供Q个输入音频信号。所述辅助音频信号生成器301可以向所述另一变换器303提供P个辅助音频信号。所述另一变换器303可以向所述滤波系数确定器103提供辅助变换系数矩阵的P行或P列。所述滤波器105可以向所述逆变换器107提供输出变换系数矩阵的P行或P列。所述逆变换器107可以向生成P个后处理音频信号的所述后处理器305提供P个输出音频信号。

该示意图示出所述装置100的总体架构。输入到所述装置100的可以是麦克风信号。可选地,这些信号可以由提供空间选择性的算法预处理,如延迟-求和波束成形器。所述预处理的信号和/或麦克风信号可以由STFT分析。然后,针对不同频率点,所述麦克风信号可以存储在大小可变的可选缓存区。所述算法可以基于缓存的音频信号时间间隔或帧计算滤波系数。所述缓存的信号可以由计算出的复合滤波器在各个频率点上进行滤波。所述滤波的输出可以变换回时域。对于如自动语音识别(automatic speech recognition,简称ASR)或上混,可选地,所述处理的音频信号可以馈入到所述后处理器305。

一些实施方式可以涉及未知房间的盲单声道和/或多声道声学影响最小化。这些实施方式可以应用到智真多声道采集系统,用于增强所述系统的能力以关注部分捕捉到的声景,增强手机和平板电脑的语音与信号,尤其用于免持模式中信号的去混响,也可以用于单信号的上混。

为实现该目的,可以采用盲去混响和/或盲音频源分离的方法。所述方法可以专门用于单声道情况,也可以作为盲音频源分离后处理阶段。

在典型情况下,将声波从声源传播到预定测量点可以通过使用格林函数对音频源信号进行卷积来描述,其中所述格林函数在给定的边界条件下可以求解非齐次波动方程。然而,所述边界条件可能是无法控制的,会造成非期望的声学特征,如会导致清晰度不足的较长去混响时间。在能够合成用户自定义声学环境的先进通信系统中,可以减小录音室的影响且仅维持干净的激励信号以合理地合成到期望的虚拟声学环境中。

如果录音室中分布式阵列麦克风捕捉到多个声源,如说话者,去混响可以提供分离的且不受所述录音室影响的原始干净源信号,如由在消声室中说话者嘴边的麦克风录制的语音信号。

去混响技术的目的在于使房间脉冲响应后部分的影响最小化。然而,对所述麦克风信号进行全去卷积是具有挑战性的,则所述输出可能是所述源信号混响较小的混合体,而不是分离出的源信号。

去混响技术可划分为单声道技术和多声道技术。由于理论上的限制,理想的去卷积通常可以在多声道情况下实现,其中录音麦克风的数量Q可以高于活动声源如说话者的数量P。

多声道去混响技术的目的在于转化声源与麦克风之间的多输入多输出有限冲击响应即MIMO FIR系统,其中声源与麦克风之间的各个声道可以由长度为L的FIR滤波器建模。所述MIMO系统可以作为矩阵在时域上呈现,其中如果所述矩阵是规则的正方形,则所述矩阵是可逆的。因此,如果以下两种条件成立,则可以进行理想的逆转。

首先,有限逆滤波器的长度L'满足:

>L=P(L-1)Q-P---(1)>

其次,所述MIMO系统的单个滤波器在z域上不展示公根。

可以采用估计理想的可逆系统的方法。所述方法可以基于利用所述源信号的非高斯性、非白性与非定常性。所述方法的特征是以计算高阶数据的高计算复杂性为代价实现最小失真。此外,由于所述方法的目的在于解决理想的逆转问题,则所述系统需要有比声源更多的麦克风,因此所述方法可能不适合解决单声道问题。

对多声道录制进行去混响的另一个方法可以基于估计信号子空间。可以分别估计所述音频信号的环境部分和直接部分。可以估计随后混响并将其当做噪音。因此,所述方法可能需要对所述环境部分,即所述随后混响,进行准确估计,以抵消它。基于估计多声道信号子空间的所述方法可以专用于减少混响,而不是进行去混合,即将所述声源分开。所述方法主要用于多声道设置,而不能用于解决单声道去混响问题。此外,可以采用启发式统计模型来估计所述去混响并减少所述环境部分。这些模型可以基于训练数据,但具有高复杂度。

可以采用对频谱域中分散和直接分量进行估计的另一种方法。多声道信号的短时谱可以下混到X1(k,n)与X2(k,n),其中k和n表示频率点指数以及时间间隔或帧指数。可以得出实系数H(k,n)以根据以下方程从下混中提取直接分量

>S^1(k,n)=H(k,n)·X1(k,n)>

>S^2(k,n)=H(k,n)·X2(k,n)>

假设所述下混中的直接和分散分量是互不相关的,且所述下混中的分散分量有相等的功率,则可以根据以下方程基于维纳最优化准则计算所述实系数H(k,n):

>H(k,n)=PSPS+PA>

其中PS和PA是所述下混中直接和分散分量的短时功率频谱估计的总和,且可以基于所述下混的互相关从推出Ps和PA。这些滤波器还可以应用到多声道音频信号中以生成对应的直接和环境分量。该方法可以基于多声道设置,但不能解决单声道去混响的问题。此外,该方法可能会造成大量失真,无法进行去混合。

单声道去混响方案可以基于最小统计原则。因此,这些方案可以分别估计所述音频信号的环境部分和直接部分。可以采用结合统计系统模型的方法,其中所述统计系统模型可以基于训练数据。另一种方法可以应用于单声道设置,由于所述方法在自动语音识别中可以最优化,但却不适合高质量听觉体验,其在混合声景中提供有限的性能,尤其是在音频信号质量方面。

一些实施方式可以涉及单声道和多声道去混响技术。为获得干输出音频信号,可以采用所述STFT域中的M阶MIMO FIR滤波器,其中所述M阶MIMO FIR滤波器有P个输出,即音频信号源的数量,以及Q个输入,即输入音频信号的数量或麦克风的数量,或在预处理阶段中采用波束形成器,如延迟-求和波束形成器。可以将所述滤波器105设计得使各个输出音频信号可以在预定的后续时间间隔或帧内与自己的历史相干,与其他音频源信号的历史正交。

以下描述了用于推出所述反混响方法的数学设置和信号模型。时间点t上的输入音频信号xq可以作为干激励音频源信号的卷积给出,其中[s1(t),s2(t)...sP(t)]T,所述干激励音频源信号与用于第pth个音源到第p个输入或麦克风的格林函数进行卷积,其中gq(t):=[g1qg2q,...,gPq]T

>xq(t)=Σp=1Psp(t)*gpq(x)---(2)>

通过在短时傅里叶域考虑这个方程,其大致为:

Xq(k,n)≈[S1,S2,...,SP]·[G1q,G2q,...,GPq]H,(3)

其中k表示频率点指数,n表示时间间隔或帧指数,{·}H表示厄米特转置。为了使符号清晰,所述音频信号源与所述格林函数两者对(n,k)的依赖性避免描述。对于完整的多声道表示形式,其可以针对MIMO系统写入:

X(k,n)≈ST(k,n)·GH(k,n),(4)

X:=[X1(k,n),X2(k,n),...,XQ(k,n)]T,(5)

S:=[S1(k,n),S2(k,n),...,SP(k,n)]T,(6)

可以在所述STFT域中使用FIR滤波器进行去混响,比如根据以下方程基于将FIR滤波器应用到所述输入音频信号的STFT域:

其中hpq(kn):=[Hpq(kn)Hpq(kn-1)...Hpq(kn-M+1)]T

>S^(k,n):=HH(k,n)x(k,n),---(9)>

其中将所述输入音频信号的M个连续的STFT域时间间隔或帧的序列定义为:

xq(k,n):=[Xq(k,n),Xq(k,n-1),...,Xq(k,n-M+1)]T(10)

>x(k,n):=[x1T(k,n),x2T(k,n),...,xqT(k,n),...,xQT(k,n)]T,---(11)>

>S^(k,n):=[S^1(k,n),S^2(k,n),...,S^P(k,n)]T.---(12)>

注意M可以针对每个频率点单独选择。例如,对于采样频率为16kHz,STFT窗口大小为320,STFT长度为512,重叠因子为0.5,去混响时间大致为1秒的语音信号,频率点低于129的信号的M可以设置为4,频率点高于128的信号的M可以设置为2。

所述滤波系数矩阵H可以估计未知干音频源信号的自相关矩阵的最大特征向量。可以期望得到所述干音频源信号无失真的估计。这能说明所述FIR滤波器展示了所述干音频源信号相干部分的保真度。

所述输入音频信号可以根据以下方程分解为与所述干音频源信号的初始估计相干的部分xc以及不相干的部分xi

x(k,n)=xc(k,n)+xi(k,n),>

xc(k,n):=ΓxS(k,n)·S(k,n),(14)

其中所述干音频源信号的互相干矩阵通过以下方程可以定义为归一化相关矩阵:

>ΓxS(k,n):=ϵ^{x(k,n)SH(k,n)}·(φSS(k,n))-1,---(15)>

其中表示期望值的估计,以及自相关矩阵期望值的估计:

>φSS(k,n):=ϵ^{S(k,n)SH(k,n)}---(16)>

所述互相干矩阵ΓxS可以理解为所述输入音频信号的自相关矩阵的加强特征向量矩阵。

所述期望值的估计可以通过以下方程进行迭代计算:

>ϵ^{x(k,n)SH(k,n)}=αϵ^{x(k,n-1)SH(k,n-1)}+(1-α)x(k,n)SH(k,n)---(17)>

>ϵ^{S(k,n)SH(k,n)}=αϵ^{S(k,n-1)SH(k,n-1)}+(1-α)S(k,n)SH(k,n)---(18)>

其中,表示遗忘因子。

因此,所述去混响滤波器的条件可以设置为:

>HHϵ^{x(k,n)SH(k,n)}=φSS.---(19)>

通过重新排列,可以获得以下表达式:

HHΓxS=IP×P,>

其中I表示单位矩阵。因此,所述滤波系数矩阵H可以与所述信号子空间的基本向量ΓxS一致。

可以得到所述STFT域中的最优去混响FIR滤波器。为获得最优滤波器,可以将受方程(20)限制的以下成本函数设置为:

J=HHΦxxH+λ(HHΓxS-IP×P),(21)

其中:

>Φxx:=ϵ^{xxH}---(22)>

其中λ表示拉格朗日乘数矩阵。当这个成本函数最小时,坡度可以是零,且可以获得所述滤波器的最优表达式:

>H=Φxx-1ΓxS.(ΓxSHΦxx-1ΓxS)-1.---(23)>

在给定条件下所述滤波器可以最大化所述干音频信号的熵。

可以估计所述互相干矩阵。以下提出处理丢失未知干音频源信号的两种可能性。

图4示出一种实施方式提供的音频信号采集场景400的示意图。所述音频信号采集场景400包括第一音频信号源401、第二音频信号源403、第三音频信号源405、阵列麦克风407、第一波束409、第二波束411以及现场麦克风413。所述第一波束409与所述第二波束411由所述阵列麦克风407通过波束成形技术合成。

该示意图示出包含三个音频信号源401,403和405或说话者、具有在特定方向通过波束成形如延迟-求和波束成形器实现高灵敏度能力的阵列麦克风407以及在一个音频信号源旁边的现场麦克风413的音频信号采集场景400。可以期望受房间影响最小的分离音频源401,403和405。所述波束成形器的输出与所述现场麦克风413的辅助音频信号可以用于计算或估计互相干矩阵ΓxS

所述算法可以处理所述波束成形器以及所述现场麦克风,即辅助音频信号,作为初始猜测的输出,增强分离,且最小化输入音频信号或阵列麦克风信号的去混响,以提高三个音频源信号或语音信号的干净版本。

为计算所述推出的滤波系数矩阵,可以进行互相干矩阵的计算。因此,可以采用预处理阶段,如与波束成形结合的声源定位阶段,提供干音频源信号的初始预测,或者甚至与所述音频源子集的现场麦克风结合。

对于所述滤波器,可以获得以下表达式:

>H=Φxx-1ΓxS0·(ΓxS0HΦxx-1ΓxS0)-1,---(24)>

其中可以采用与方程(15)相同的表达式定义,但采用的是所述初始预测而不是所述干音频源信号。

图5示出一种实施方式提供的自相干矩阵501的结构示意图。该示意图示出分块对角结构。所述自相干矩阵501可以涉及ΓsS。所述自相干矩阵501可以包括MxP行与P列。

图6示出一种实施方式提供的中间矩阵601的结构示意图。该示意图还示出自相干矩阵603。所述中间矩阵601可以涉及C。所述中间矩阵601或矩阵C可以基于包含3个输入音频信号或麦克风的系统构建。所述自相干矩阵603可以包括由M行和Q列部分。所述自相干矩阵603可以涉及ΓxX

针对输出音频信号的相干性,如果P=Q,则根据以下方程修改方程(20)中的条件:

HHΓsS=IP×P>

如果P=Q,则可以假设干音频源信号的各个音频源与自己的历史相干。基于所述假设,可以使用ΓsS而不是ΓxS。去混响与干扰信号可以是不相干的。

所述音频源信号的自相干矩阵可以定义为:

>ΓsS(k,n):=ϵ^{s(k,n)SH(k,n)}·(φSS(k,n))-1,---(26)>

其中数量φSS可以有与方程(16)类似的定义:

>φSS(k,n):=ϵ^{S(k,n)SH(k,n)}.---(27)>

所述音频源的自相干矩阵ΓsS可以是分块对角矩阵。此外,基于ΓxS,所述输入音频信号的自相干矩阵可以描述为:

>ΓxX(k,n):=ϵ^{x(k,n)XH(k,n)}·(φXX(k,n))-1,---(28)>

其中数量φXX可以有与方程(16)类似的定义:

>φXX(k,n):=ϵ^{X(k,n)XH(k,n)}.---(29)>

假设方程(4)中的格林函数对于考虑的M个时间间隔或帧都是一致的,则可以认为:

>ΓxX(k,n)=ϵ^{x(k,n)SH(k,n)}·(φSX(k,n))-1,---(30)>

>φSX:=ϵ^{S(k,n)XH(k,n)}.---(31)>

为获得ΓsS的表达式,可以通过假设所述音频源信号是独立的,即φSS可以是对角且可以是分块对角,以及通过考虑方程(30)中P=Q来进行估计。

>ΓxX(k,n)=IMG*·ϵ^{s(k,n)SH(k,n)}·(φSX(k,n))-1,---(32)>

其中表示克罗内克积。因此,为了粗略估计ΓsS,我们可以使用ΓxX且可以将非对角块设置为零。这可以通过设置正方形非必要对称中间矩阵C实现,其中所述中间矩阵C的行数是所述输入音频信号的自相干矩阵的第(j·M+1)行,其中j∈{0...P-1}。注意阶数是可以维持的。

特征值分解使得可以将C将写为乘积U·C·U-1,其中C可以是对角的,且针对Γ,可以获得分块矩阵的估计

>Γ^sS(k,n):=(IMU-1)·ΓxX·U---(33)>

为获得提供所述音频信号源相干部分的滤波系数矩阵,可以将以下方程设置为与方程(24)相似:

>H=Φxx-1Γ^sS·(Γ^sSHΦxx-1Γ^sS)-1---(34)>

此外,可以进行声道盲估计。假如XP(kn)≠0,则可以获得估计的逆声道的表达式:

>S^(k,n)=HHx(k,n)diag{X1(k,n),X2(k,n),...,XP(k,n)}-1·diag{X1(k,n),X2(k,n),...,XP(k,n)},---(35)>

其中操作对角{.}生成包含主对角线上参数向量的对角方阵。将这个方程与方程(3)中STFT域中假设的声道模型比较,则得到:

>G^(k,n)=(HHx(k,n)diag{X1(k,n),X2(k,n),...,XP(k,n)}-1)-1---(36)>

图7示出一种实施方式提供的输入音频信号的声谱图701与输出音频信号的声谱图703。在所述声谱图701和703中,对应的短时傅里叶变换(short time Fouriertransform,简称STFT)的大小在时间上以秒以单位且在频率上以赫兹为单位用不同颜色编码。

所述声谱图701进一步可以涉及混响麦克风信号,而所述声谱图703进一步可以涉及估计的干音频源信号。在针对单声道的这个例子中,所述混响信号的声谱图701模糊。相对地,应用去混响算法的所述估计的干音频源信号的声谱图703展示了典型干语音信号的结构。

图8示出一种实施方式提供的一种对若干个输入音频信号进行去混响的信号处理装置100的示意图。所述信号处理装置100包括变换器101、滤波系数确定器103、滤波器105、逆变换器107、辅助音频信号生成器301、以及后处理器305。

所述变换器101可以是短时傅里叶变换(short time Fourier transform,简称STFT)变换器。所述滤波系数确定器103可以执行一个算法。所述滤波器105可通过滤波系数矩阵H进行表征。所述逆变换器107可以是短时傅里叶逆变换(inverse short timeFourier transform,简称ISTFT)变换器。所述辅助音频信号生成器301可以通过如延迟-求和技术和/或现场麦克风音频信号提供初始猜测。所述后处理器305可以提供后处理能力,如自动语音识别(automatic speech recognition,简称ASR)和/或上混。

可以向所述辅助音频信号生成器301提供Q个输入音频信号。所述辅助音频信号生成器301可以向所述变换器101提供P个辅助音频信号。所述变换器101可以向所述滤波系数确定器103和所述滤波器105提供输入变换系数矩阵的P行或P列。所述滤波器105可以向所述逆变换器107提供输出变换系数矩阵的P行或P列。所述逆变换器107可以向生成P个后处理音频信号的所述后处理器305提供P个输出音频信号。

本发明有几个优点。可以用于音频源分离的后处理,甚至采用针对初始猜测的低复杂度方案实现最优分离。本发明可以用于增强声场录制。本发明甚至还可以用于单声道去混响,其有利于使用手机和平板电脑的免持应用的语音清晰度。本发明甚至还可以用于对来自单录制的多声道复制进行上混,且用于自动语音识别(automatic speechrecognition,简称ASR)的预处理。

一些实施方式可以涉及对在混响的声学环境中录制一个或多个音频信号源获得的多声道或单声道音频信号进行修改的方法,所述方法包括最小化房间带来的混响影响,并分离所述录制的音频声源。所述录制可以通过具有预处理能力如对所述音频信号源进行定位以及波束成形的阵列麦克风的组合实现,例如延迟-求和麦克风和如在所述音频信号源的子组旁边的现场麦克风等分布式麦克风。

未经过预处理的输入音频信号或阵列信号和所述预处理的信号可以一起由可用的分布式现场麦克风使用短时傅里叶变换(short time Fourier transformation,简称STFT)进行分析和缓存。所述缓存区的长度如长度M可以针对每个频段分别选择。所述缓存的输入音频信号可以在短时傅里叶变换域上结合得到针对每个子带的2-多维复合滤波器,其中所述每个子带可以利用所述音频信号的时间间隔或帧间数据。干输出音频信号,即分离的和/或去混响后的输入音频信号,可以由那些滤波器通过对所述输入音频信号或阵列麦克风信号进行多维卷积得到。可以在所述短时傅里叶变换域上进行所述卷积。

所述滤波器可以设计为满足所述STFT域上输出音频信号的最大熵的条件,其中所述最大熵受一边分布式现场麦克风的预处理音频信号与另一边输入音频信号或阵列麦克风信号之间的相干性如归一化互相关限制。

>H=Φxx-1ΓxS0·(ΓxS0HΦxx-1ΓxS0)-1>

一些实施方式可以进一步涉及一种方法,其中不具有预处理阶段,可以根据以下方程设计所述滤波器来维持每个音频源信号与自己历史的相干性以及所述STFT域中所述音频信号源的独立性:

>H=Φxx-1Γ^sS·(Γ^sSHΦxx-1Γ^sS)-1.>

所述音频源信号的自相干矩阵的估计可以通过正方形矩阵的特征值分解计算,其中所述正方形矩阵的行可以从所述输入音频信号或麦克风信号的自相干中的行中选择。行数可以由可分离音频信号源的数量确定,其中所述可分离音频信号源的数量最大可以是输入或麦克风的数量。矩阵U包括的列即矩阵C的特征向量,其中所述建造的矩阵C是可以逆转的,且所述音频源自相干矩阵的估计可以通过以下方程计算:

>Γ^sS(k,n):=(IMU-1)·rxX·U>

一些实施方式可以进一步涉及一种方法,用于基于计算的最佳二维滤波器且根据以下方程估计声学传递函数:

>G^(k,n)=(HHx(k,n)diag{X1(k,n),X2(k,n),...,XP(k,n)}-1)-1.>

一些实施方式可以对所述STFT域进行处理。由于固有的块批量处理和高扩展性,即可以使用合适的窗口自由选择时域和频域上的方案,所述实施方式可以提供高系统追踪能力。所述系统可以在所述STFT域上大致解耦。因此,对于每个频率点,所述处理可以是并行的。此外,可以单独处理不同子带,例如,对于不同子带的去混响可以使用不同滤波阶数。

一些实施方式可以在所述STFT域上使用多阶方法。因此,可以利用所述干音频信号的时间间隔或帧间数据。每个干音频信号可以与自己的历史相干。因此,在预定时间上可以仅通过一个特征向量统计表示。所述音频源信号的特征向量可以是正交的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号