首页> 中国专利> 卷积语音信号的频域盲分离排序算法

卷积语音信号的频域盲分离排序算法

摘要

本发明提供了一种卷积语音信号的频域盲分离排序算法,对于卷积混叠语音信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后使用本发明的排序算法进行排序:(1)选取基准频带进行对准;(2)根据已排序好的基准频带对剩余频带进行排序;(3)标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补充性对准。本发明利用基准频带对准的思想并结合了现有基于频带相关性的排序算法和基于DOA的排序算法两类排序算法的优势,具有很好的鲁棒性和准确性,并且在真实环境中仍然适用。

著录项

  • 公开/公告号CN102231280A

    专利类型发明专利

  • 公开/公告日2011-11-02

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN201110117022.2

  • 发明设计人 刘琚;王倩;杜军;刘朝晨;吕宁;

    申请日2011-05-06

  • 分类号G10L21/02(20060101);G10L15/22(20060101);G06F17/15(20060101);

  • 代理机构37219 济南金迪知识产权代理有限公司;

  • 代理人宁钦亮

  • 地址 250100 山东省济南市历下区山大南路27号

  • 入库时间 2023-12-18 03:43:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-22

    未缴年费专利权终止 IPC(主分类):G10L21/0272 授权公告日:20130403 终止日期:20150506 申请日:20110506

    专利权的终止

  • 2013-04-03

    授权

    授权

  • 2011-12-14

    实质审查的生效 IPC(主分类):G10L21/02 申请日:20110506

    实质审查的生效

  • 2011-11-02

    公开

    公开

说明书

技术领域

本发明涉及一种解决卷积混合语音信号在频域盲源分离过程中存在的次序不确定性问 题的方法,属于语音信号处理领域。

背景技术

盲分离算法是在源信号和混合过程未知的情况下,从观测的混合信号中估计出原始信号 的方法。盲分离算法广泛应用于语音信号处理、无线通信、医学信号处理等多个领域。针对 卷积盲分离问题,目前主要存在两类算法:第一类是时域分离算法,第二类是频域分离算法。 频域语音信号盲分离算法相对于时域盲源分离算法来说,因其较小的计算量和良好的分离性 能而受到研究人员的关注。但是频域分离算法也存在两个问题:一个是幅值不确定性,一个 是次序不确定性。其中次序不确定性对卷积混合频域盲分离算法的影响非常大,可以说它是 卷积混合频域盲分离算法成功与否的最关键因素,也是当前卷积盲分离研究的热点之一。因 为次序不确定性会使相邻频带上分离出来的信号连接错误,最终导致分离失败。

目前解决频域盲分离次序不确定问题的方法主要有两大类:第一类是基于到达角估计 (DOA)的排序方法,第二类是基于频带间相关性的排序方法。这两类排序算法的优缺点:

(1)基于DOA的排序算法具有很好的鲁棒性,因为在一个频带上的不对准不会影响其 他频带;但是该算法准确性较差,计算量大。

(2)基于频带间相关性的排序算法具有较好的准确性,但是鲁棒性较差,因为在一个 频带上的不对准会导致连续频带上的排序发生错误。

发明内容

本发明针对现有解决卷积频域盲分离中存在的次序不确定性问题的方法所存在的不足, 提出一种具有较好的鲁棒性和准确性的卷积语音信号的频域盲分离排序算法。

本发明的卷积语音信号的频域盲分离排序算法,使用卷积混叠模型,对于卷积混叠语音 信号,首先由时域转换到频域,在每个频带上使用频域ICA算法进行盲分离,然后按以下步 骤进行排序,实现每个频带的对准:

(1)基准频带的对准:选取基准频带进行对准,在所有频带中选取基准频带,根据对于 同一个语音信号在不同频带上能量随时间呈现相似的变化这一特点对基准频带进行排序;

(2)剩余频带的对准:根据已排序好的基准频带对剩余频带进行排序,每个剩余频带都 有对应的基准频带,对应的基准频带是指距离该剩余频带最近的基准频带,利用已排序好的 基准频带,根据同一语音信号在相邻频带上的幅度相关性这一特点,对每个剩余频带进行排 序;

(3)补充性对准:标记可能出现排序错误的频带,利用基于分离矩阵的DOA估计进行补 充性对准,对步骤(2)中可能出现对准错误的频带用基于到达角估计(DOA)的排序方法进 行重新排序。

所述步骤(1)的具体实现步骤为:

A.选取基准频带,假设相邻基准频带间隔偶数个频带;

B.计算每个基准频带上的能量轮廓,遍历所有可能的排序,最终找到使目标函数最小 化的排序即为最终的排序。

所述步骤(2)的具体实现步骤为:

A.根据分离矩阵计算每个频带上分离出来的信号;

B.计算每个剩余频带与对应的基准频带上分离信号的幅度相关性;

C.遍历所有可能的排序,找到幅度相关性最大的排序即为最终的排序。

所述步骤(3)的具体实现步骤为:

A.若在步骤(2)中对于不同的排序,个别频带上幅度相关性相差不大,则这些频带上 有可能出现排序错误,对这些频带进行标记;

B.对标记的频带进行基于分离矩阵的DOA估计;

C.对估计出的DOA进行聚类,即找到分离矩阵相应的排序。

上述算法中第(1)步和第(2)步利用了基于频带相关性的排序算法的准确性高的优点, 同时通过基准频带的选取在一定程度上克服了其鲁棒性差的缺点。第(3)步利用了基于DOA 的排序算法鲁棒性高的优点来进行补充性对准,同时由于步骤三中所需对准的频带数很少, 不会过多增加整个排序算法的计算复杂度。

本发明采用基准频带的思想并结合了现有的基于频带间相关性和基于到达角估计(DOA) 这两类主要排序算法的优势,具有很好的鲁棒性和准确性。

附图说明

图1是频域盲分离流程框图。

图2是原始语音信号图。

图3是未排序的全局滤波器W(t)*H(t)的冲激响应图。

图4是本发明排序后的全局滤波器W(t)*H(t)的冲激响应图。

图5是经过每一步排序后的NRR比较图。

图6是真实环境下语音采集的房间布局示意图。

图7是真实环境下观测信号、估计信号和真实源信号图。

具体实施方式

本发明所使用的是K×K(K个源信号,K个观测信号)的卷积混叠模型: 其中观测信号向量x(n)=[x1(n),x2(n),..,xK(n)]T,源信号向量 s(n)=[s1(n),s2(n),..,sK(n)]T(上标“T”表示转置),N为FIR滤波器的长度, 是延迟为l时的K×K混合滤波器矩阵,其中hij是第j个源信号 到第i个传感器的冲击响应。对于卷积盲分离,目标是寻找L个K×K分离滤波器矩阵W(l), 估计出源信号该式经过短时傅里叶变换(STFT)后,卷积混叠模型 转换成在每个频带上的瞬时混叠,即在频带fk,τ时间段上有Y(fk,τ)=W(fk)X(fk,τ)。通 过频域ICA(独立成分分析)算法,在每个频带上得到K×K的分离矩阵W(fk)。W(fk)每 一行为不同源信号的估计向量。要解决次序不确定性,即解决W(fk)所有行的排序问题,使 在所有频带上W(fk)的同一行对应于同一个源信号。

频域盲分离流程如图1所示,采用L=2048STFT,其中的交迭系数为0.75。频域ICA 采用的是联合对角化算法(JADIAG),接下来,需要解决频域盲分离排序问题,即要寻找正确 的排序矩阵P(f),通过W(f)←P(f)W(f)来更新W(f)。对于解决频域盲分离排序问题的算 法具体实施方式如下:

1.基准频带的对准。选取基准频带fb=0,(M/L)FS,(2M/L)FS,...,((L-1)/L)FS,其中M 为正奇数,FS为采样频率。对于一个语音信号,在不同频带上的能量随时间呈现相似的变化。 基于该相似性,对基准频带进行排序。

首先,计算估计信号的零均值能量轮廓的对数值:

E(i,fb,τ)=log(Yi(fb,τ)Yi*(fb,τ))-mean(log(Yi(fb,τ)Yi*(fb,τ))),i=1,2,...,K

其中Yi(fb,τ)是在基准频带fb,时间段τ上的第i个估计信号。

然后,利用“Blind Separation of Speech Mixtures Based on Nonstationarity”in Proc.of ISSPA 2003Conf.,Paris,France,73-76,July 2003.(“基于非平稳性的语音盲分离”,《2003 年ISSPA会议论文集》,法国巴黎,73-76,07/2003.)提出的一个目标函数:

Σi=1K||E(πi(fb),fb,τ)-Ei(·)||2

其中Ei(·)是第i个源的能量轮廓,通过计算E(∏(i),fb,τ)在所有基准频带上的平均值求 得。πi(fb)是指一种排序方式。遍历{1,...,K}所有的排序,能找到一种排序 π1(fb),π2(fb),..,πK(fb)使得该目标函数最小,进而得到排序矩阵P(fb)

2.剩余频带的对准。经过步骤1基准频带的对准后还有(1-1/M)L个频带没有进行对 准。根据相邻频带间分离信号的幅度相关性进行排序。具体过程如下:对于第j个基准频带 fbj=((j-1)M/L)Fs,它的相邻频带为fbj-(M-1)/2,...,fbj-1,fbj+1,fbj+2,...,fbj+(M-1)/2,其中 fbj+l=(((j-1)M+l)/L)Fs。在所有T个时间段τ1,τ2,..τT,频带fbj+l上的第i个输出为 Yi(fbj+l)=[Yi(fbj+l,τ1),Yi(fbj+l,τ2),...,Yi(fbj+l,τT),],输出矩阵计算Y(fbjj)和 (P(fbj+l)Y(fbj+l))T的相关矩阵Corbj+l,矩阵中的元素表示Y(fbj)的第m行与 (P(fbj+l)Y(fbj+l))的第n行的相关系数,其中P为排序矩阵。如果剩余频带是对准的,则 Corbj+l应类似于一个对角阵,及对角线上的元素值远大于其他元素的值。则对于不同的排序 矩阵,最小化目标函数

Σm=1K1|Cormmbj+l|ΣnmK|Cormmbj+l|,

对于2×2的卷积混叠模型,即为最小化从而在每个剩余频带上分别 得到一个排序矩阵P。

3.补充性对准。

经过步骤2对准后,绝大部分频带上实现正确的对准,但存在个别频带与其基准频带的 相关矩阵Cor,其对角线上的元素值与其他元素的值相差不大。在这些频带上可能会出现对 准错误。首先找到这些个别的频带,对于2×2的卷积混叠模型,这些频带上Cor中的元素满 足下面的条件:

|Cor11Cor12-Cor21Cor22|<β

其中,β为设定的阈值。根据该条件,假设找到Z个可能出现对准错误的频带,记为fq(q=1,2,...,Z),频带fq上的分离矩阵记为W(fq)。根据经典的DOA公式,如在“A robust and precise method for solving the permutation problem of frequency-domain blind source separation,”4th International Symposium on Independent Component Analysis and Blind Signal Separation(ICA2003),April 2003,Nara,Japan.(“一种解决频域盲分离排序问题的鲁棒且准 确的方法,”第四届独立成分分析和盲信号分离国际研讨会(ICA 2003),2003年4月,日 本奈良)在频带fq上估计出源信号的到达角θi(fq)(i=1,2)。

θ1(fq)=arccosangle(-W(fq)21/W(fq)22)2πFsc-1(d2-d1)

θ2(fq)=arccosangle(-W(fq)11/W(fq)22)2πFsc-1(d2-d1)

其中W(fq)11,W(fq)12,W(fq)21,W(fq)22是矩阵W(fq)中的4个元素,c为声速,d1和d2是两个麦克风的位置。由上式可以看出W(fq)的每一行决定一个源信号的到达角。

选取一个基准频带fbj,如基准频带fb3,估计两个到达角θ1(fb3),θ2(fb3)。如果 (θ1(fb3)-θ2(fb3))(θ1(fq)-θ2(fq))<0,则将W(fq)的两行颠倒顺序。

这样,在每个频带上都得到了排序好的分离矩阵W(f),对其进行离散傅里叶逆变换得 到时域上的分离矩阵,然后通过对观测信号进行卷积得到估计信号 y(n)。

下面通过两部分实验来验证本发明的性能。第一部分,对人工卷积的语音文件进行盲分 离实验。第二部分,采集真实语音环境中的混叠语音进行盲分离实验,展示分离效果。在两 部分实验中,使用2×2的卷积混叠模型。

(1)对人工卷积的语音文件进行盲分离实验。

房间的冲击响应是由roomix.m(http://sound.media.mit.edu/ica-bench)生成,它是在真实 的3.5m×7m×3m的会议室环境中测量得出的。两个原始语音信号如图2所示,采样率为 16kHz,β=0.5。

a.W(t)*H(t)图。经过JADIAG盲分离算法但未对分离矩阵排序时的全局滤波器W(t)*H(t) (W(t)是经过排序后的分离滤波器,H(t)是房间冲击响应即混合滤波器,“*”是卷积符号) 如图3所示。经过本发明的排序方法,得到的全局滤波器W(t)*H(t)图,如图4所示, (W(t)*H(t))11和(W(t)*H(t))22相比于(W(t)*H(t))12和(W(t)*H(t))21,包含了全局滤波器绝大部分 能量,并且集中在很短的时间段内,相当于两个单位冲击函数。由此可见两个源信号已经被 很好地估计出来。

b.NRR比较。

噪声消除率(NRR)定义如下:

NRR=12Σl=12(SNRl(O)-SNRl(I))

SNRl(O)=10log10Σf|Gll(fk)Sl(fk)|2Σf|Gln(fk)Sn(fk)|2

SNRl(I)=10log10Σf|Gll(fk)Sl(fk)|2Σf|Gln(fk)Sn(fk)|2

其中和分别是估计信号的信噪比和源信号的信噪比,n=1,2,并且n≠l。 当计算一个信号或时,将另一个信号视为噪声。Gij(fk)和Hij(fk)分别是 G(fk)和H(fk)的第i行第j列,G(fk)=W(fk)H(fk),其中H(fk)是混合矩阵,W(fk)是分离 矩阵。可见,NRR越大,证明分离效果越好。经过每一步排序后的NRR值如图5所示,因为 第一步是对基准频带进行排序,而基准频带的数目占频带总数的比例很小,所以NRR提升不 明显;经过第二步排序后,绝大部分频带实现正确的对准,NRR有了明显的提高;第三步作 为对第二步排序的补充性对准,NRR有了一定的改进。

(2)采集真实语音环境中的混叠语音进行盲分离实验。

在如图6所示房间里以12kHz的采样率采集两段语音信号。观测信号的信噪比为11dB。 如图7所示,第1行和第2行是两个观测信号,第3行和第4行显示的是估计出的源信号, 最后两行显示的是真实的源信号。通过比较估计信号和真实源信号的波形,观测信号已成功 实现盲分离,可见本发明在真实环境中也是适用的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号