首页> 中国专利> 混响去除参数估计装置以及方法、混响/回波去除参数估计装置、混响去除装置、混响/回波去除装置、以及混响去除装置在线会议系统

混响去除参数估计装置以及方法、混响/回波去除参数估计装置、混响去除装置、混响/回波去除装置、以及混响去除装置在线会议系统

摘要

在以往的混响去除方式中,在存在变动性混响成分时,难以高精度地求得用于去除非变动性混响成分的线性的混响去除滤波器。一种使用了线性滤波器的混响去除方式和使用了非线性滤波器的混响去除方式的综合算法,具有在后级的非线性滤波器中在每时间计测传递函数的起伏量的功能,基于该功能控制每时间的非线性滤波器的强度。由此,由于设为仅在传递函数的起伏大时进行较强的非线性处理的结构,所以能够将声音成分的失真保持为最小限度。此外,将基于同功能的每时间的传递函数的起伏量反馈到前级的线性滤波器的估计,对线性滤波器估计值降低在传递函数起伏的时间段的权重,从而能够减轻传递函数的估计精度下降的影响。

著录项

  • 公开/公告号CN104115223A

    专利类型发明专利

  • 公开/公告日2014-10-22

    原文格式PDF

  • 申请/专利权人 株式会社日立制作所;

    申请/专利号CN201380009596.5

  • 发明设计人 户上真人;川口洋平;

    申请日2013-02-15

  • 分类号G10L21/0208(20060101);G10L21/0216(20060101);H04B3/23(20060101);H04R3/02(20060101);

  • 代理机构72002 永新专利商标代理有限公司;

  • 代理人高迪

  • 地址 日本东京都

  • 入库时间 2023-12-17 01:59:14

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-22

    授权

    授权

  • 2014-11-26

    实质审查的生效 IPC(主分类):G10L21/0208 申请日:20130215

    实质审查的生效

  • 2014-10-22

    公开

    公开

说明书

技术领域

本发明属于涉及从进入麦克风的声音之中,仅对期望的声音进行拾音 (pick up)的噪声去除及/或混响成分的去除技术的技术领域。

背景技术

研究了用于从麦克风所包含的声音之中,对声音被房间的墙壁或天花板 等反射因而产生的混响成分高精度地进行去除,而仅对从说话者的嘴边直接 到达麦克风的成分(直接音成分)高精度地进行拾音的混响去除技术(例如 参照非专利文献1)。

图1表示室内的声音的传播过程的示意图。如图1所示,从说话者的嘴 边发出而通过麦克风受音的成分能够大致分为从说话者的嘴边至麦克风为止 沿最短路径传播的成分即直接音成分(参照图1的(i))、以及反射到墙壁、 地面、或室内的人而反弹的声音混入麦克风的成分即混响成分。

至今为止的混响去除技术对于进入麦克风的声音,将传播特性的逆滤波 器估计为线性滤波器,将所估计出的线性滤波器与麦克风输入信号重叠。由 此,能够作为将麦克风输入信号分为直接音成分和混响成分这两个,仅提取 没有混响的直接音成分的技术。以往,将其作为该混响成分的传播路径不随 时间变动的非变动性(non-fluctuating)混响成分(参照图1的(ii))。

但是,实际上,除了非变动性混响成分之外,还有在反射到在室内移动 的人(头等移动)等后传达到麦克风的成分即变动性(fluctuating)混响成分 (参照图1的(iii))。能够理解为该变动性混响成分是在线性滤波器中不 能充分消去的成分。关于这样的变动性混响成分,提出了通过非线性滤波器 进行去除的技术(例如参照专利文献1)。

现有技术文献

专利文献

专利文献1:特许第4107613号公报

非专利文献

非专利文献1:T.Yoshioka et al.,“Blind separation and dereverberation of  speech mixtures by joint optimization,”IEEE Trans.ASLP,vol.19,no.1,pp. 69-84,Jan.2011

非专利文献2:K.Kinoshita et al.,“Suppression of Late Reverberation Effect  on Speech Signal Using Long-Term Multiple-step Linear Prediction,”IEEE  Trans.ASLP,vol.17,no.4,pp.534-545,2009

发明内容

发明要解决的课题

在以往的使用了线性滤波器的混响去除方式(例如参照非专利文献1) 中,在声音从说话者的嘴边传递至麦克风为止时的传递函数不变化的前提下 去除混响成分。

但是,例如在会议场景等中,受到说话者的面部的朝向或说话者以外的 人(头等)移动等的影响,传递函数每时每刻发生变化的情况很多。在这样 的情况下,首先存在以下课题:若在用于估计线性滤波器的信号之中包含传 递函数起伏的时间段,则传递函数的估计精度下降,结果混响去除性能下降 (课题1)。此外,存在以下课题:即使高精度地求得了线性滤波器,在线 性滤波器中除了传递函数不变化的情况以外不能降低混响,传递函数起伏的 时间段中的混响抑制性能较差(课题2)。

另一方面,在使用了非线性滤波器的非线性的混响去除技术中,通过增 大用于控制降低混响成分的量的参数,能够增加混响去除量。

但是,若不能适当地设定参数,则导致使本来希望取得的声音成分失真 的量增加,结果希望取得的声音的提取精度下降。

本发明是鉴于这样的状况而完成的,提供从麦克风输入信号高精度地去 除非变动性以及变动性的混响成分,对用于提高直接音的提取精度的参数进 行估计的技术、以及使用该参数将混响成分从麦克风输入信号中去除的技术。

用于解决课题的手段

(i)为了解决上述课题,本发明提出使用了线性滤波器的混响去除方式 和使用了非线性滤波器的混响去除方式的综合算法。更具体而言,具有按每 时间计测后级的非线性滤波器中传递函数的起伏的量的功能,基于该功能对 每时间的非线性滤波器的强度进行控制(对参数的生成进行控制)。由此, 由于设为仅在传递函数的起伏大时施加较强的非线性处理的结构,所以能够 将声音成分的失真保持为最小限度。此外,将通过非线性处理得到的变动性 混响成分的估计值反馈到线性滤波器的参数生成处理,使得非变动性混响成 分去除的精度进一步提高。

(ii)图2是示意性地表示去除麦克风内包含的非变动性混响成分和变 动性混响成分的方法的图。如图2所示,传播过程不变动的非变动性混响成 分通过相当于传播过程的逆滤波器的线性滤波器而被抑制。另一方面,期望 的直接音以及变动性混响成分没有被线性滤波器抑制而残留。之后,通过实 施空间/非线性的滤波,没有被线性滤波器抑制完的变动性混响成分被抑制, 最终能够仅得到期望的直接音。

也就是说,将本发明作为整体来看,成为能够不仅降低传播过程没有起 伏的混响成分而且还降低传播过程起伏的混响成分的结构(解决课题1)。 也就是说,在本发明中,通过线性滤波器来去除声音输入信号中包含的非变 动性混响成分,生成线性混响去除信号的估计值,使用非线性滤波器,生成 线性混响去除信号的估计值中包含的变动性混响成分以及直接音成分的估计 值。并且,基于变动性混响成分以及直接音的估计值,更新构成非线性滤波 器的参数的变动性混响成分以及直接音成分的参数。进而,基于更新后的变 动性混响成分以及直接音成分的参数,依次更新线性滤波器的参数。

(iii)此外,将基于同功能的每时间的传递函数的起伏量反馈到前级的 线性滤波器的估计,对线性滤波器估计值降低传递函数起伏的时间段的权 重,从而能够减轻传递函数的估计精度下降的影响(解决课题2)。

图3是示意性地表示每时间的权重的差异的图。可以说在学习线性滤波 器时,应该尽可能仅对应该通过线性滤波器抑制的对象即非变动性混响成分 较大得存在的时间段进行拾音并学习。因此,本发明的权重决定过程(process) 选择直接音成分和变动性成分少的时间段,从而能够仅提取作为学习对象的 非变动性混响成分较大得存在的时间段。

与本发明关联的其他特征根据本说明书的记述和附图而明确。此外,本 发明的方式通过要素以及多样要素的组合以及以后的详细记述和所付的权利 要求书的形态而达成并实现。

本说明书的记述只不过是典型的例示,需要理解为不对本发明的权利要 求书或应用例在任意意义上进行限定。

发明效果

根据本发明,在将宽阔的房间彼此相连的视频会议系统中,能够估计混 响去除参数使得能够以混响的影响少的清晰的声音进行舒适的声音通话。

附图说明

图1是用于说明声音的传播过程的示意图。

图2是用于说明麦克风内包含的非变动性混响成分和变动性混响成分的 去除过程(本发明的基本概念)的示意图。

图3是用于说明每时间的权重的大小的差异的示意图。

图4是表示本发明的每据点会议系统的概略结构的图。

图5是表示本发明的远程会议系统的整体结构的图。

图6是表示中央运算装置102内执行的混响去除程序的模块结构的图。

图7是表示混响去除302的效果的一例的图。

图8是表示混响去除302的详细的模块结构(相当于流程图)的图。

图9是用于说明各麦克风取得数据的图。

图10是关于混响去除参数估计404、在线混响去除405的执行定时的时 间图。

图11是表示混响去除参数估计404的详细的模块结构(相当于流程图) 的图。

图12是表示逆滤波器计算701的详细的模块结构(相当于流程图)的图。

图13是表示在每个麦克风通道进行混响去除的结构的概念图。

图14是表示残留混响/直接音分离703的具体的模块结构(相当于流程 图)的图。

图15是表示残留混响参数估计704的详细的模块结构(相当于流程图) 的图。

图16是表示直接音参数估计705的详细的模块结构(相当于流程图)的 图。

图17是表示在线混响去除405的具体构成(相当于流程图)的图。

图18是表示本发明的第二实施方式的混响去除处理的结构的图。

图19是表示能够使混响去除和回波消除器(canceller)的双方的性能提 高的结构的图。

图20是表示混响去除及回波消除器2001的具体构成的图。

图21是表示离线参数估计1800的详细的模块结构的图。

图22是表示混响/音响回波消去用参数估计1801的详细的模块结构(相 当于流程图)的图。

图23是用于说明在同时执行混响去除和回波消除器的结构中的权重系 数的决定(Rx,f,τ(i)的影响)的图。

图24是表示在线音响回波/混响去除2301的详细的结构(相当于流程图) 的图。

图25是表示基于分散结构的混响去除的模块结构的图。

具体实施方式

本发明提供以下技术,该技术设想为在宽阔的房间中使用的远程会议系 统等中被使用,用于从与被设置多个的麦克风对应的输入信号中去除混响噪 声(非变动以及变动性的混响成分),使得在嘴边直接通过麦克风取得声音 (拾取直接音)。在第一实施方式中,示出了混响去除参数的估计以及使用 该估计的实时混响去除处理。此外,在第二实施方式中,示出了在混响去除 处理中,具有多组通过混响去除参数估计处理而求得的过去的混响去除参数, 按每时间选择并使用最优的滤波器的处理。进而,在第三实施方式中,示出 了去除混响以及回波(回响)的参数的估计以及使用了该估计的实时混响及 回波去除处理。此外,在第四实施方式中,示出了在服务器侧执行混响去除 参数估计处理的分散处理。

以下,参照附图说明本发明的实施方式。在附图中,有时将功能上相同 的要素以相同的序号显示。另外,附图示出遵从本发明的原理的具体实施方 式和安装例,但这些用于理解本发明,绝不用于对本发明进行限定性解释。

在本实施方式中,为了本领域技术人员实施本发明而充分详细地进行其 说明,但需要理解其他安装/方式也是可能的,在不脱离本发明的技术思想范 围和精神的条件下,能够进行结构/构造的变更、多种要素的置换。从而,对 以后的记述,不能限定于此来解释。

进而,本发明的实施方式可以通过在通用计算机上工作的软件来安装, 也可以通过专用硬件或软件与硬件的组合来安装。

(1)第一实施方式

<各据点的系统结构>

图4是表示本发明的第一实施方式的被设置在远程会议的各据点处的会 议系统的硬件概略结构的图。在各据点的会议系统100中,麦克风阵列105 对各会议室之中的声音波形进行集音。设想麦克风阵列105由单一的麦克风 或者多个麦克风元件构成。

集音后的模拟的声音波形通过A/D变换器104从模拟信号变换为数字信 号。变换后的数字声音波形通过中央运算装置102(也称为处理器)被实施 了混响去除处理后,经由HUB(集线器)108变换为包(packet),并被输 出至网络。

中央运算装置102读入非易失性存储器101中存储的程序、以及程序中 使用的参数,执行该程序。此外,程序执行时使用的工作存储器在易失性存 储器103上被确保,混响去除所需的各种参数的存储区域被定义。混响去除 参数通过中央处理装置102来估计,并被存储至易失性存储器103。并且, 所存储的混响参数再次通过中央处理装置102被读出,用于新的估计处理。

中央运算装置102经由网络,从HUB108接受远程会议中的其他据点(远 端)的声音波形。所接受到的远端声音波形(数字声音波形)经由中央运算 装置102,被发送至D/A变换器106,从数字信号变换为模拟信号后,将变 换后的模拟的声音波形从扬声器阵列107输出。

扬声器阵列107由单一的扬声器元件或者多个扬声器元件构成。此外, 各据点的影像信息由一般的摄像机(camera)109拍摄,经由HUB108被发 送至其他据点。其他据点的影像信息经由网络经由被发送至HUB108,进而 经由中央运算装置102在被设置在各据点的显示器110上显示。另外,也可 以采取设置多台摄像机109,或设置多台显示器110那样的结构。

<远程会议系统的整体结构>

图5是表示本发明的远程会议系统的整体结构例的图。远程会议系统具 有:N个各据点会议系统100-1、100-2、···100-N(将据点数设为N); MCU(多点处理单元)202,控制各据点的声音和影像的传输;以及会议信 息计算服务器201,执行在各据点的计算机中不能处理的、处理量大的计算, 上述结构分别经由网络而连接。另外,该系统对本领域技术人员来说是已知 的系统,所以不进行详细的说明。此外,也可以采用在会议信息计算服务器 201中执行在各据点的会议系统中执行的混响去除所需的一部分处理的结 构。

<混响去除处理>

图6是表示在本发明的第一实施方式中,中央运算装置102内执行的处 理(程序)的模块结构的图。从麦克风阵列105经由A/D变换器104而得到 的数字声音波形通过回波消除器301被处理,去除音响回波成分。在此,音 响回波成分是指从扬声器阵列107输出的声音波形被各据点的墙壁、天花板 等反射后混入麦克风阵列105的成分。回波消除器301为了去除音响回波成 分而通过经由HUB108得到的NLMS法等对本领域技术人员来说已知的结构 而实现。使用远端声音波形作为从扬声器阵列107输出的信号。

回波消除后的声音波形被发送至混响去除302,去除混响成分,去除了 混响成分后的声音波形被输出。由于声音波形是时序信号,所以在每次A/D 变换后的声音波形被积蓄一定量时执行混响去除程序。

<混响去除的效果>

图7是用于说明混响去除302的效果(一例)的图。麦克风输入信号(参 照图7的(i))表示将构成麦克风阵列105的某一个麦克风的输入波形变换 为时间-频域的频谱图(spectrogram)。横轴表示时间轴,纵轴表示频率。在 图7中,意味着越亮的时间-频率成分则音量越大。

没有混响的信号(理想)(参照图7的(ii))表示不存在房间的混响 的仅有直接音的波形。将麦克风输入信号和没有混响的信号(理想)进行比 较,则前者可见像墨水模糊那样成分在时间方向上扩散的情形。本成分是本 发明中所针对的混响成分。

混响去除后的信号(参照图7的(iii))是通过本发明的混响去除302 处理后的波形。可以看到,混响成分被去除,接近没有混响的信号(理想) 的情形。

<混响去除处理>

图8是表示第一实施方式的混响去除(处理)302(参照图6)的详细的 模块结构的图。

(i)帧化处理

如图8所示,回波消除后的数字声音波形被发送至帧化(处理)401。在 此,将数字声音波形记载为q(m,t),将m设为构成麦克风阵列105的麦克风 的索引,将t设为A/D变换处理的样本索引。

在帧化401中,在每个麦克风元件的数字声音波形每次被积蓄一定量时, 输出帧单位的声音波形。另一方面,在被积蓄一定量之前什么都不输出。将 该一定量称为帧偏移(shift),记载为S(点,point)。声音的频率成分逐 渐发生变化而传达,因此为了准确地掌握该迁移而进行这样的帧偏移。此外, 将通过帧化401输出的各麦克风元件的声音波形设为比帧偏移大的、P点量 的声音波形。

将帧的单位称为帧索引,记载为τ。并且,第M个麦克风元件中的帧索 引τ的输出信号成为t=Sτ至t=Sτ+P-1的点的声音波形,将其以式(1) 来定义。

[数1]

k(m,τ)=[x(m,Sτ)···x(m,Sτ+P-1)]···(1)

图9是用于说明帧形成以及帧偏移的处理的图。在帧索引为1的情况下, “帧1”由刚开始取得数据后P点量的数据的声音波形而构成。下一帧“帧2” 由从帧1错移S点的点开始P点量的数据的声音波形而构成。

帧化401输出各麦克风元件的帧单位的声音波形k(m,τ)。

(ii)频率分解处理

频率分解(处理)402通过傅里叶变换处理等对本领域技术人员来说一 般使用的频率变换处理,将各麦克风元件的声音波形变换为时间频域信号。 将变换为时间频域信号的第M个帧单位的信号定义为Xm(f,τ)。在此,将f 设为时间频域中的频率索引。此外,将按每时间频率汇总了各麦克风的时域 信号而得到的矢量记载为X(f,τ)=[X1(f,τ),X2(f,τ),..Xm(f,τ),……XM(f,τ)]。 M意味着麦克风的数目。并且,各麦克风的频域信号被发送至缓冲(处理) 403以及在线混响去除(处理)405。

(iii)缓冲处理

缓冲(处理)403积蓄时域信号,仅在积蓄量到达一定量的情况下输出 所积蓄的信号,在这以外的情况下什么都不输出。对各麦克风积蓄的量设为 T帧(例如,300帧)量。由于若不使用一定程度的统计量则参数估计不能 适当地(稳定地)进行,所以在积蓄T帧量的声音数据后执行混响参数估计 处理。此外,例如,若会议中说话者切换,则至今为止在在线混响去除405 中使用的混响去除参数变得不再适当,所以再次执行参数估计,更新该参数。 其中,仅从声音波形检测说话者的切换是困难的,所以在本实施方式中,设 为每T帧更新混响去除参数。换言之,在本实施方式中,若估计了一次参数, 则直至下一次参数估计的处理结束为止,使用当前的参数执行混响去除处理。 也就是说,在本实施方式的混响去除处理中,始终使用最新的估计参数。另 外,若能够探测说话者切换,则也可以在说话者切换的定时更新混响去除参 数。

(iv)混响去除参数估计处理

混响去除参数估计(处理)404基于缓冲403输出的T帧量的数据,估 计用于进行混响去除的参数,输出所估计出的参数。参照图11在后面叙述混 响去除参数估计(处理)404的进一步的细节。

(v)在线混响去除处理

在线混响去除(处理)405实时利用所估计出的混响去除参数。混响去 除参数估计404在每次积攒T帧量的数据时实施处理,相对于此,在线混响 去除405需要实时进行混响去除,因此对每1帧量的数据实施处理。在线混 响去除405输出将包含混响的1帧量的数据中的混响成分去除后的信号。

图10是用于说明混响去除参数估计404、在线混响去除405的执行定时 的时间图。在混响去除参数估计404中,如上述那样,在每次得到T帧量的 数据时执行参数估计处理。直至在线混响去除405中开始使用所估计出的参 数为止的各处理延迟帧长(U帧)依赖于混响去除参数估计404中的处理量 而不同。

在线混响去除405使用在处理时刻得到的最新的混响去除参数,对各帧 的时域信号实施混响去除。

通过采用这样的结构,从而即使在混响去除参数的估计延迟的情况下, 也能够实时地执行混响去除。

(vi)时域变换处理

返回图8,时域变换(处理)406通过对每个麦克风中1帧量的频域信号 执行傅里叶逆变换等的从频域至时域的变换处理,从而变回时域信号,将变 回后的时域信号作为混响去除后的声音波形而输出。通过执行该时域变换处 理,能够调整各帧中的、(P-S)点量的重复区域的声音功率(power)。

<混响去除估计参数处理的细节>

图11是表示混响去除参数估计(处理)404的详细模块结构的图。混响 去除参数估计404为通过反复计算而逐渐提高混响去除性能的结构。也就是 说,在本实施方式中,在求得两种参数X以及Y(在此,将X设为非变动性 混响去除参数,将Y设为变动性混响去除参数)的情况下,首先将X固定, 使Y变化而求得Y的适当值。接着,使X变化,求得X的适当值。像这样, 图11表示交替求得X和Y而使其收敛的处理。此外,在混响去除参数估计 404中,按每个频率索引独立进行处理。从而,还能够在按每个频率不同的 中央运算装置(处理器)中执行本混响去除参数估计处理的结构。

(i)逆滤波器计算处理

按每个频率得到的、每个麦克风的T帧量的数据首先被发送至逆滤波器 计算(处理)701,计算用于混响去除的线性滤波器。

图12是表示逆滤波器计算(处理)701的详细的结构的图。

滤波器计算(处理)1403通过式(2)计算线性滤波器。由于混响成分 是由过去的信号引起的成分,所以式(2)是用于计算当前的信号与过去的信 号、以及过去的信号之间具有多少相关性的运算式。仅求得当前的信号与过 去的信号的相关性,则可能从当前的信号中过分去除过去的信号,所以为了 避免过度的信号去除,采取也考虑了过去的信号之间的相关性的运算。另外, 对T帧量的声音信号执行用于计算相关性的运算。

[数2]

Af=ivec(Pf-1Qf)···(2)

若将τ(i)设为T帧量的数据之中第i个数据的帧索引,则式(2)中的Pf是加权协方差矩阵,在加权协方差矩阵计算1402中通过式(3)被定义。式 (3)是用于计算过去的信号之间的相关性的运算式。在此,H设为表示矩阵 或者矢量的共轭转置的运算符。

[数3]

Pf=(Σi=1T(Uf,τ(i)Uf,τ(i)H)Rx,f,τ(i)-1)···(3)

进而,式(2)中的Qf在加权相关矩阵计算1401中通过式(4)被计算。 式(4)是用于计算当前的信号与过去的信号的相关性的运算式。

[数4]

Qf=vec(Σi=1TRx,f,τ(i)-1xf,τ(i)Uf,τ(i)H)···(4)

此外,式(3)中的“’”表示矩阵或者矢量的转置的运算符。另外,在式 (3)中,

是表示克罗内克δ(Kronecker delta)积的运算符。

进而,在式(3)中,Uf,τ(i)通过式(5)被定义。

[数5]

Uf,τ(i)=[xf,τ(i)-DH···xf,τ(i)-L1H]H···(5)

将D、L1设为预先决定的参数。D优选设定为混响成分之中相当于初始 混响的帧长。L1是与后部混响的持续帧长对应的参数,优选在后部混响大的 环境下设定为较大的值。Rx,f,τ(i)设为由线性混响成分权重计算707输出的矩 阵。在不进行线性混响成分权重计算(处理)707的情况,或在每T帧量的 数据才开始执行逆滤波器计算701的情况下,将Rx,f,τ(i)设定为单位矩阵。式 (2)中,“vec”设为用于将矩阵变换为矢量的算子。式(6)示出通过vec算 子将矩阵A变换为矢量的例子。

[数6]

vec(A)=[a11 a21 … a12 a22 … a1n a2n … ]T···(6)

在式(6)中,amn意味着矩阵A的第m行n列的成分。ivec设为vec算 子的逆运算符,将矢量变换为矩阵。在变换为矩阵时,虽然有行数的任意性, 但在式(2)中,设为输出所输出的矩阵的行数与麦克风数一致的矩阵。通过 式(2)求得的Af通过式(7)按每块区分。

[数7]

逆滤波器计算701输出Af并结束处理。

(ii)线性混响成分消去处理

线性混响成分消去(处理)702利用逆滤波器计算701所输出的Af,通 过式(8)取得去除了非变动性混响成分的信号gf,τ(i)

[数8]

gf,τ(i)=xf,τ(i)-Σl=DL1Wf,lxf,τ(i)-l···(8)

线性混响成分消去(处理)702定性而言,能够理解为在每个麦克风通 道,使各自的FIR滤波器动作,得到每通道的混响去除信号的方式。另外, 在图13中,示出了理解为按每个麦克风通道进行混响去除的结构的概念。像 这样,对全部T帧量的时间频率信号执行本实施方式的线性混响去除处理。 并且,线性混响去除后的信号被发送至残留混响/直接音分离703。

(iii)残留混响/直接音分离处理

残留混响/直接音分离(处理)703将线性混响去除后的信号分离为直接 音和混响音(估计值)这两个。

图14表示残留混响/直接音分离703的详细的模块结构的图。对全部T 帧量的时间频率信号执行残留混响/直接音分离处理。

通过将由直接音滤波器系数估计1102估计出的滤波器系数Wn,f,τ(i)与各 帧的时间频率信号重叠,从而如式(9)那样计算每帧的混响去除信号的估计 值。

[数9]

yn,f,τ(i)=Wn,f,τ(i)gf,τ(i)···(9)

在此,n是表示音源的索引的变量,设为1至N的整数。N是音源数, 即使在存在多个音源的情况下,通过将N设为2以上,也能够同时进行多个 音源的混响去除以及直接音的分离。

在图14中,直接音滤波器估计(处理)1102使用式(10),按每个音 源计算用于提取直接音的滤波器(镜像滤波器)Wn,f,τ(i)。式(10)与求得直 接音的功率在整体的功率中所占的比例(直接音的功率/(直接音的功率+残 留混响的功率))实质上等价。

[数10]

Wn,f,τ(i)=Rs(n),f,τ(i)Rx,f,τ(i)-1···(10)

在此,Rs(n),f,τ(i)是每个音源、以及每帧的协方差矩阵,在每时间的目的音 方差估计(处理)1104中,使用式(11)计算。

[数11]

Rs(n),f,τ(i)=vs(n),f,τ(i)Cs(n),f···(11)

在此,vs(n),f,τ(i)、Cs(n),f是与第n个直接音成分相关的参数,是在反复计算 之中依次更新的参数。vs(n),f,τ(i)的初始值为1,Cs(n),f设为随机的正定埃尔米特 (Hermitian)矩阵。

因此,通过将Wrev,l,m,f,τ(i)与各帧的时间频率信号重叠,从而如式(12)那 样计算残留混响成分。

[数12]

yrev,l,m,f,τ(i)=Wrev,l,m,f,τ(i)gf,τ(i)···(12)

在此,l为与逆滤波器的抽头(tap)索引对应的索引,m为麦克风索引。 也就是说,按每个逆滤波器的抽头索引以及麦克风索引计算残留混响成分。 在残留混响滤波器系数估计1103中,通过式(13)计算Wrev,l,m,f,τ(i)。式(13) 与求得残留混响的功率在整体的功率中所占的比例(残留混响的功率/(直接 音的功率+残留混响的功率))实质上等价。

[数13]

Wrev,l,m,f,τ(i)=Rrev,l,m,f,τ(i)Rx,f,τ(i)-1···(13)

在此,Rrev,l,m,f,τ(i)是逆滤波器的每个抽头索引、每帧的协方差矩阵,在每 时间的残留混响方差估计(处理)1105中,按照式(14)计算。

[数14]

Rrev,l,m,f,τ(i)=|xf,τ(i)-l(m)|2Crev,l,m,f···(14)

Xf,τ(i)(m)是频率索引f、帧索引τ(i)的第M个麦克风的时间频域信号。 Crev,l,m,f是各抽头索引、麦克风索引的残留混响成分的协方差矩阵,是在反复 计算之中依次更新的参数。初始值设为随机的正定埃尔米特矩阵。

以上那样,分离出的残留混响的估计值、以及直接音的估计值分别被发 送至残留混响参数估计(处理)704以及直接音参数估计(处理)705。

(iv)混响参数估计处理

残留混响参数估计(处理)704估计变动性混响成分的统计量等参数。 图15是表示残留混响参数估计(处理)704的细节的图。

在图15中,残留混响二次统计量计算(处理)1301对从残留混响/直接 音分离703发送来的残留混响的估计值应用式(15),计算每帧的残留混响 成分的二次统计量(残留混响的功率)。

[数15]

Vrev,l,m,f,τ(i)=yrev,l,m,f,τ(i)yrev,l,m,f,τ(i)H+(I-Wrev,l,m,f,τ(i))Rrev,l,m,f,τ(i)···(15)

Vrev,l,m,f,τ(i)被发送至主轴计算(处理)1302,Crev,l,m,f通过式(16)更新。

[数16]

Crev,l,m,f=Σi=1T1|xf,τ(i)(m)|2Vrev,l,m,f,τ(i)···(16)

(v)直接音参数估计处理

直接音参数估计(处理)705估计直接音的统计量等参数。图16是表示 直接音参数估计705的细节的图。

在图16中,直接音二次统计量计算(处理)1201对从残留混响/直接音 分离703发送来的残留混响的估计值应用式(17),计算各音源的每帧的直 接音的协方差矩阵(被输入至各麦克风的直接音的功率以及信号到达各麦克 风为止的时间差成分)。

[数17]

Vs(n),f,τ(i)=yn,f,τ(i)yn,f,τ(i)H+(I-Wn,f,τ(i))Rs(n),f,τ(i)···(17)

时变参数计算1202按照式(18)更新vs(n),f,τ(i)。在此,时变参数意味着 包含直接音到达N个麦克风为止的时间差的信息。

[数18]

vs(n),f,τ(i)=1Mtrace(Cs(n),f-1Vs(n),f,τ(i))···(18)

进而,主轴计算1203按照式(19)更新Cs(n),f。在此,主轴计算是指: 考虑直接音到达N个麦克风为止的时间差,求得N维(N个麦克风)中的N 维多样体(椭圆)的主轴(被输入至各麦克风的直接音的功率的偏差)。

[数19]

Cs(n),f=Σi=1T1vs(n),f,τ(i)Vs(n),f,τ(i)···(19)

例如,在多个麦克风被设置在会议室内的情况下,若某说话者从特定方 向说话,则各麦克风中与说话者越接近的麦克风,各帧时间的被输入至该麦 克风的声音信号的功率越大。主轴计算1203是计算传达到该各麦克风的声音 信号的功率的偏差的处理,时变参数计算1202是计算到达各麦克风为止的声 音信号(直接音)的时间差的处理。更具体而言,在设置两个麦克风m1以 及m2的情况下,在m1-m2平面上将传达到m1以及m2的声音信号的功率 绘出时的、连接原点和该绘点的直线的斜率表示主轴,该主轴长(原点至该 绘点的距离)表示时变参数(时间差)。

(vi)收敛判定处理

所估计出的直接音的参数和残留混响的参数被发送至收敛判定(处理) 706。

收敛判定706以是否执行规定次数的反复计算、所估计出的参数的值与 估计前的值之差是否为规定值以下等与一般的反复计算的情况相同的尺度, 判定计算是否收敛。若收敛,则输出混响去除的参数,结束混响去除参数估 计404的模块。

若没有收敛,则处理转移至线性混响成分权重计算702。

(vii)线性混响成分权重计算处理

由于直接音、残留混响(变动性混响成分)的功率按每时间发生变化, 所以如上所述,通过图11的处理作为变量而学习。从而,能够掌握在T帧 之中哪个帧的直接音、残留混响的功率大(参照图3)。由于功率(直接音、 残留混响的功率之和)越大则变动成分越大,所以该时间段不作为用于求得 逆滤波器的参数的信息是上策。因此,在此,例如设为使用与功率(直接音、 残留混响的功率之和)的大小的倒数成比例的权重系数。

线性混响成分权重计算(处理)707按照式(20)更新Rx,f,τ(i)。在此,N 设为音源数。

[数20]

Rx,f,τ(i)=Σn=1Nvs(n),f,τ(i)Cs(n),f+Σm=1MΣl=DL1|xf,τ(i)-l(m)|2Crev,l,m,f···(20)

并且,每时间的权重被反馈到逆滤波器计算701。另外,在运算初始阶 段,无法估计各时间段的各成分的功率,所以将权重系数设为1而开始运算。 并且,通过反复进行图11的运算,能够使权重系数收敛到适当的值。

<在线混响去除处理的详细>

图17是表示在线混响去除(处理)405的具体构成的图。在线混响去除 (处理)405为通过依次计算提高参数估计精度的结构。

(i)缓冲处理

缓冲(处理)801将每帧的时间频域信号存储到易失性存储器103上。 在本实施方式中,所存储的时间频域信号设为在T帧内的信号之中从最新的 时域信号起开始数L1帧(例如,5帧)量。

在得到某帧的声音信号时,为了去除该帧的混响成分需要过去的帧的信 号。因此,通过缓冲处理801积攒规定帧量的声音信号而设为处理对象。

(ii)线性混响成分消去处理

线性混响成分消去(处理)702接受所存储的L1帧量的时域信号,通过 逆滤波器去除混响成分。此时,所应用的逆滤波器是混响去除参数估计(处 理)404输出的混响去除的参数中包含的滤波器。

(iii)残留混响直接音分离处理

残留混响直接音分离(处理)703从线性混响成分消去(处理)702接受 混响成分去除信号,分离为直接音和残留混响成分,输出直接音。此时,vs(n),f,τ的初始值设为1。此外,Cs(n),f是混响去除参数估计(处理)404输出的混响 去除的参数中包含的协方差矩阵。

(iv)直接音方差估计处理

由于声音信号的功率按每时间发生变化,所以需要估计每时间的声音功 率的值。这是因为例如即使产生了相同的说话者,由于按每时间输出的音量 发生变化,功率发生变化,所以需要实时更新估计值。因此,在直接音方差 估计(处理)802中,仅对非线性参数之中的一部分参数(直接音的参数) 实时估计。并且,针对按每时间实时变化的部分,反复进行估计处理而使得 估计值的精度提高。另外,关于残留混响(变动性混响成分)的参数,认为 时间变动少,所以也可以直接使用以过去的帧学习的参数即可。

在图17中,直接音方差估计(处理)802以与残留去除参数估计404内 的直接音参数估计705相同的流程,按照式(21)(与式(18)相同),计 算处理对象的帧中的vs(n),f,τ(i)

[数21]

vs(n),f,τ=1Mtrace(Cs,f-1Vs(n),f,τ(i))···(21)

(v)收敛判定处理

收敛判定(处理)706使用所估计出的直接音方差等参数,进行所求得 的参数的收敛判定。在判断为收敛的情况下,收敛判定(处理)706输出所 估计出的直接音并结束处理。在这以外的情况下,收敛判定(处理)706基 于所估计出的直接音方差,再次执行残留混响直接音分离(处理)703。

另外,是否收敛的判定如图11所说明。

(2)第二实施方式

第二实施方式公开了在混响去除(处理)302中,事先取得多组通过混 响去除参数估计(处理)404求得的过去的混响去除参数,按每时间选择并 使用最优的滤波器的结构。

图18是表示本发明的第二实施方式的混响去除(处理)302的结构的图。 另外,在本结构的混响去除302中,帧化(处理)401至混响去除参数估计 (处理)404的结构以及处理、以及时域变换(处理)406与已经说明的图8 的结构相同。

在图18中,参数写入控制(处理)903是切换是否将混响去除参数估计 404输出的混响去除参数登记为新的混响去除参数切换的处理。混响去除参 数数据库901将预先决定的个数量的混响去除参数存储至数据库内。

作为参数写入控制903执行的处理,例如也可以采用以下两种结构,第 一种结构是废弃在混响去除参数数据库901内存储的混响去除参数之中所存 储的时间最早的混响去除参数,代而储存新的混响去除参数的结构;第二种 结构是废弃混响去除时的似然性(likelihood:在此与误差同义)的值最小的 混响去除参数,代而储存新的混响去除参数的结构。此外,所废弃的混响去 除参数也可以采用废弃按每个频率在相同的定时存储的混响去除参数的结 构。

在此,若将混响去除参数数据库901中存储的混响去除参数的数目设为 A,则在线混响去除(处理)405-1~405-A分别执行以各混响去除参数通 过在线处理去除混响成分的处理。

最优混响去除音选择(处理)902在通过各混响去除参数去除的混响去 除音之中选择一个混响去除音。例如也可以采取选择在各混响去除音之中音 量最小的成分的结构、或选择似然性值最大的混响去除音的结构。此外,音 量成分、似然性值的计算也可以使用在频率方向上平均而得到的值。

所选择的混响去除音被发送至时域变换(处理)406,变换为时域信号并 输出。例如,能够关于低频域的声音信号使用参数1,关于高频域的声音信 号使用参数2进行混响去除。由此,能够按每频率求得最优的滤波器,即使 在多个人同时发声的场景下也能够执行准确的混响去除处理。此外,在第二 实施方式中,积蓄过去求得的混响去除参数,即使说话者切换也能够使用过 去求得的最优的参数,所以能够迅速地执行混响去除处理。

(3)第三实施方式

第三实施方式涉及在相同的框架(framework)内执行混响去除和回波消 除器,能够提高混响去除和回波消除器的双方的性能的结构。还能够使混响 去除和回波消除器的消去分别动作,该结构是单纯的结构(参照图6)。但 是,由于回波消除器的滤波器始终形状发生变化,所以存在不能通过回波消 除器消去的声音对混响去除造成不良影响的情况。因此,将混响去除及回波 消除器同时(考虑相互的影响)最优化而不是将两个分别最优化,能够使得 系统整体的性能更加提高。用于将其实现的结构是第三实施方式所涉及的结 构。

图19是概略性地表示执行第三实施方式的处理的中央运算装置的内部 结构的图。

在中央运算装置102内执行的程序内,混响去除及回波消除器2001接收 数字声音波形(麦克风输入信号)以及远端数字声音波形(参考信号),对 其同时执行混响去除处理以及回波消除处理,输出混响去除/回波消除后的声 音波形。

<混响去除及回波消除器的结构>

图20是表示混响去除及回波消除器2001的具体构成的图。离线参数估 计(处理)1800接收数字声音波形(麦克风输入信号)和远端数字声音波形 (参考信号),估计混响去除和音响回波消除器用的参数。离线参数估计1800 在每得到多个帧(T帧量)时域信号时执行估计处理。参照图21在后面叙述 离线参数估计(处理)1800的详细的结构以及处理。

在线音响回波/混响去除(处理)2301使用由离线参数估计1800估计出 的参数,对每帧的时间频域信号进行混响去除以及音响回波成分的去除。参 照图24在后面叙述在线音响回波/混响去除(处理)2301的详细的结构以及 处理。

时域变换406将去除了混响成分以及音响回波成分的时间频域信号变换 为时域信号并将其输出。

<离线参数估计处理的细节>

图21是表示离线参数估计(处理)1800的具体的模块结构的图。

将通过麦克风阵列105得到的声音波形变换为数字信号而得到的数字声 音波形以及远端数字声音波形(称呼为参考信号)一起被实施帧化(处理) 401以及频率分解(处理)402,变换为时间频域信号。

若将构成扬声器阵列107的扬声器元件之中第b个元件的参考信号的时 域信号记载为Xref,b(f,τ),则Xm(f,τ)以及Xref,b(f,τ)一起通过缓冲403以多个帧量(T 帧)被积蓄至缓冲器。在此,设为Xref,b(f,τ)=[Xref,1(f,τ),···,Xref,b(f,τ)],将B 设为扬声器元件数。

并且,在每次通过缓冲(处理)403积攒T帧量的数据时,执行混响/音 响回波消去用参数估计(处理)1801,混响/音响回波消去用参数被输出。参 照图22在后面叙述混响/音响回波消去用参数估计(处理)1801的详细的结 构以及处理。

<混响/音响回波消去用参数估计处理的细节>

图22是表示混响/音响回波消去用参数估计(处理)1801的具体的模块 结构的图。由于线性混响成分消去702、残留混响参数估计704、直接音参数 估计705、以及收敛判定706是如上述的结构以及处理,所以省略详细的说 明。

(i)逆滤波器计算处理

逆滤波器计算(处理)1908通过前述的方法(第一实施方式)求得混响 (非变动成分)去除用的逆滤波器。在计算逆滤波器时,也可以代替麦克风 输入信号而使用利用线性音响回波消去滤波器计算(处理)1901的结果消去 线性音响回波而得到的信号。此时,逆滤波器计算1908具有线性音响回波消 去(处理)1902的功能。也就是说,逆滤波器计算1908使用线性音响回波 消去滤波器计算1901所计算出的回波消去滤波器,消去了输入信号(多个帧 的频域信号)中包含的音响回波后,计算混响去除用的逆滤波器。

(ii)线性音响回波消去滤波器计算处理

线性音响回波消去滤波器计算(处理)1901使用式(22)求得音响回波 消去用的滤波器。

[数22]

Jf=ivec(Jp,f-1Jq,f)···(22)

此时,线性音响回波消去滤波器计算(处理)1901也可以代替麦克风输 入信号而使用利用通过前述的逆滤波器计算1908求得的逆滤波器去除混响 成分而得到的信号来求得音响回波消去用的滤波器。此时,线性音响回波消 去滤波器计算(处理)1901具有线性混响成分消去(处理)702的功能。也 就是说,线性音响回波消去滤波器计算(处理)1901在使用通过逆滤波器计 算1908计算出的混响去除用的逆滤波器去除了混响后,计算线性音响回波消 去滤波器。

在式(22)中,Jp,f、Ju,f,τ(i)以及Jq,f分别由式(23)、(24)以及(25) 定义。

[数23]

Jp,f=(Σi=1T(Ju,f,τ(i)Ju,f,τ(i)H)Rx,f,τ(i)-1)···(23)

[数24]

Ju,f,τ(i)=[xref,f,τ(i)H···xref,f,τ(i)-L2H]H···(24)

[数25]

Jq,f=vec(Σi=1TRx,f,τ(i)-1xf,τ(i)Ju,f,τ(i)H)···(25)

此外,音响回波消去用滤波器如式(26)那样,被分割为每抽头的滤波 器。

[数26]

(iii)线性音响回波消去处理

线性音响回波消去(处理)1902按照式(27),取得使用通过线性音响 回波消去滤波器计算1901计算出的音响回波消去用的滤波器消去音响回波 成分而得到的信号g2,f,τ(i)

[数27]

g2,f,τ(i)=gf,τ(i)-Σl=0L2Wref,f,lxref,f,τ(i)-l···(27)

(iv)残留混响/残留音响回波/直接音分离处理

残留混响/残留音响回波/直接音分离(处理)1904关于残留混响以及直 接音,以与残留混响/直接音分离703(第一实施方式)相同的方法求得。另 外,关于残留音响回波,通过将由式(28)求得的残留音响回波提取用滤波 器Wref,l,b,f,τ(i)与g2,f,τ(i)重叠,从而按照式(29)计算残留音响回波估计值yref,l,b,f,τ(i)

[数28]

Wref,l,b,f,τ(i)=Rref,l,b,f,τ(i)Rx,f,τ(i)-1···(28)

[数29]

yref,l,b,f,τ(i)=Wref,l,b,f,τ(i)g2,f,τ(i)···(29)

在此,Rref,l,b,f,τ(i)能够通过式(30)求得。

[数30]

Rref,l,b,f,τ(i)=|xref,f,τ(i)-l(b)|2Cref,l,b,f···(30)

在式(30)中,Cref,l,b,f是通过反复计算而更新的参数,初始值设为随机 的正定埃尔米特矩阵。

(v)残留音响回波参数估计处理

残留音响回波参数估计(处理)1906通过与残留混响参数估计(处理) 704(图11:第一实施方式)相同的处理来更新Cref,l,b,f。由于详细的说明如 上述,所以在此进行省略。

(vi)线性混响/回波成分权重计算处理

线性混响/回波成分权重计算(处理)1907通过式(31)计算Rx,f,τ(i)

[数31]

Rx,f,τ(i)=Σn=1Nvs(n),f,τ(i)Cs(n),f+Σm=1MΣl=DL1|xf,τ(i)-l(m)|2Crev,l,m,f+Σb=1BΣl=0L2|xref,f,τ(i)-l(b)|2Cref,l,b,f···(31)

并且,如图23所示,在不仅对Rx,f,τ(i)有影响的变动性混响成分大、而且 变动性音响回波成分大的情况下,能够高精度地求得线性滤波器以使这些权 重变小。

<在线音响回波/混响去除处理>

图24是表示在线(实时)音响回波/混响去除(处理)2301的具体构成 的图。

数字声音波形(麦克风输入声音信号)以及远端数字声音波形(参考信 号)被实施帧化(处理)401以及频率分解(处理)402,进而通过缓冲(处 理)403被缓冲。

缓冲后的声音波形被发送至线性音响回波/混响去除(处理)1902。

线性音响回波/混响去除(处理)1902对所接收到的声音波形的各帧的 数据去除非变动性的混响和音响回波成分。

之后,残留混响/残留音响回波/直接音分离(处理)1904仅提取直接音。

直接音方差估计(处理)802接收从残留混响/残留音响回波/直接音分离 (处理)1904提取出的直接音,计算vs(n),f,τ。该处理的细节如第一实施方式 所说明,所以省略说明。

之后,收敛判定(处理)706判定方差估计是否收敛,若收敛则输出所 估计出的直接音成分。在这以外的情况下,将所估计出的直接音方差值返回 残留混响/残留音响回波/直接音分离1904,再次执行直接音估计处理。该处 理的细节也如第一实施方式所说明。

(4)第四实施方式

第四实施方式涉及通过会议信息计算服务器201执行混响去除之中计算 量尤其大的混响去除参数,通过每据点会议系统100执行此外的实时的混响 去除处理的分散结构。

图25是表示第四实施方式的整体的系统概略结构的图。在图25中,帧 化(处理)401、频率分解(处理)402、以及缓冲(处理)403通过每据点 会议系统100执行。并且,在积蓄了T帧量时间频域信号后,每据点会议系 统100将该时间频域信号发送至会议信息计算服务器201。

会议信息计算服务器201接收从每据点会议系统100发送来的T帧量时 间频域信号,对该信号执行混响去除参数估计404。并且,会议信息计算服 务器201将所估计出的混响去除参数从服务器发送至每据点会议系统100。

每据点会议系统100在每次得到每帧的时间周波区域信号时,执行在线 混响去除405、以及时域变换406,取得混响去除音(混响去除后的直接音)。

另外,会议信息计算服务器201也可以代替混响去除参数估计(处理) 404的结构而包含第三实施方式所示的混响/音响回波消去用参数估计(处理) 1801的结构。此时,每据点会议系统100代替在线混响去除(处理)405的 结构而包含第三实施方式所示的在线音响回波/混响去除(处理)2301的结 构。

(5)汇总

(i)在本发明的第一实施方式的混响去除参数估计装置中,在易失性存 储器等存储器中存储混响去除参数,按照处理而依次进行更新。在存储器中, 至少存储用于去除声音输入信号中包含的非变动性混响成分的线性滤波器的 参数、以及用于去除声音输入信号中包含的变动性混响成分的非线性滤波器 的参数。并且,中央处理装置等处理器估计以及更新用于去除声音输入信号 中包含的混响成分而取得直接音的混响去除参数,将该混响去除参数作为线 性滤波器的参数以及非线性滤波器的参数存储至存储器。更具体而言,处理 器(逆滤波器计算701以及线性混响成分消去702)从存储器读出线性滤波 器的参数,通过该线性滤波器去除声音输入信号中包含的非变动性混响成分, 生成线性混响去除信号的估计值。接着,处理器(残留混响/直接音分离703) 从存储器读出非线性滤波器的参数,使用该非线性滤波器,生成线性混响去 除信号的估计值中包含的变动性混响成分以及直接音成分的估计值。接下来, 处理器(残留混响参数估计704以及直接音参数估计705)基于变动性混响 成分以及直接音的估计值,执行主轴运算(参照图15以及16),更新构成 非线性滤波器的参数的变动性混响成分以及直接音成分的参数。并且,处理 器(线性混响成分权重计算707以及逆滤波器计算701)基于更新后的变动 性混响成分以及直接音成分的参数,依次更新线性滤波器的参数。也就是说, 将用于去除非变动性混响成分的线性滤波器的参数固定为某值,估计用于去 除变动性混响成分的非线性滤波器的参数,对照所得到的估计值而再次更新 线性滤波器的参数,反复进行参数估计处理直至估计参数收敛为止。通过这 样,能够高精度地估计用于进行混响去除的线性以及非线性滤波器的参数(混 响去除参数)。并且,通过使用该参数执行混响去除处理,能够高精度地去 除混响成分,而不使来自麦克风的声音输入信号的直接音成分失真。

此外,处理器(线性混响成分权重计算707)根据更新后的变动性混响 成分以及直接音成分的参数,反映声音输入信号中变动性混响成分和直接音 成分之和大的时间段而决定(参照图3)线性滤波器的权重系数,更新线性 滤波器的参数。像这样,通过使得线性滤波器的传递函数有可能起伏的时间 段中的滤波器系数的权重减小,能够增大存在较大非变动性混响成分的时间 段的比重而提取信号,所以能够减轻传递函数的估计精度下降的影响。

在本发明的实施方式中,作为声音输入信号,设想来自多个麦克风的声 音信号。此时,处理器(残留混响/直接音分离703)生成来自多个麦克风各 自的声音信号中包含的直接音成分的估计值以及变动性混响成分的估计值。 并且,处理器(残留混响参数估计704以及直接音参数估计705)提取来自 各个麦克风的直接音成分以及变动性混响成分的估计值的二次统计量,根据 二次统计量,将表示多个麦克风的声音信号的直接音成分以及变动性混响成 分的各个功率的偏差的信息设为变动性混响成分以及直接音成分的参数。通 过这样,在从音源(说话者、墙壁以及人物等反射体的声音反射面(从音源 发出的音反射的地方))至各麦克风的距离不同的情况下,能够考虑被输入 至各麦克风的声音的功率的偏差,估计可高精度地去除混响的参数。

第一实施方式进而提出具有上述的混响去除参数估计装置的混响去除装 置。在该装置(参照图8以及17)中,处理器(中央处理装置)从混响去除 参数估计装置取得混响去除参数,从声音输入信号去除非变动性混响成分以 及变动性混响成分,输出所述直接音成分。更具体而言,处理器(线性混响 成分消去702)通过线性滤波器从声音输入信号去除非变动性混响成分,估 计线性混响去除信号。接着,处理器(残留混响/直接音分离703)通过非线 性滤波器从线性混响去除信号分离变动性混响成分和直接音成分。并且,处 理器(直接音方差估计802以及收敛判定706)学习直接音成分中的每时间 的功率的变化,输出该功率的变化收敛的直接音成分。通过这样,能够实时 高精度地去除混响。此外,由于执行直接音方差估计(根据按每时间变化的 声音功率来更新直接音的处理),所以能够追随于伴随时间经过而发生的声 音功率的变化而提取没有失真的直接音。

(ii)第二实施方式提出了其他的混响去除装置。该装置(图18)具有 存储通过混响去除参数估计装置得到的混响去除参数的混响去除参数数据 库。在该数据库中,存储了过去估计而得到的混响去除参数的全部或一部分。 在该装置中,处理器(与被设置的麦克风对应的在线混响去除450-1至405 -A)从混响去除参数数据库取得对应的多个混响去除参数,使用该多个混 响去除参数的每一个,从声音输入信号去除非变动性混响成分以及变动性混 响成分,生成多个直接音成分,输出该多个直接音成分之中最优的直接音成 分。像这样,能够使用已估计的参数执行混响去除的处理,所以能够迅速地 进行混响去除处理,因而有益于实时处理。

(iii)在第三实施方式中,在存储器中,存储了用于去除声音输入信号 中包含的非变动性混响成分的线性混响滤波器的参数、用于去除声音输入信 号中包含的非变动性回波成分的线性回波消去滤波器的参数、以及用于去除 声音输入信号中包含的变动性混响成分以及变动性回波成分的非线性滤波器 的参数。此外,处理器(中央处理装置)去除声音输入信号中包含的混响成 分以及回波成分,估计用于取得直接音的混响/回波去除参数,将该混响/回 波去除参数作为线性混响滤波器的参数、线性回波消去滤波器的参数、以及 非线性滤波器的参数存储至存储器。更具体而言,处理器(逆滤波器计算1908 以及线性音响回波消去滤波器计算1901)从存储器读出线性混响滤波器的参 数的参数和线性回波消去滤波器的参数,通过线性混响滤波器以及线性回波 消去滤波器去除声音输入信号中包含的非变动性混响成分以及非变动性回波 成分,生成线性混响/回波去除信号的估计值。此时,逆滤波器计算1908和 线性音响回波消去滤波器计算1901利用相互的处理结果来计算滤波器。也就 是说,线性音响回波消去滤波器计算1901使用从声音输入信号去除了非变动 性混响成分而得到的信号来计算线性音响回波消去滤波器。另一方面,逆滤 波器计算1908使用从声音输入信号去除了非变动音响回波成分而得到的信 号来计算逆滤波器。接着,处理器(残留混响/残留音响回波/直接音分离1904) 使用非线性滤波器,生成线性混响/回波去除信号的估计值中包含的变动性混 响成分、变动性回波成分、以及直接音成分的估计值。进而,处理器(残留 混响参数估计704、直接音参数估计705、以及残留音响回波参数估计1906) 基于变动性混响成分、变动性回波成分、以及直接音的估计值,更新构成非 线性滤波器的参数的变动性混响成分、变动性回波成分、以及直接音成分的 参数。并且,处理器(线性混响/回波成分权重计算1907、线性音响回波消 去滤波器计算1901、以及逆滤波器计算1908)基于更新后的变动性混响成分、 变动性回波成分、以及直接音成分的参数,依次更新线性混响滤波器以及线 性回波消去滤波器的参数。通过这样在相同的框架内执行混响去除和回波消 除,能够估计可使双方的处理精度提高的参数。

(iv)第四实施方式提出了将处理中花费负荷的混响参数估计处理在会 议系统的计算机服务器中执行的结构(图25)。通过这样,能够减轻各个据 点中的会议系统的处理负荷,所以能够确保会议系统的实时性,并且能够大 幅削减用于构筑该会议系统的成本。

(v)本发明也能够通过实现实施方式的功能的软件的程序代码来实现。 此时,将记录了程序代码的存储介质提供给系统或装置,该系统或装置的计 算机(或CPU、MPU)读出存储介质中存储的程序代码。此时,从存储介质 读出的程序代码本身实现前述的实施方式的功能,该程序代码本身以及将其 存储的存储介质构成本发明。作为用于供应这样的程序代码的存储介质,例 如使用软磁盘、CD-ROM、DVD-ROM、硬盘、光盘,光磁盘、CD-R、 磁带、非易失性的存储卡、ROM等。

此外,也可以是基于程序代码的指示,在计算机上工作的OS(操作系 统)等进行实际的处理的一部分或全部,通过该处理而实现前述的实施方式 的功能。进而,在从存储介质读出的程序代码被写入计算机上的存储器后, 基于该程序代码的指示,计算机的CPU等进行实际的处理的一部分或全部, 通过该处理实现前述的实施方式的功能。

进而,也可以是通过将实现实施方式的功能的软件的程序代码经由网络 进行分发,将其存储至系统或装置的硬盘、存储器等存储部件或CD-RW、 CD-R等的存储介质,在使用时该系统或装置的计算机(或CPU、MPU) 读出并执行该存储部件、该存储介质中存储的程序代码。

最后,需要理解在此叙述的进程以及技术还能够通过元件(component) 的任意相应的组合来安装,而不是本质上关联于任意特定的装置。进而,通 用目的的多样类型的设备能够根据在此记述的教导而使用。可知为了执行在 此叙述的方法的步骤,构筑专用的装置是有益的。此外,通过实施方式中公 开的多个结构要素的适当的组合,能够形成各种发明。例如,也可以从实施 方式所示出的全部结构要素删除其中几个结构要素。进而,也可以适当组合 跨越不同的实施方式的结构要素。本发明关联于具体例而记述,但这只是为 了说明而不是为了限定全部观点。对于在本领域有技能的人来说,应该理解 存在相应于实施本发明的硬件、软件、以及固件的多个组合。例如,所记述 的软件能够以汇编(Assembler)、C/C++、perl、Shell、PHP、Java(注册商 标)等的大范围的程序或脚本语言来安装。

进而,在上述的实施方式中,仅示出了认为说明上所需的控制线、信息 线,不一定示出产品上全部控制线、信息线。也可以是全部结构相互连接。

此外,对于具有本技术领域的常识的人来说,根据此处公开的本发明的 说明书以及实施方式的考察,可以明确本发明的其他安装。所记述的实施方 式的多样的方式和/或元件在具有管理数据的功能的计算机化储存系统中,能 够以单独或任意组合来使用。说明书和具体例不过是典型的例子,本发明的 范围和精神由后续的权利要求书来示出。

附图标记说明

100……每据点会议系统,101……非易失性存储器,102……中央运算装 置,103……易失性存储器,104……A/D变换器,105……麦克风阵列, 106……D/A变换器,107……扬声器阵列,108……HUB、109……摄像机, 110……显示器,201……会议信息计算服务器,202……MCU、301……回波 消除器,302……混响去除,401……帧化,402……频率分解,403……缓冲, 404……混响去除参数估计,405……在线混响去除,406……时域变换, 701……逆滤波器计算,702……线性混响成分消去,703……残留混响/直接 音分离,704……残留混响参数估计,705……直接音参数估计,706……收敛 判定,707……线性混响成分权重计算,801……缓冲,802……直接音方差估 计,901……混响去除参数数据库、902……最优混响去除音选择,903……参 数写入控制,1102……直接音滤波器系数估计,1103……残留混响滤波器系 数估计,1104……每时间的目的音方差估计,1105……每时间的残留混响方 差估计,1201……直接音二次统计量计算,1202……时变参数计算,1203…… 主轴计算,1301……残留混响二次统计量计算,1302……主轴计算,1401…… 加权相关矩阵计算,1402……加权协方差矩阵计算,1403……滤波器计算, 1800……离线参数估计,1801……混响/音响回波消去用参数估计,1901…… 线性音响回波消去滤波器计算,1902……线性音响回波消去,1904……残留 混响/残留音响回波/直接音分离,1906……残留音响回波参数估计,1907…… 线性混响/回波成分权重计算,1908……逆滤波器计算,2001……混响去除及 回波消除器,2301……在线音响回波/混响去除。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号