首页> 中国专利> 音频编解码器中的噪声产生

音频编解码器中的噪声产生

摘要

频谱域被有效使用以参数化背景噪声,从而获得背景噪声合成,该背景噪声合成更真实因而导致更透明的活动阶段至非活动阶段切换。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-01

    授权

    授权

  • 2016-01-13

    著录事项变更 IPC(主分类):G10L19/012 变更前: 变更后: 申请日:20120214

    著录事项变更

  • 2014-01-22

    实质审查的生效 IPC(主分类):G10L19/012 申请日:20120214

    实质审查的生效

  • 2013-12-25

    公开

    公开

说明书

技术领域

本发明涉及在非活动阶段期间支持噪声合成的音频编解码器。

背景技术

利用语音或其它噪声源的非活动周期来缩小传输带宽的可能性在本 领域中是已知的。这样的方案一般使用某个检测形式来区别非活动(或无 声)阶段与活动(或非无声)阶段。在非活动阶段期间,通过中止精准地 编码记录信号的普通数据流的传输,而只发送无声插入描述(SID)更新 而达成较低位率。SID更新可以常规间隔传输,或当检测到背景噪声特性 改变时传输。然后SID帧可用在解码侧来产生具有类似在活动阶段期间的 背景噪声的特性的背景噪声,从而使得中止编码记录信号的普通数据流的 传输在接收者侧不会导致从活动阶段至非活动阶段令人不愉悦的过渡情 况。

然而,仍然需要进一步降低传输率。位率使用者数量的增加,诸如移 动电话数目的增加,及或多或少位率密集应用数量的增加,诸如无线传输 广播,要求稳定地减少耗用的位率。

另一方面,合成噪声须密切地仿真真实噪声,使得该合成对使用者而 言为透明可见的。

发明内容

据此,本发明的一个目的在于提供一种使得能够降低传输位率和/或有 助于提高可获得的噪声产生质量的在非活动阶段期间支持噪声产生的音 频编解码器方案。

该目的通过未决的独立权利要求的一部分主题而获得。

本发明的一个目的在于提出一种在非活动阶段期间支持合成噪声产 生的音频编解码器,就例如位率和/或运算复杂度而言,所述音频编解码器 以适度的开销产生更真实感的噪声。

后者的目的也可通过本申请的独立权利要求的另一部分的主题来获 得。

具体地,本发明的基本构想在于,频谱域可极为有效地用来参数化背 景噪声,从而获得更真实的背景噪声的合成,并因此导致活动阶段切换至 非活动阶段更透明可见。此外,已经发现,在频谱域中参数化背景噪声, 使得能够从有用信号中分离噪声及据此,在频谱域中参数化背景噪声当与 在活动阶段期间参数背景噪声估计值的前述连续更新结合时具有优点,原 因在于,频谱域中可获得噪声与有用信号间之间的更好的分离,从而使得 当组合本申请的两个优势方面时,无需从一个域至另一域的额外的转换。

根据特定实施方式,通过在活动阶段期间连续地更新参数背景噪声估 计值,使得一旦活动阶段之后进入非活动阶段可即刻地开始噪声的生成, 可节省有价值的位率以维持噪声产生质量。例如,连续更新可在解码侧进 行,无需在非活动阶段的检测之后紧接的热身阶段(warm-up phase)期间 对解码侧初步地提供背景噪声的编码表示型态,所述提供将耗用有价值的 位率,原因在于,解码侧已经在活动阶段期间连续地更新参数背景噪声估 计值,及如此,随时准备即刻地进入非活动阶段,伴以适当的噪声产生。 同样,若该参数背景噪声估计值在编码侧进行,则可避免这样的热身阶段。 替代当检测得进入非活动阶段时初步地继续对解码侧提供传统的背景噪 声的编码表示型态以了解该背景噪声,并在据此了解阶段后通知该解码 侧,所述编码器能够立即在检测到进入非活动阶段时,通过返回到在过去 活动阶段期间所连续地更新的参数背景噪声估计值,对解码器提供所需的 参数背景噪声估计值,从而避免额外执行询查式编码背景噪声而初步耗用 位率。

本发明的实施方式的其他优点细节为未决权利要求书的从属权利要 求的主题。

附图说明

图1为示出了根据实施方式的音频编码器的框图;

图2示出了编码引擎14的可能的实施;

图3示出了根据实施方式的音频解码器的框图;

图4示出了根据实施方式的图3的解码引擎的可能的实施;

图5示出了根据实施方式的另外的更具体的描述的音频编码器的框 图;

图6示出了根据实施方式的能够与图5中的编码器结合使用的解码器 的框图;

图7示出了根据实施方式的另外的更具体的描述的音频解码器的框 图;

图8示出了根据实施方式的音频编码器的频谱带宽扩展部分的框图;

图9示出根据实施方式的图8的CNG频谱带宽扩展编码器的实施;

图10示出了根据使用频谱带宽扩展的实施方式的音频解码器的框图;

图11示出了使用频谱带宽扩展的音频解码器的另一实施方式的可能 的更具体的描述的框图;

图12示出了根据使用频谱带宽扩展的另一实施方式的音频编码器的 框图;以及

图13示出了音频编码器的另一实施方式的框图。

具体实施方式

图1示出了本发明实施方式的音频编码器。图1的音频编码器包含背景 噪声估算器12、编码引擎14、检测器16、音频信号输入18及数据流输出20。 提供器12、编码引擎14及检测器16分别地具有连接至音频信号输入18的输 入。估算器12及编码引擎14的输出分别经由开关22连接至数据流输出20。 开关22、估算器12及编码引擎14分别具有连接至检测器16的输出的控制输 入。

编码器14在活动阶段24期间将输入音频信号编码成数据流30,及检测 器16被配置为基于输入信号检测跟随在活动阶段24之后的非活动阶段28 的进入34。由编码引擎14输出的数据流30的部分被标示为44。

背景噪声估算器12被配置为基于输入音频信号的频谱分解表示型态 而确定参数背景噪声估计值,从而使得参数背景噪声估计值频谱描述输入 音频信号的背景噪声的频谱波封。确定可始于进入非活动阶段38时,即, 恰在检测器16检测到非活动性时的时间瞬间34之后。在这种情况下,数据 流30的正常部分44将略微扩展至非活动阶段,即,将持续另一个短的时间 段足够让背景噪声估算器12从输入信号了解/估算背景噪声,假设输入信号 只由背景噪声组成。

然而,下述实施方式采用另一种方式。根据以下进一步描述的可选实 施方式,在活动阶段期间可连续地执行确定来更新供当进入非活动阶段时 即刻使用的估计值。

总而言之,音频编码器10被配置为在非活动阶段28期间,诸如使用SID 帧32及38来将参数背景噪声估计至编码成数据流30。

因此,尽管后续说明的多个实施方式指在活动阶段期间连续地执行噪 声估算以能够即刻地开始噪声合成,但非必要为此种情况,实施可以与此 不同。通常,在这些优选实施方式中呈现的所有细节应该被理解为也说明 或披露例如相应的噪声估算在检测到所述噪声估计值时进行的实施方式。

因此,背景噪声估算器12被配置为基于在输入18处进入音频编码器10 的输入音频信号,在活动阶段24期间连续地更新参数背景噪声估计值。尽 管图1示出背景噪声估算器12可基于在输入18处所输入的音频信号而导出 参数背景噪声估计值的连续更新,但非必要为此种情况。背景噪声估算器 12可可选地或另外地从编码引擎14获得音频信号的版本,如虚线26所示。 在这种情况下,背景噪声估算器12可选地或另外地分别经由连接线26及编 码引擎14而间接地连接至输入18。更具体地,对于背景噪声估算器12,存 在连续地更新背景噪声估计值的不同的可能性,在下文中进一步描述这些 可能性中的一些。

编码引擎14被配置为在活动阶段24期间将到达输入18的输入音频信 号编码成为数据流。活动阶段应涵盖有用的信息含在诸如语音或其它噪声 源的有用声音的音频信号内的全部时间。另一方面,具有几乎时间不变特 性的声音诸如于扬声器背景中由雨声或交通声所引起的时间不变频谱须 归类为背景噪声,每当只存在有此种背景噪声时,相应的时间段应归类为 非活动阶段28。检测器16负责基于在输入18的输入音频信号而检测跟随在 活动阶段24后的非活动阶段28的进入。换言之,检测器16区别两个阶段, 即,活动阶段及非活动阶段,其中,检测器16确定目前存在哪个阶段。检 测器16通知编码引擎14有关目前存在的阶段,及如前文已述,编码引擎14 在活动阶段24期间执行将输入音频信号编码成为数据流。检测器16据此控 制开关22,从而使得由编码引擎14输出的数据流在输出20处输出。在非活 动阶段期间,编码引擎14可停止对输入音频信号的编码。至少在输出20处 输出的数据流不再由可能通过编码引擎14所输出的任何数据流而馈入。此 外,编码引擎14可只执行最少处理来支持估算器12而只有若干状态变量更 新。该动作将很大程度上降低运算功率。例如,开关22被设定为使得估算 器12的输出被连接至输出20,而非连接至编码引擎的输出。从而减少用以 传输在输出20处输出的位流的有用的传输位率。

在背景噪声估算器12被配置为在活动阶段24期间基于如前文已述的 输入音频信号18而连续地更新参数背景噪声估计值的情况下,恰在从活动 阶段24过渡至非活动阶段28后,即,恰在进入非活动阶段28时,估算器12 能够将在活动阶段24期间所连续地更新的参数背景噪声估计值插入在输 出20处所输出的数据流30中。紧接在活动阶段24结束后,及紧接在检测器 16检测到进入非活动阶段28的时间瞬间34后,背景噪声估算器12例如可将 无声插入描述符(SID)帧32插入数据流30内。换言之,由于在活动阶段 24期间背景噪声估算器对参数背景噪声估计值的连续更新,故非活动阶段 28的进入的检测器检测与SID32的插入之间无需时间间隙。

因此,总结根据实施图1的实施方式的优选项的图1的音频编码器10的 以上描述可操作如下。用于例示说明目的,假设目前存在活动阶段24。在 这种情况下,编码引擎14当前将在输入18处的输入音频信号编码成数据流 20。开关22将编码引擎14的输出连接至输出20。编码引擎14可使用参数编 码及变换编码来将输入音频信号18编码成数据流。更具体地,编码引擎14 可以帧为单位编码该输入音频信号,各个帧编码该输入音频信号的连续- 部分彼此重迭-的时间间隔中的一个。编码引擎14额外地可在数据流的连 续帧间,在不同编码模式间切换。例如,某些帧可使用预测编码诸如CELP 编码而编码,而一些其它帧可使用变换编码诸如TCX或AAC编码而编码。 请参考例如在2010年9月24日的ISO/IEC CD23003-3中描述的USAC及其 编码模式。

在活动阶段24期间,背景噪声估算器12连续地更新参数背景噪声估计 值。据此,背景噪声估算器12可被配置为区别输入音频信号内的噪声成分 与有用信号成分,以只从噪声成分中确定参数背景噪声估计值。背景噪声 估算器12在频谱域中执行该更新,所述频谱域诸如为也可用在编码引擎14 内的变换编码的频谱域。此外,在例如变换编码输入信号的以LPC为基础 的滤波版本,而非进入输入18或遗漏编码成数据流的音频信号期间,背景 噪声估算器12可基于作为中间结果在编码引擎14内获得的激励信号或残 差信号而执行更新。由此,输入音频信号内的大量有用信号成分已经被移 除,从而使得对于背景噪声估算器12,噪声成分的检测更容易。作为频谱 域,可使用重迭变换域诸如MDCT域,或滤波器组域诸如复数值滤波器组 域诸如QMF域。

在活动阶段24期间,检测器16也连续地运行以检测非活动阶段28的进 入。检测器16可具体实施为语音/声音活动检测器(VAD/SAD)或一些其 它装置,所述装置确定有用的信号成分目前是否存在于输入音频信号中。 检测器16决定活动阶段24是否继续的基本标准可以是:检查输入音频信号 的低通滤波功率是否保持低于某个临界值,假设一旦超过所述临界值则进 入非活动阶段。

与检测器16执行检测在活动阶段24之后进入非活动阶段28的确切方 式独立无关地,检测器16即刻地通知其它实体12、14及22进入非活动阶段 28。在活动阶段24期间背景噪声估算器的连续更新参数背景噪声估计值的 情况下,在输出20处输出的数据流30可即刻避免进一步从编码引擎14馈 入。反而,当被通知进入非活动阶段28时即刻,背景噪声估算器12将以SID 帧32形式,将参数背景噪声估计值的最新更新的信息插入数据流30内。换 言之,SID帧32可以紧接在编码引擎的最末帧之后,该最末帧编码有关检 测器16检测非活动阶段进入的时间间隔的音频信号的帧。

一般而言,背景噪声不常改变。在大部分情况下,背景噪声倾向于随 时间不变。据此,恰在检测器16检测到非活动阶段28的起始后即刻,在背 景噪声估算器12插入SID帧32后,任何数据流的传输可被中断,从而使得 在该中断阶段34中,数据流30并不耗用任何位率,或只耗用一些传输目的 所要求的最小位率。为了维持最小位率,背景噪声估算器12可间歇地重复 SID32的输出。

然而,尽管背景噪声倾向于不随时间而改变,但是,可能出现背景噪 声改变。例如,假设在用户打电话过程中,移动电话用户离开汽车,从而 背景噪声从马达噪声改变成车外的交通噪声。为了追踪这样的背景噪声的 改变,背景噪声估算器12可被配置为来连续地测量背景噪声,即便在非活 动阶段28期间亦是如此。每当背景噪声估算器12确定参数背景噪声估计值 的改变量超过某个临界值时,背景估算器12可经由另一个SID38而将参数 背景噪声估计值的更新版本插入数据流20中,其中,随后可接着另一个中 断阶段40,直到例如检测器16检测到另一个活动阶段42开始为止等。当然, 揭露目前已更新参数背景噪声估计值的SID帧可选地或此外地,以中间方 式散布在非活动阶段内,而与参数背景噪声估计值的改变独立无关。

显然,由编码引擎14输出且通过使用阴影线在图1中示出的数据流44 比在非活动阶段28期间将被传输的数据流片段32及38耗用更多传输位率, 因而位率的节省相当显著。

此外,在背景噪声估算器12能够通过前述可选的连续估计值更新而即 刻地开始进行至进一步馈进数据流30的情况下,超过时间上非活动阶段检 测点34即无需初步继续传输编码引擎14的数据流44,因而更进一步降低了 总耗用位率。

如以下关于更特定的实施方式进一步具体说明的,在输入音频信号的 编码中,编码引擎14可被配置为将输入音频信号预测编码成线性预测系数 和激励信号,分别将激励信号变换编码数据流30以及将线性预测系数编码 成数据流44。图2中示出了一种可能的实施。根据图2,编码引擎14包含依 次串联连接在编码引擎的音频信号输入56和数据流输出58之间的变换器 50、频域噪声整形器(frequency domain noise shaper,FDNS)52、及量化 器54。此外,图2的编码引擎14包括线性预测分析模块60,模块60被配置 为通过音频信号的部分的相应的分析窗口及在窗口部分上施加自相关性 来从音频信号56确定线性预测系数,或基于由变换器50输出的输入音频信 号的变换域中的变换而确定自相关性(autocorrelation),确定方式使用其 功率频谱,及施加反DFT于其上,因而确定自相关性,随后基于该自相关 性诸如使用(韦-)李-杜算法执行线性预测编码(LPC)估算。

基于由线性预测分析模块60确定的线性预测系数,于输出58所输出的 数据流被馈以关于LPC的相应信息,及频域噪声整形器被控制为根据对应 于由通过模块60所输出的线性预测系数所确定的线性预测分析滤波器的 转移函数而频谱整形音频信号的频谱图。用于在数据流中传输的LPC的量 化可在LSP/LSF域及使用内插法进行,以相比较分析器60中的分析速率, 减低传输速率。此外,在FDNS中所执行的LPC至频谱加权转换可涉及施 加ODFT至LPC上,及施加所得加权值至变换器的频谱作为除数。

然后,量化器54量化频谱形成的(平坦化)频谱图的变换系数。例如, 变换器50使用重迭变换诸如MDCT来将该音频信号从时域转换成频谱域, 从而获得对应于输入音频信号的重迭窗口部分的连续变换,然后根据LP 分析滤波器的转移函数,通过加权这些变换而通过频域噪声整形器52频谱 形成所述窗口部分。

已整形的频谱图可被解释为激励信号,如虚箭头62所示,背景噪声估 算器12可被配置为使用该激励信号来更新参数背景噪声估计值。可选地, 如虚箭头64所指示的,背景噪声估算器12可利用作为变换器50输出的重迭 变换表示型态作为直接更新的基础,即,无需通过噪声整形器52进行频域 噪声整形。

有关图1至图2中示出的组件的可能实施的其他细节可从随后的更具 体的实施方式中导出,且注意,全部这些细节都可单独地转用至图1和图2 的组件。

然而,在描述这些更具体的实施方式之前,参照图3,其另外地或可 选地示出了可在解码器侧执行参数背景噪声估计值更新。

图3的音频解码器80被配置为解码在解码器80的输入82处进入的数据 流,以从所述数据流重建将在解码器80的输出处被输出的音频信号。数据 流包括至少一个活动阶段86,在活动阶段之后接着非活动阶段88。音频解 码器80内包括背景噪声估算器90、解码引擎92、参数随机产生器94以及背 景噪声产生器96。解码引擎92连接在输入82与输出84之间,同样,背景噪 声估算器90、背景噪声产生器96及参数随机产生器94串联连接在输入82与 输出84之间。解码器92被配置为在活动阶段期间从数据流重建音频信号, 从而使得作为输出84处的输出的音频信号98包括噪声及适当质量的有用 声音。

背景噪声估算器90被配置为基于从数据流获得的输入音频信号的频 谱分解表示型态而确定参数背景噪声估计值,从而使得所述参数背景噪声 估计值频谱描述输入音频信号的背景噪声的频谱波封。参数随机产生器94 及背景噪声产生器96被配置为通过在非活动阶段期间,使用参数背景噪声 估计值控制参数随机产生器而在非活动阶段期间重建音频信号。

然而,如图3中的虚线所指示的,音频解码器80可以不包括估算器90。 而是,如前文所示,数据流可以具有编码在其中的参数背景噪声估计值, 所述参数背景噪声估计值频谱描述背景噪声的频谱波封。在这种情况下, 解码器92可以被配置为在活动阶段期间从数据流重建音频信号,同时参数 随机产生器94及背景噪声产生器96协作,从而使得产生器96通过在非活动 阶段88期间,根据参数背景噪声估计值控制参数随机产生器94而在非活动 阶段期间合成音频信号。

然而,如果存在估算器90,则图3的解码器80可在非活动阶段106的进 入106时通过数据流88诸如利用启动不活动旗标而被通知。然后,解码器 92可进行继续解码初步额外馈给部分102,及背景噪声估算器可以在时间 瞬间106之后的初步时间以内了解/估计背景噪声。然而,根据上述图1和图 2的实施方式,背景噪声估算器90可以被配置为在活动阶段期间从数据流 连续地更新参数背景噪声估计值。

背景噪声估算器90可以不直接而是经由解码引擎92连接至输入82,如 虚线100所示,以从解码引擎92获得音频信号的某个重建版本。原理上, 背景噪声估算器90可被配置为与背景噪声估算器12极其类似地操作,但下 述事实除外,背景噪声估算器90只访问音频信号的可重建版本,即,包括 在编码侧由量化所造成的损耗。

参数随机产生器94可包括一个或多个真或伪随机数产生器,通过所述 产生器输出的数值序列可符合统计分布,所述统计分布可经由背景噪声产 生器96而参数地设定。

背景噪声产生器96被配置为通过在非活动阶段88期间根据从背景噪 声估算器90获得的参数背景噪声估计值控制参数随机产生器94,而在非活 动阶段88期间合成音频信号98。尽管两个实体96及94被显示为串联连接, 但串联连接不应该被解释为限制性的。产生器96与94可以交联。实际上, 产生器94可以被解释为产生器96的一部分。

因此,根据图3的有利的实施,图3的音频解码器80的操作模式可以是 如下。在活动阶段86期间,输入82被连续地提供以数据流部分102,该部 分102在活动阶段86期间将由解码引擎92处理。然后,在某个时间瞬间106, 在输入82处进入的数据流104停止专用于解码引擎92的数据流部分102的 传输。换言之,对于通过引擎92的解码,在时间瞬间106不再有额外的数 据流部分的帧是可用的。非活动阶段88的进入的传讯(signalization)可以 是数据流部分102传输的中断,或可通过紧接排列在非活动阶段88起点处 的一些信息108而被信号通知。

总而言之,非活动阶段88的进入发生的极为突然,但这并不是问题, 因为在活动阶段86期间,背景噪声估算器90已经基于数据流部分102连续 地更新了参数背景噪声估计值。由此,一旦非活动阶段88在106开始时, 背景噪声估算器90能够对背景噪声产生器96提供以参数背景噪声估计值 的最新版本。因此,从时间瞬间106开始,由于解码引擎92不再被馈以数 据流部分102,所以解码引擎92停止输出任何音频信号重建,但参数随机 产生器94由背景噪声产生器96根据参数背景噪声估计值加以控制,从而使 得在时间瞬间106之后即刻可在输出84处输出背景噪声的仿真,以无缝地 跟随如由解码引擎92所输出的重建音频信号直到时间瞬间106。交叉衰减 可用来从如由引擎92所输出的活动阶段的最末重建帧转变至如通过最近 更新的参数背景噪声估计值版本所确定的背景噪声。

背景噪声估算器90被配置为在活动阶段86期间,连续地更新来自数据 流104的参数背景噪声估计值,背景噪声估算器90可被配置为区别在音频 信号版本内在活动阶段86从数据流104所重建的噪声成分与有用信号成 分,并只从噪声成分而不从有用信号成分确定参数背景噪声估计值。背景 噪声估算器90执行该区别/分离的方式对应于上述相对于背景噪声估算器 12的所述的方式。例如,可使用解码引擎92内从数据流104所内部重建的 激励信号或残差信号。

类似图2,图4示出了解码引擎92的可能的实施。根据图4,解码引擎 92包括用以接收数据流部分102的输入110,及用以输出在活动阶段86内的 重建音频信号的输出112。串联连接在它们之间,解码引擎92包括去量化 器114、频域噪声整形器(FDNS)116及逆变换器(inverse transformer)118, 它们依次连接在输入110与输出112之间。到达输出110处的数据流部分102 包括:激励信号的变换编码版本,即,表示该激励信号的之变换系数等级, 所述变换系数等级被馈至去量化器114的输入;以及关于线性预测系数的 信息,该信息被馈至频域噪声整形器116。去量化器114去量化激励信号的 频谱表示型态并将其转发至频域噪声整形器116,频域噪声整形器116转而 根据对应于线性预测合成滤波器的转移函数而频谱形成激励信号(连同平 坦量化噪声)的频谱图,从而形成量化噪声。原则上,图4的FDNS116的 作用类似于图2图的FDNS:LPC提取自数据流,及然后例如通过施加ODFT 至所提取的LPC,然后施加所得频谱加权至得自去量化器114的去量化频 谱上作为乘数,LPC受到频谱加权转换。然后重新变换器118将由此得到 的音频信号重建从频谱域转变至时域,及在音频信号112输出如此所得的 重建音频信号。重迭变换可由逆变换器118诸如由IMDCT使用。如虚线箭 头120所示,激励信号的频谱图可由背景噪声估算器90用于参数背景噪声 更新。可选地,可以使用音频信号本身的频谱图,如虚线箭头122所指示。

关于图2和图4,应该注意的是,用以体现编码/解码引擎的这些实施方 式并不被解释为限制性的。其它实施方式也是可行的。此外,编码/解码引 擎可以为多模式编解码器类型,其中,图2和图4的部分仅假设只负责编码 /解码具有特定帧编码模式与其相相关联的帧,而其它帧由图2和图4中为示 出的编码引擎/解码引擎的其他部分负责。这样的另一种帧编码模式也可以 是例如使用线性预测编码的预测编码模式,但编码在时域编码而非使用变 换编码。

图5示出了图1的更具体的实施方式。更具体地,根据特定实施方式, 背景噪声估算器12在图5中被进一步详细示出。

根据图5,背景噪声估算器12包括变换器140、FDNS142、LP分析模 块144、噪声估算器146、参数估算器148、平稳性测量器150、以及量化器 152。上述提及的一些组件部分地或全部地可由编码引擎14所共同拥有。 例如,变换器140与图2的变换器50可以相同,线性预测分析模块60与144 可以相同,FDNS52与142可以相同,和/或量化器54与量化器152可在一个 模块内实施。

图5还示出了位流封装器154,其被动地负责图1中开关22的操作。更 具体地,例如,作为图5的编码器的检测器的VAD16,只是确定须采用哪 一路径,音频编码14路径或背景噪声估算器12路径。更精确地,编码引擎 14和背景噪声估算器12都并联连接在输入18与封装器154之间,其中,在 背景噪声估算器12内,变换器140、FDNS142、LP分析模块144、噪声估 算器146、参数估算器148以及量化器152串联连接在输入18与封装器154之 间(以上述顺序),而LP分析模块144分别连接在输入18与FDNS模块142 的LPC输入与量化器152的另一输入之间,以及平稳性测量器150另外地连 接在LP分析模块144与量化器152的控制输入之间。位流封装器154仅在接 收到来自与其输入连接至的任一个实体的输入时执行封装。

在传输零帧的情况下,即,在非活动阶段的中断阶段期间,检测器16 通知背景噪声估算器12,尤其是量化器152,以停止处理且不发送任何输 入给位流封装器154。

根据图5,检测器16可在时域和/或变换域/频谱域中操作以检测活动阶 段/非活动阶段。

图5的编码器的操作模式如下。如将更明了,图5的编码器能够改善舒 适噪声的质量,诸如通常为静态噪声,诸如汽车噪声、许多人讲话的喃喃 噪声、某些乐器、及特别富含和谐的噪声诸如雨滴声。

更具体地,图5的编码器控制在解码侧的随机产生器,以激励变换系 数,从而使得仿真在编码侧检测的噪声。据此,在讨论图5的编码器的功 能性之前,主要参照图6,图6示出了解码器的一个可能的实施方式,所述 解码器能够如由图5图的编码器指示而在解码侧仿真舒适的噪声。通常, 图6示出了匹配图1的编码器的解码器的可能的实施。

更具体地,图6的解码器包括解码引擎160以在活动阶段期间解码数据 流部分44,以及舒适噪声产生部分162,用以基于在有关非活动阶段28的 数据流中提供的信息32和38产生舒适的噪声。舒适噪声产生部分162包括 参数随机产生器164、FDNS166及逆变换器(或合成器)168。模块164至 168彼此串联连接,从而使得在合成器168的输出处,产生舒适噪声,该舒 适噪声填补相对于图1讨论的在非活动阶段28期间通过解码引擎160所输 出的重建音频信号之间的间隙。处理器FDNS166及逆变换器168可以是解 码引擎160的一部分。更具体地,例如,可以与图4的FDNS116及118相同。

图5和图6的各模块的操作模式及功能性从后文讨论将更为明了。

更具体地,,变换器140诸如通过使用重迭变换将输入信号频谱分解成 频谱图。噪声估算器146被配置为从频谱图中确定噪声参数。同时,语音 或声音活动检测器16评估从输入信号导出的特征,以检测是否发生从活动 阶段过渡至非活动阶段,反之亦然。由检测器16所利用的特征可以呈瞬时 /起始检测器、音调测量以及LPC残差测量的形式。瞬时/起始检测器可以 被用来检测于干净环境或去噪声化信号中活动语音的攻击(能量的突增) 或起始;音调测量可用来区别有用的背景噪声,诸如警笛声、电话铃声及 音乐声;LPC残差可用来获得信号中存在有语音的指示。基于这些特征, 检测器16能粗略地给出目前帧是否可归类为例如语音、无声、音乐或噪音 的信息。

尽管噪声估算器146可负责区别频谱图内部的噪声与其中的有用信号 成分,诸如在[R.Martin,Noise Power Spectral Density Estimation Based on  Optimal Smoothing and Minimum Statistics,2001(R.Martin,基于最佳平滑 化及最小统计数据之噪声功率频谱密度估计,2001)]中所提出的,参数 估算器148可负责统计分析噪声成分,并例如基于噪声成分而确定各个频 谱成分的参数。

噪声估算器146例如可被配置为搜寻频谱图中的局部最小值,及参数 估算器148可被配置为确定在这些部分处的噪声统计,假设频谱图中的最 小值主要由于背景噪声而非前景声音所促成。

作为中间注释,要强调的是,也可以通过没有FDNS142的噪声估算 器进行估算,因为最小值确实也出现在未经整形的频谱中。图5的大部分 描述维持不变。

参数量化器152转而可被配置为参数化由参数估算器148所估算的参 数。例如,只要考虑噪声成分,参数可描述频谱值在输入信号的频谱图内 的频谱值的分布的平均幅值及一次幂或更高次幂动量。为了节省位率,参 数可以被转发至数据流用来以比变换器140所提供的频谱分辨率更低的频 谱分辨率而插入SID帧内部。

平稳性测量器150可以被配置为为噪声信号导出平稳性度量。参数估 算器148转而可使用该平稳性测量,以确定是否应通过发送另一个SID帧诸 如图1的帧38而开始参数更新,或影响参数的估算方式。

模块152量化由参数估算器148及LP分析模块144所计算的参数,并将 此信号通知至解码侧。更具体地,在量化前,频谱成分可分成多组。这样 的分组可依据心理声学方面而选择,诸如符合咆哮定标等。检测器16通知 量化器152是否需执行量化。在无需量化的情况下,零帧应该跟随。

当将描述转用至从活动阶段切换至非活动阶段的具体情况时,图5的 模块操作如下。

在活动阶段期间,编码引擎14经由封装器保持将音频信号编码成数据 流。编码可以逐帧进行。数据流的各个帧可表示音频信号的时间部分/时间 间隔。音频编码器14可被配置为使用LPC编码而编码全部帧。音频编码器 14可以被配置为如相对于图2中所描述的编码一些帧,例如称作TCX帧编 码模式。剩余的可使用代码激励线性预测(CELP)编码诸如ACELP编码 模式被编码。换言之,数据流的部分44可包括利用等于或大于帧率某个 LPC传输率LPC系数的连续的更新。

并行地,噪声估算器146检查LPC平坦化(被滤波的LPC分析)频谱, 以识别TCX频谱图内由这些频谱序列所表示的最小值kmin。当然,这些最 小值可随时间t而改变,即,kmin(t)。然而,最小值可在由FDNS142所输出 的频谱图形成迹线,因此,对于在时间ti的各个连续频谱i,最小值可分别 地与在先前频谱及后续频谱的最小值相关联。

然后,参数估算器从其中导出背景噪声估计值参数,诸如不同频谱成 分或频带的取中倾向(平均值、中数等)m和/或分散性(标准偏差、变量 等)d。所述导出可涉及频谱图的在该最小值处的频谱的连续频谱系数的 统计分析,从而产生在kmin处的各个最小值的m及d。前述频谱最小值之间 的沿频谱维度的内插可以被执行,以获得其它预定频谱成分或频带的m及 d。导出和/或取中倾向(平均值)的内插及分散性(标准偏差、变量等) 的导出的频谱分辨率可能各异。

刚才提及的参数例如根据由FDNS142输出的频谱而被连续地更新。

一旦检测器16检测到进入非活动阶段,检测器16可据此通知编码引擎 14,从而使得不再有活动帧被转发至封装器154。然而,量化器152在非活 动阶段内输出在第一SID帧中的刚才提及的统计噪声参数。SID帧可以或可 不包括LPC的更新。如果存在LPC更新,则可以部分44,即,在活动阶段 期间所使用的格式在SID帧32的数据流内部传递,诸如使用于LSF/LSP定 义域的量化,或不同地,诸如使用相对应于LPC分析滤波器或LPC合成滤 波器的转移函数的频谱权值,诸如在进行活动阶段中已经由FDNS142施 加在编码引擎14的框架内的这些频谱权值。

在非活动阶段期间,噪声估算器146、参数估算器148及平稳性测量器 150保持共同协作,以保持解码侧的更新跟得上背景噪声的变化。更具体 地,测量器150检查由LPC限定的频谱权值,以识别改变并通知估算器148 何时SID帧须被发送给解码器。例如,每当前述平稳性度量指示LPC的波 动度超过某个量时,测量器150可据此而激活估算器。另外或可选地,估 算器可被触发来以规则基础发送更新的参数。在这些SID更新帧40之间, 在数据流中不发送任何信息,即,“零帧”。

在解码器端,在活动阶段期间,解码引擎160假设负责重建音频信号。 一旦非活动阶段开始,适应性参数随机产生器164使用在非活动阶段期间 由参数量化器150所发送的在数据流内的去量化随机产生器参数来产生随 机频谱成分,从而形成随机频谱图,其在频谱能处理器166内频谱形成, 合成器168然后执行从频谱域再度变换成时域。对于FDNS166内的频谱形 成,可使用得自最近活动帧的最近LPC系数,或可通过外推法而从其中导 出由FDNS166施加的频谱加权,或SID帧32本身可传递信息。通过该测量, 在非活动阶段开始处,FDNS166继续根据LPC合成滤波器的转移函数而频 谱地加权输入频谱,限定LPC合成滤波器的LPS从活动数据部分44或SID 帧32被导出。然而,随着非活动阶段开始,通过FDNS166整形的频谱为 随机产生的频谱而非如同TCX帧编码模式的变换编码。此外,在166处施 加的频谱整形仅通过使用SID帧38非连续地更新。在中断阶段36期间,可 执行内插或衰减来从一个频谱整形定义逐渐切换至下一个。

如图6所示,适应性参数随机产生器164可额外地选择性地使用如含在 数据流中的最近活动阶段的最近部分内,即,含在恰在进入非活动阶段前 的数据流部分44内的去量化变换系数。例如,用途为从活动阶段内的频谱 图平滑地变迁成非活动阶段内的随机频谱图。

大致参照图1和图3,根据图5和图6(及后文说明的图7)的实施方式, 在编码器和/或解码器内产生的参数背景噪声估计值可包括关于不同的频 谱部分诸如咆哮带或不同频谱成分的时间上连续频谱值的分配的统计信 息。对于每个这样的频谱部分,例如,统计信息可含有分散性测量。据此, 分散性测量可以频谱解析方式限定在频谱信息中,即,在/对于频谱部分取 样。频谱分辨率,即,沿频谱轴展开的分散性及取中倾向的测量数目可在 例如分散性测量与选择性地存在的平均值或取中倾向度量之间不同。统计 信息包含在SID帧内。参照整形频谱诸如LPC分析滤波(即,LPC平坦化) 频谱,诸如整形MDCT频谱,其使得能够根据统计频谱合成随机频谱来进 行合成,及根据LPC合成滤波器的转移函数而解除其整形。在这种情况下, 频谱整形信息可存在于SID帧内,尽管例如可于第一SID帧32离开。然而, 如后所示,该统计信息可可选地参照非整形频谱。此外,替代使用实数值 频谱表示型态诸如MDCT,可使用复数值滤波器组频谱诸如音频信号的 QMF频谱。例如,非整形形式的音频信号的QMF频谱可以被使用并由统 计信息统计地描述,在这种情况下,除了含在统计信息本身之外并无频谱 整形。

类似于图3的实施方式相对于图1的实施方式间的关系,图7示出图3的 解码器的可能实施。如使用图5的相同组件符号所示,图7的解码器可包括 噪声估算器146、参数估算器148及平稳性测量器150,其操作类似图5的相 同组件,然而,图7的噪声估算器146对传输的且去量化的频谱图诸如图4 的120或122进行操作。然后噪声估算器146的操作类似图5中所讨论的。同 理适用于参数估算器148,其在揭示在活动阶段期间如经由/从数据流传输 的且去量化的LPC分析滤波器的(或LPC合成滤波器的)频谱的时间展频 的能量和频谱值或LPC数据上操作。

尽管组件146、148及150用作图3的背景噪声估算器90,但图7的解码 器也包括适应性参数随机产生器164及FDNS166,以及逆变换器168,与 图6中类似,它们彼此串联连接,以在合成器168的输出处输出舒适噪声。 模块164、166及168用作图3的背景噪声产生器96,模块164负责参数随机 产生器94的功能性。适应性参数随机产生器94或164根据由参数估算器148 所确定的参数而随机地产生频谱图的频谱成分,该频谱成分又转而使用由 平稳性测量器150所输出的平稳性测量而被触发。然后,处理器166频谱整 形由此产生的频谱图,逆变换器168然后执行从频谱域至时域的变换。注 意当在非活动阶段88期间,解码器接收信息108,背景噪声估算器90执行 噪声估计值的更新,接着进行某种内插手段。否则,若接收到零帧,则将 仅进行诸如内插和/或衰减的处理。

总结图5至图7,这些实施方式示出技术上可以施加控制的随机产生器 164来激励TCX系数,可以是诸如MDCT中的实数或诸如FFT中的复数。也 可有利地施加随机产生器164至通常通过滤波器组获得的多组系数。

随机产生器164优选地被控制使得噪声类型尽可能接近同样的模型。 如果目标噪声为事前已知则可达成。有些应用许可此点。在个体可能遇到 不同类型的噪声的许多实际应用中,要求适应性方法,如图5至图7所示。 从而,使用适应性参数随机产生器164,可简短地定义为g=f(x),其中,x= (x1,x2,…)为分别地由参数估算器146及150所提供的随机产生器参数集 合。

为了让参数随机产生器变成适应性,随机产生器参数估算器146适当 控制随机产生器。可包括偏移补偿来补偿数据被视为统计上不足的情况。 进行这点来基于过去帧产生统计上匹配的噪声模型,将经常性地更新估计 参数。给出提出随机产生器164产生高斯噪声的实例。在这种情况下,例 如,只需平均和变量参数,且偏移值可以被计算并施加至这些参数。更先 进的方法可处理任一类型的噪声或分布,且参数并非必要为分布力矩 (moments of a distribution)。

对于非稳态噪声,需要平稳性测量,则可使用较少适应性参数随机产 生器。通过测量器148确定的平稳性测量可使用多种方法从输入信号的频 谱形状导出,例如,板仓(Itakura)距离测量、库李(Kullback-Leibler) 距离测量等。

为了处理通过诸如图1中的38所示的SID帧发送的噪声更新的非连续 特性,通常发送另外的信息,诸如噪声的能量和频谱形状。该信息可用来 在解码器产生具有平滑过渡的噪声,即便在非活动阶段内的不连续期间也 是如此。最后,可以应用各种平滑或过滤技术以帮助改善舒适噪声仿真器 的质量。

如上所述,一方面图5和图6,另一方面图7属于不同情况。在对应于 图5和图6的情况中,参数背景噪声估算在编码器中基于已处理输入信号进 行,随后参数被传输给编码器。图7对应于另一种情况,其中,解码器可 基于活动阶段内的过去接收帧而处理参数背景噪声估计值。使用语音/信号 活动检测器或噪声估算器有利于提取噪声成分,例如即便在活动语音期间 也是如此。

在图5至图7所示的情况中,图7的情况是优选的,因为该情况导致以 较低位率传输。然而,图5和图6的情况具有更准确的可用噪声估计值的优 点。

以上全部实施方式可组合带宽扩展技术,诸如频带复制(SBR),尽 管一般可用带宽扩展。

为了示出这点,参照图8。图8示出了这样的模块,通过该模块图1至 图5的编码器可被扩展为相对于输入信号的高频部分执行参数编码。更明 具体地,根据图8,时域输入音频信号被分析滤波器组200诸如图8中所示 的QMF分析滤波器组作频谱分解。然后,上述图1至图5的实施方式只施加 至由滤波器组200所产生的频谱分解的低频部分。为了将高频部分的信息 传递至解码器侧,还使用参数编码。为此,常规频带复制编码器202被配 置为在活动阶段期间,参数化高频部分,及在数据流内以频带复制信息形 式馈送关于高频部分的信息给解码侧。开关204可设在QMF滤波器组200 的输出与频带复制编码器202的输入之间以将滤波器组200的输出与并联 连接至编码器202的频带复制编码器206的输入连接,以负责在非活动阶段 期间的带宽扩展。换言之,开关204可类似图1的开关22被控制。如以下具 体描述的,频带复制编码器模块206可被配置为类似于频带复制编码器202 操作:二者可被配置为参数化高频部分内的输入音频信号的频谱波封,即, 剩余高频部分不经受通过例如编码引擎的核心编码。然而,频带复制编码 器模块206可使用最低时/频分辨率,频谱波封在数据流内被参数化并被传 递,而频带复制编码器202可被配置为调整时/频分辨率以适应输入音频信 号,诸如取决于音频信号内的转变的发生。

图9示出了频带复制编码器模块206的可能的实施。时/频方阵设定器 (time/frequency grid setter)208、能量计算器210、及能量编码器212彼此 串联连接在编码模块206的输入与输出之间。时/频方阵设定器208可被配置 为设定时/频分辨率,在此高频部分的波封被确定。例如,最小容许时/频 分辨率由编码模块206连续使用。然后能量计算器210确定在对应于时/频分 辨率的时/频拼贴的高频部分内部通过滤波器组200输出的频谱图的高频部 的能量,在非活动阶段期间,诸如SID帧内诸如SID帧38,能量编码器212 可使用例如熵编码来将由计算器210所计算的能量插入数据流40(参考图 1)。

应该注意的是,根据图8和9的实施方式所产生的带宽扩展信息也可与 根据前述任一实施方式(诸如图3、图4和图7)使用解码器结合使用。

因此,图8和图9清楚地示出如相对于图1至图7所说明的舒适噪声产生 也可以与频带复制结合使用。例如,前述音频编码器及音频解码器可以不 同操作模式操作,其中有些操作模式包括频带复制,有些则否。超宽带操 作模式例如可涉及频带复制。总而言之,示出用来产生舒适噪声的图1至 图7的上述实施方式可以与以相对于图8和图9的方式描述的带宽扩展技术 结合。负责在非活动阶段期间的带宽扩展的频带复制编码器模块206可被 配置为基于极低时间及频率分辨率操作。比较常规频带复制处理,编码器 206可以不同频率分辨率操作,其需要额外频带表,该频带表具有极低频 率分辨率连同针对每个舒适噪声产生定标因子(该定标因子内插在非活动 阶段期间施加于波封调整器的能定标因子)在解码器内的IIR平滑化滤波 器。如刚才所述,时/频方阵可被配置为对应于最低可能时间分辨率。

换言之,带宽扩展编码可取决于存在无声阶段或活动阶段而在QMF 域或频谱域差异执行。在活动阶段中,即,在活动帧期间,通过编码器202 进行常规SBR编码,导致正常SBR数据流分别地伴随数据流44及102。在非 活动阶段中或在归类为SID帧的帧期间,只有表示为能量定标因子的有关 频谱波封信息可通过施加时/频方阵提取,其具有极低频率分辨率,及例如 最低可能时间分辨率。所得的定标因子可通过编码器212有效编码并被写 至数据流。在零帧中或在中断阶段36期间,并无任何侧边信息通过频带复 制编码器模块206写至该数据流,因此,并没有通过计算器210执行能量计 算。

与图8一致,图10示出了图3和图7的解码器实施方式的可能扩展至带 宽扩展编码技术。更具体地,图10示出了根据本申请的音频解码器可能的 实施方式。核心解码器92并联连接至舒适噪声产生器,舒适噪声产生器以 组件符号220标示,及包括例如舒适噪声产生模块162或图3的模块90、94 及96。开关222被示出为取决于帧类型,即,该帧攸关或属于活动阶段, 或攸关或属于非活动阶段,诸如有关中断阶段的SID帧或零帧,分配数据 流104及30内的帧至核心解码器92或舒适噪声产生器220上。核心解码器92 及舒适噪声产生器220的输出连接至带宽扩展解码器224的输入,其输出示 出重建音频信号。

图11示出带宽扩展解码器224的可能实施的更具体的实施方式。

如图11中所示,根据图11的实施方式的带宽扩展解码器224包括输入 226,该输入226用以接收欲重建的完整音频信号的低频部分的时域重建。 输入226连接带宽扩展解码器224与核心解码器92及舒适噪声产生器220的 输出,使得在输入226处的时域输入可以是包括噪声及有用成分二者的音 频信号的已重建低频部,或用以桥接活动阶段间的时间的舒适噪声。

根据图11的实施方式,带宽扩展解码器224被构建为执行频谱带宽复 制,故解码器224于后文中称作SBR解码器。然而,相对于图8至图10,强 调这些实施方式并非限于频谱带宽复制。而是,更为一般性的带宽扩展的 替代方式也可相对于这些实施方式使用。

此外,图11的SBR解码器224包含时域输出228,用以输出最终重建音 频信号,即,在活动阶段或非活动阶段。在输入228与输出228之间,SBR 解码器224依次串联连接的频谱分解器230(如图11所示,其可以是分析滤 波器组诸如QMF分析滤波器组)、HF产生器232、波封调整器234及频谱至 时域转换器236,如图11所示,其可以被实施为合成滤波器组,诸如QMF 合成滤波器组。

模块230至236操作如下。频谱分解器230频谱分解时域输入信号因而 获得重建低频部分。HF产生器232基于重建低频部分而产生高频复制部分, 及波封调整器234利用经由SBR数据流部传递的及通过前文尚未讨论但在 图11中显示在波封调整器234上方的模块提供的高频部分的频谱波封表示 型态来频谱形成或整形高频复制部分。因此,波封调整器234根据所传输 高频波封的时/频方阵表示型态调整高频复制部分的波封,并转发由此所得 的高频部分给频谱至时域转换器236,用以将整个频谱,即,频谱形成高 频部分连同重建低频部分变换成在输出228处的重建时域信号。

如相对于图8至图10已经提及的,高频部分频谱波封可以能量定标因 子形式在数据流内传递,SBR解码器224包括输入238,以接收关于高频部 分频谱波封的该信息。如图11所示,在活动阶段的情况下,即,活动帧在 活动阶段期间存在于数据流中,输入238可经由相应的开关240直接连接至 波封调整器234的频谱波封输入。然而,SBR解码器224另外地包括定标因 子组合器242、定标因子数据储存模块244、内插滤波单元246诸如IIR滤波 单元,及增益调整器248。模块242、244、246及248在输入238与波封调整 器234的频谱波封输入之间彼此串联连接,开关240被连接在增益调整器 248与波封调整器234之间,另一开关250被连接在定标因子数据储存模块 244与滤波单元246之间。开关250被配置为连接该定标因子数据储存模块 244与滤波单元246的输入,或连接定标因子数据恢复器252。在非活动阶 段期间的SID帧的情况下,及选择性地在活动帧的情况下,高频部分频谱 波封的极为粗略表示型态为可接受的情况下,开关250及240连接输入238 和波封调整器234之间的模块序列242至248。定标因子组合器242调整适应 高频部分频谱波封已经经由数据流传输的频率分辨率成为波封调整器234 预期接收的分辨率,及定标因子数据储存模块244存储所得频谱波封直到 下次更新。滤波单元246在时间和/或频谱维度滤波该频谱波封,及增益调 整器248调整适应高频部分的频谱波封的增益。为此,增益调整器可组合 如通过单元246获得的波封数据与从QMF滤波器组输出导出的实际波封。 定标因子数据恢复器252再现如通过定标因子数据储存模块244所存储的 表示在中断阶段或零帧内的频谱波封的定标因子数据。

因此,在解码器侧可进行下列处理。在活动帧内或在活动阶段期间, 可施加常规频带复制处理。在这些活动周期期间,来自数据流的定标因子 其典型地比较舒适噪声产生处理可用在更高数目的定标因子频带,这些定 标因子通过定标因子组合器242被变换成舒适噪声产生频率分辨率。定标 因子组合器组合较高频率分辨率的定标因子来获得多个定标因子,通过探 勘不同频带表的共享频带边界而符合舒适噪声产生(CNG)。在定标因子 组合单元242的输出端的所得定标因子值被存储来供零帧再度使用,及后 来通过恢复器(restorer)252再现,及随后用在更新用于CNG操作模式的 滤波单元246。在SID帧中,施加已修改的SBR数据流读取器,其从数据流 提取定标因子信息。SBR处理的其余组态以预定值被初始化,时/频方阵被 初始化成为编码器内使用的相同时/频分辨率。所提取的定标因子被馈至滤 波单元246,其中,例如一个IIR平滑滤波器内插一个低分辨率定标因子带 随时间的能量进展。在零帧的情况下,从位流未读取有效负载,包含时/ 频方阵的SBR组态与SID帧使用者相同。在零帧中,滤波单元246中的平滑 滤波器被馈以从定标因子组合单元242输出的定标因子值,该定标因子值 已经存储在包含有效定标因子信息的最末帧。在目前帧被归类为不活动帧 或SID帧的情况下,舒适噪声在TCX域产生,并变换回时域。随后,包含 舒适噪声的时域信号馈进SBR模块224的QMF分析滤波器组230。在QMF 域中,舒适噪声的带宽扩展利用HF产生器232内的拷贝转位进行,最后, 人工产生的高频部分的频谱波封通过施加能量定标因子信息于波封调整 器234而调整。这些能量定标因子通过滤波单元246的输出而获得,并在施 用于波封调整器234前通过增益调整单元248定标。在增益调整单元248中, 用以定标定标因子的增益值被计算及施加来补偿该信号的低频部分与高 频部分之间边界的巨大能量差。前述实施方式常用在图12和图13的实施方 式。图12示出了根据本申请的实施方式的音频编码器的实施方式,图13示 出了音频解码器的实施方式。关于这些图的所披露的细节同样可以应用与 先前分别提及的组件。

图12的音频编码器包括用以频谱分解输入音频信号的QMF分析滤波 器组200。检测器270及噪声估算器262连接至QMF分析滤波器组200的输 出。噪声估算器262负责背景噪声估算器12的功能性。在活动阶段期间, 来自QMF分析滤波器组的QMF频谱通过频带复制参数估算器260的并联 连接处理,接着一方面为某个SBR编码器264,及另一方面为QMF合成滤 波器组272接着核心编码器14的级联(concatenation)。两个并联路径连接 至位流封装器266的相应的输入。在输出SID帧的情况下,SID帧编码器274 从噪声估算器262接收数据,并输出SID帧给位流封装器266。

由估算器260所输出的频谱带宽扩展数据描述频谱图的高频部分的频 谱波封或由QMF分析滤波器组200所输出的频谱,然后通过SBR编码器264 编码,诸如通过熵编码而编码。数据流多路复用器266将活动阶段的频谱 带宽扩展数据插入在多路复用器266的输出268处的数据流输出内。

检测器270检测目前是否活动阶段或非活动阶段为作用态。基于该检 测,目前将输出活动帧、SID帧或零帧,即,不活动帧。换言之,模块270 决定是否活动阶段或非活动阶段为作用态,及若非活动阶段为作用态,则 决定是否将输出SID帧。该决定指示于图12中,I表示零帧,A表示活动帧, 及S表示SID帧。对应于存在有活动阶段的输入信号的时间间隔帧也转发给 QMF合成滤波器组272与核心编码器14的级联。比较QMF分析滤波器组 200时,QMF合成滤波器组272具有较低频率分辨率,或在较低数目QMF 子带操作,因而在再度转移输入信号的活动帧部至时域中,通过子带数目 比而达成相对应缩减取样率。更具体地,QMF合成滤波器组272被施加至 活动帧内QMF分析滤波器组频谱图的低频部分或低频子带。由此核心编码 器14接收输入信号的缩减取样版本,因此只涵盖原先输入QMF分析滤波器 组200的输入信号的低频部分。其余高频部分通过模块260及264参数编码。

SID帧(或更精确地,将通过SID帧传递的信息)被转发至SID编码器 274,其例如负责图5的模块152的功能性。唯一差异:模块262在输入信号 频谱上直接操作,未经LPC整形。此外,因使用QMF分析滤波,故模块262 的操作与通过核心编码器所选帧模式或频谱带宽扩展选项的施加与否独 立无关。图5的模块148及150的功能可在模块274内体现。

多路复用器266在输出268处将相应的编码信息多路复用成为数据流。

图13的音频解码器能在如由图12的编码器所输出的数据流上操作。换 言之,模块280被配置为接收数据流,及归类数据流内帧成为例如活动帧、 SID帧及零帧,即,数据流不含任何帧。活动帧被转发至核心解码器92、 QMF分析滤波器组282及频谱带宽扩展模块284的级联。选择性地,噪声估 算器286连接至QMF分析滤波器组的输出。噪声估算器286的操作类似例如 图3的背景噪声估算器90且负责背景噪声估算器90的功能性,但噪声估算 器在未经整形的频谱上操作而非激励频谱。模块92、282及284的级联连接 至QMF合成滤波器组288的输入端。SID帧被转发至SID帧解码器290,其 例如负责图3的背景噪声产生器96的功能性。舒适噪声产生参数更新器292 通过来自解码器290及噪声估算器286的信息馈给,该更新器292操纵随机 产生器294,随机产生器294负责图3的参数随机产生器功能性。因遗漏不 活动帧或零帧,故无需转发至任何处所,反而触发随机产生器294的另一 随机产生循环。随机产生器294的输出被连接至QMF合成滤波器组288,其 输出显示无声的重建音频信号及时域的活动阶段。

如此,在活动阶段期间,核心解码器92重建音频信号的低频部分,包 括噪声成分及有用信号二成分。QMF分析滤波器组282频谱分解重建信号, 频谱带宽扩展模块284分别地使用数据流及活动帧内的频谱带宽扩展信息 来加上高频部分。噪声估算器286若存在时基于如通过核心解码器重建的 频谱部,即,低频部执行噪声估算。在非活动阶段中,SID帧传递信息, 该信息描述在编码器端由噪声估算器262所导出的背景噪声估计值。参数 更新器292主要使用编码器信息来更新其参数背景噪声估计值,在有关SID 帧传输损耗的情况下,使用由噪声估算器286所提供的信息主要作为后退 位置(fallback position)。QMF合成滤波器组288变换在活动阶段由频谱带 宽扩展模块284所输出的频谱分解信号及在时域的舒适噪声产生信号频 谱。因此,图12和图13清楚地示出QMF滤波器组框架可用作为以QMF为 主的舒适噪声产生的基础。QMF框架提供方便方式来在编码器重新取样输 入信号缩减至核心编码器的取样率,或运用QMF合成滤波器组288在解码 器端向上取样核心解码器92的核心解码器输出信号。同时,QMF框架也可 组合带宽扩展来提取及处理由核心编码器14及核心解码器92两个模块所 留下的信号的频率成分。据此,QMF滤波器组可对各种信号处理工具提供 共享框架。根据图12和图13的实施方式,舒适噪声产生成功地包含在此框 架内。

更具体地,根据图12和图13的实施方式,可知,在QMF分析后可能在 解码器端产生舒适噪声,但在QMF分析前,通过施加随机产生器294来激 励例如QMF合成滤波器组288的各个QMF系数的实数部分及虚数部分。随 机序列的幅值为例如在各个QMF带计算,使得产生舒适噪声的频谱类似实 际输入背景噪声信号的频谱。这可在编码端在QMF分析后使用噪声估算器 而在各个QMF带达成。然后这些参数可经由SID帧传输来更新在解码器侧, 在各个QMF带施加的随机序列的幅值。

理想地,注意施加于编码器端的噪声估算器262应可在不活动(即, 只有噪音)及活动周期(典型地含有嘈杂语音)二者期间操作,使得在各 个活动周期结束后即刻更新舒适噪声参数。此外,噪声估算也可用在解码 器侧。因在以DTX为基础的编码/解码系统中抛弃只有噪音的帧,在解码 器端的噪声估算有利地能够对嘈杂语音内容操作。除了编码器端之外,在 解码器端执行噪声估算的优点是舒适噪声的频谱形状可被更新,即便后一 段活动周期后,第一个SID帧封包从编码器传输至解码器失败也是如此。

噪声估算须能准确地且快速地遵循背景噪声的频谱内容变化,及理想 上,如前记,在活动及不活动二帧期间须能执行。达成此项目标的一个方 式如在[R.Martin,Noise Power Spectral Density Estimation Based on  Optimal Smoothing and Minimum Statistics,2001(R.Martin,基于最佳平滑 化及最小统计数据之噪声功率频谱密度估计,2001)]中所提出的,使用 有限长度的滑动窗追踪通过功率频谱在各带取最小值。其背后的构思是嘈 杂语音频谱的功率经常地衰减至背景噪声的功率,例如在各字间或在各音 节间。追踪功率频谱的最小值因而提供在各频带中的固有噪声位准(noise  floor)的估计值,即便于语音活动期间也是如此。然而,通常这些固有噪 声位准被低估。此外,不允许捕捉频谱功率的快速起伏,特别在能量突增 时尤为如此。

然而,在各频带中如前述计算的固有噪声位准提供极为有用的侧边信 息来施加噪声估算的第二阶段。实际上,发明人可预期噪声频谱的功率接 近在不活动期间估算的固有噪声位准,而频谱功率将远高于活动期间的固 有噪声位准。因此在各频带分开计算的固有噪声位准可用作为各频带的粗 略活动检测器。基于该知识,容易估计背景噪声功率为功率频谱的递归地 平滑化版本,如下: σN2(m,k)=β(m,k)·σN2(m-1,k)+(1-β(m,k))·σx2(m,k),

其中σx2(m,k)表示在帧m及频带k的功率频谱密度,σN2(m,k)表示噪声 功率估计值,及β(m,k)为忘记因子(需为0至1),分开地控制各频带及 各帧的平滑因子。使用固有噪声位准信息来反映活动状态,在不活动周期 期间须为小值(即,此时功率频谱接近固有噪声位准),而在活动帧期间, 须选用高值来施加更多平滑化(理想上保持σN2(m,k)为常数)。为了达成此, 通过如下计算忘记因子可做出软性确定:

β(m,k)=1-e-α(σx2(m,k)σNF2(m,k)-1),

其中,σNF2为固有噪声功率位准及α为控制参数。α的较高值导致较大 忘记因子,因而造成总体更平滑。

由此,已经描述舒适噪声产生(CNG)构想,其中,人工噪声在变换 域在解码器端产生。前述实施方式可组合将时域信号分解成多个频谱带的 实质上任何类型的频-时分析工具(即,变换或滤波器组)应用。

再次,须注意单独使用频谱域提供背景噪声的更精确估计值,并不使 用前述在活动阶段期间连续地更新该估计值的可能性而达成优点。据此, 据此若干额外实施方式与前述实施方式的差异在于不使用连续地更新该 参数背景噪声估计值的该特征。但这些其它实施方式利用频谱域来参数地 确定该噪声估计值。

因此,在另一实施方式中,背景噪声估算器12可被配置为基于输入音 频信号的频谱分解表示型态而确定参数背景噪声估计值,使得该参数背景 噪声估计值频谱地描述该输入音频信号的背景噪声的频谱波封。该确定可 始于进入非活动阶段时,或可共同运用前述优势,及可在活动阶段期间连 续地执行确定来更新该估计值供当进入非活动阶段时即刻使用。编码器14 在活动阶段期间将该输入音频信号编码成数据流,及检测器16可被配置为 基于该输入信号而检测在活动阶段后进入非活动阶段。编码器进一步可被 配置为将该参数背景噪声估计值编码成数据流。背景噪声估算器可被配置 为执行在活动阶段确定该参数背景噪声估计值,区别在该输入音频信号的 频谱分解表示型态内部的噪声成分及有用信号成分,及只从该噪声成分确 定该参数背景噪声估计值。在另一个实施方式中,编码器可被配置为在编 码该输入音频信号中,将该输入音频信号预测地编码成线性预测系数及激 励信号,及变换编码该激励信号的频谱分解,及将该线性预测系数编码成 数据流,其中该背景噪声估算器被配置为在确定该参数背景噪声估计值 时,使用该激励信号的频谱分解作为该输入音频信号的频谱分解表示型 态。

此外,背景噪声估算器可被配置为识别该激励信号的频谱表示型态中 的局部最小值,及使用作为支撑点的所识别的局部最小值之间的内插来估 计该输入音频信号的背景噪声的频谱波封。

在又一个实施方式中,一种用来解码数据流以从其中重建音频信号的 音频解码器,该数据流包含至少一个活动阶段,在所述活动阶段之后接着 为一个非活动阶段。该音频解码器包含背景噪声估算器90,其被配置为基 于从数据流的该输入音频信号获得的频谱分解表示型态而确定参数背景 噪声估计值,从而使得该参数背景噪声估计值频谱描述输入音频信号的背 景噪声的频谱波封。解码器92可以被配置为在该活动阶段期间从数据流重 建音频信号。参数随机产生器94及背景噪声产生器96可被配置为在非活动 阶段期间,利用该参数背景噪声估计值通过控制该参数随机产生器而在非 活动阶段期间重建该音频信号。

根据另一实施方式,背景噪声估算器可被配置为在活动阶段中执行确 定参数背景噪声估计值定,并区别输入音频信号的频谱分解表示型态内的 噪声成分和有用信号成分,及仅从该噪声成分中确定参数背景噪声估计 值。

在又一个实施方式中,解码器可被配置为在从数据流重建该音频信号 中,根据也已被编码为数据的线性预测系数而施加整形已被变换编码成数 据流的激励信号的频谱分解。该背景噪声估算器可进一步被配置为在确定 参数背景噪声估计值中,使用激励信号的频谱分解作为输入音频信号的频 谱分解表示型态。

根据又一实施方式,背景噪声估算器可被配置为识别所述激励信号的 频谱表示型态中的局部最小值,及使用作为支撑点的所识别的局部最小值 之间的内插来估计所述输入音频信号的背景噪声的所述频谱波封。

因此,前述实施方式描述以TCX为基础的CNG,其中,基本舒适噪声 产生器采用随机脉冲来模型化残差。

尽管以装置的上下文描述了一些方面,但清楚的是这些方面也表示对 应的方法的描述,其中,模块或装置对应于方法步骤或方法步骤的特征。 同理,以方法步骤的上下文描述的方面也表示对应装置的对应模块或项或 特征的描述。部分或全部方法步骤可通过(或使用)硬件设备例如微处理 器、可编程计算机或电子电路执行。在一些实施方式中,最重要的方法步 骤的某一步或多步可通过这样的装置执行。

根据某些实施的要求,本发明的实施方式可以硬件或软件来实施。所 述实施可以使用具有存储在其上的电可读信号的数字存储介质,例如软 盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存来执行,所述 控制信号与(或可与)可编程计算机系统协作,从而执行相应的方法。因 而,所述数字存储介质可以是计算机可读的。

根据本发明的一些实施方式包含具有电可读控制信号的数据载体,所 述控制信号可与可可编程计算机系统协作,从而执行本文所述方法中的一 种。

通常,本发明的实施方式可实施为具有程序代码的计算机程序产品, 该程序代码当计算机程序产品在计算机上运行时可执行所述方法中的一 种。该程序代码例如可存储在机器可读载体上。

其它实施方式包含存储在机器可读载体上的用以执行本文所述方法 中的一种的计算机程序。

换言之,本发明方法实施方式因此为一种具有程序代码计算机程序, 该程序代码当该计算机程序在计算机上运行时用以执行本文所述方法中 的一种。

因此,本发明方法的又一实施方式为数据载体(或数字存储介质或计 算机可读介质)包含记录在其上的用以执行本文所述方法中的一种的计算 机程序。数据载体、数字存储介质或记录介质通常为具体有形和/或非过渡 的。

因此,本发明方法的又一实施方式为表示用以执行本文所述方法中的 一种的计算机程序的数据流或信号序列。数据流或信号序列例如可被配置 为经由数据通信连接,例如经由因特网来传输。

又一实施方式包含处理装置,例如计算机或可编程逻辑装置,其被配 置为或适用于执行本文所述方法中的一种。

又一实施方式包括计算机,具有安装在其上的用来执行本文所述方法 中的一种的计算机程序。

根据本发明的又一实施方式包含被配置为向接收器传输(例如,电学 地或光学地)用来执行本文所述方法中的一种的计算机程序的装置或系 统。接收器例如可以是计算机、移动设备、存储设备等。装置或系统包含 用将计算机程序传输至接收器的文档服务器。

在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可 用来执行本文所述的方法的一些或全部功能。在一些实施方式中,现场可 编程门阵列可与微处理器协作来执行本文所述方法中的一种。通常,所述 方法优选由任意硬件装置来执行。

前述实施方式仅示出了本发明的原理。应该理解,本文所描述的设置 和细节的变形和修改对本领域技术人员来说是显而易见。因此,意在仅受 所附专利权利要求的范围的限制而不受通过本文的实施方式的描述和说 明的方式表示的具体细节的限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号