首页> 中国专利> 用于避免削波假象的设备、方法和计算机程序

用于避免削波假象的设备、方法和计算机程序

摘要

一种音频编码设备,包括:用于编码待编码的输入音频信号的时间段以获得相应的所编码的信号段的编码器。该音频编码设备进一步包括用于将所编码的信号段解码以获得重新解码的信号段的解码器。削波检测器被设置用于相对于实际的信号削波或可感知的信号削波中的至少一个分析重新解码的信号段,并且用于生成相应的削波警报。该编码器进一步被配置为响应于削波警报利用产生减小的削波概率的至少一个修改的编码参数再次编码音频信号的时间段。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-01

    授权

    授权

  • 2016-01-13

    著录事项变更 IPC(主分类):G10L25/69 变更前: 变更后: 申请日:20121214

    著录事项变更

  • 2014-10-29

    实质审查的生效 IPC(主分类):G10L25/69 申请日:20121214

    实质审查的生效

  • 2014-10-01

    公开

    公开

说明书

背景技术

在当前的音频内容制造与传送链中,在数字上可用的主要内容(PCM 流)在内容创建网站例如由专业的AAC编码器编码。然后,使所产生的 AAC位流可用于例如通过苹果iTunes音乐商店购买。似乎在罕见的情况 下,一些解码的PCM样本是“削波”,这意味着两个或多个连续的样本达 到可由用于输出波形的均匀量化的固定点表示(PCM)的基本位分辨率(例 如,16位)表示的最大电平。这可能导致听觉假象(artifact)(点击或短 失真)。由于这发生在解码器侧,所以在内容已被传送之后没有方法解决 该问题。在解码器侧上处理该问题的唯一方法是为解码器创建插件,提供 防削波功能。在技术上,这意味着子带中的能量分布的修改(然而,仅仅 在正向模式上,即,不存在考虑心理声学模型的迭代循环)。假设编码器 的输入的音频信号低于削波的阈值,在现代可感知的音频编码器中削波的 原因是多方面的。首先,音频编码器对输入波形的频率分解中可获得的传 输信号应用量化,以减小传输数据速率。频域中的量化误差导致信号的振 幅和相位相对于原始波形产生小偏差。如果振幅或相位误差建设性地相 加,那么在时域中所产生的振幅可暂时高于原始波形。其次,参数编码方 法(例如,谱带复制SBR)以相当错略的方式将信号功率参数化。忽略了 相位信息。因此,接收器侧上的信号仅利用正确的功率再生,而没有波形 保留(preservation)。振幅接近全尺度的信号易于削波。

由于在压缩的位流表示中,频率分解的动态范围比典型的16位PCM 范围大得多,所以位流可承载更高的信号电平。因此,在解码器的输出信 号被转换(及限制)为固定点PCM表示时,仅出现实际的削波。

人们期望通过向解码器提供没有表现削波的编码信号来避免削波在 解码器上发生。换言之,如果解码器可执行标准的解码,而不必相对于削 波预防来处理信号,那么这是期望的。尤其地,现在已经部署了多种解码 器,并且这些解码器为了受益于解码器侧削波预防不得不进行升级。而且, 一旦已经发生削波(即,已经按照易于发生削波的方式编码了待要编码的 音频信号),一些信息就不可恢复地丢失,使得即使支持削波预防的编码 器可能必须在先前和/或随后的信号部分基础上借助于外插或内插削波信 号部分。

发明内容

根据一个实施方式,提供了一种音频编码设备。该音频编码设备包括: 编码器、解码器以及削波检测器。编码器适合于编码待编码的输入音频信 号的时间段,以获得相应的所编码的信号段。解码器适合于解码所编码的 信号段,以获得重新解码的信号段。削波检测器适合于相对于实际的信号 削波或可感知的信号削波中的至少一个分析重新解码的信号段。削波检测 器还适合于生成相应的削波警报。该编码器进一步被配置为响应于削波警 报,利用产生减小的削波概率的至少一个修改的编码参数再次编码音频信 号的时间段。

在进一步的实施方式中,提供了一种用于音频编码的方法。该方法包 括:编码待编码的输入音频信号的时间段,以获得相应的所编码的信号段。 该方法进一步包括解码所编码的信号段以获得重新解码的信号段。相对于 实际或可感知的信号削波中的至少一个分析重新解码的信号段。在所分析 的重新解码的信号段内检测实际或可感知的信号削波的情况下,生成相应 的削波警报。根据削波警报,利用产生减小的削波概率的至少一个修改的 编码参数来重复时间段的编码。

进一步的实施方式提供了一种用于在计算机或信号处理器上执行时 实现上述方法的计算机程序。

本发明的实施方式基于以下洞察力:相对于潜在的削波问题的每个编 码的时间段可几乎立即通过再次解码时间段验证。解码与编码相比显著减 少了计算复杂度。因此,由额外解码造成的处理负荷一般是可以接受的。 由额外解码引入的延迟通常也是可以接受的,例如,用于流媒体应用程序 (例如,互联网广播)。只要时间段的重复编码是没必要的,即,只要在 输入音频信号的重新解码的时间段中未检测到任何潜在的削波,该延迟大 约为一个时间段,或者略微大于一个时间段。由于在时间段中已经识别了 潜在的削波问题,所以在必须再次编码时间段的情况下,该延迟增大。然 而,应预期和考虑典型的最大延迟通常还比较短。

附图说明

在下文中描述本发明的优选实施方式,其中:

图1示出了根据本发明的至少一些实施方式的音频编码设备的示意 性方框图;

图2示出了根据本发明的进一步实施方式的音频编码设备的示意性 方框图;

图3示出了根据本发明的至少一些实施方式的用于音频编码的方法 的示意性流程图;

图4示意性示出了在频域中通过修改将最大能量贡献给由解码器输 出的整个信号的频率范围进行削波预防的概念;以及

图5示意性示出了在频域中通过修改在感知上最不相关的频率范围 进行削波预防的概念。

具体实施方式

如上所述,在现代感知的音频编码器中削波的原因是多方面的。即使 当我们假设在编码器的输入上的音频信号低于削波的阈值时,所解码的信 号依然可显示削波行为。为了减小传输数据速率,音频编码器对输入波形 的频率分解中获得的传输信号应用量化。频域中的量化误差解码信号的振 幅和相位相对于原始波形小的偏差。在原始信号与解码信号之间的差值的 另一个可能的起因可能为参数编码方法(例如,谱带复制SBR)以相当粗 糙的方式将信号功率参数化。因此,在接收器侧上的解码信号进利用正确 的功率再生,而没有波形保留。振幅接近全尺度的信号易于削波。

该问题新的解决方法是将编码器和解码器组合成“编码解码器”系统, 该系统通过消除上述“削波”的方式在每段/帧基础上自动调整编码处理。 该新系统由编码器和解码器组成,编码器编码位流,并且在输出该位流之 前,解码器不断地并行解码该位流,以监控是否发生任何“削波”。如果 发生这种削波,那么解码器将触发编码器,以利用不同的参数执行该段/ 帧(或者几个连续帧)的重新编码,使得不再发生任何削波。

图1示出了根据实施方式的音频编码设备100的示意性方框图。图1 还示意性示出了网络160和接收端的解码器170。音频编码设备100被配 置为接收原始音频信号,具体地,输入音频信号的时间段。例如,可以通 过脉冲编码调制(PCM)格式提供原始音频信号,但是原始音频信号的其 他表示也是可行的。音频编码设备100包括编码器122,用于编码时间段 并且产生相应的所编码的信号段。由编码器122执行的时间段的编码可以 基于音频编码算法进行,通常具有减少存储或传输音频信号所需要的数据 量的目的。时间段可与原始音频信号的帧对应,与原始音频信号的“窗口” 对应,与原始音频信号的块(block)对应,或者与原始音频信号的另一个 时间部分对应。两个或多个段可彼此重叠。

通常经由网络160将编码的信号段发送给接收端的解码器170。解码 器170被配置为将所接收的编码信号段解码并且提供相应的解码信号段, 然后,该信号段被传送以进一步处理,例如,数字音频转换、放大,并且 传递给输出装置(扬声器、耳机等)。

除了用于连接音频编码设备100和网络160的网络接口以外,编码器 122的输出还连接至解码器132的输入。解码器132被配置为将编码的信 号段解码并且生成相应的重新解码的信号段。理想地,重新解码的信号段 应与原始信号的时间段相同。然而,由于编码器122可被配置为大幅减少 数据量,并且还由于其他原因,重新解码的信号段可能与输入的音频信号 的时间段不同。在大部分情况下,这些差别难以察觉,但是在某些情况下, 这些差别可在重新解码的信号段内造成听觉干扰,尤其在由重新解码的信 号段表示的音频信号显示削波行为时。

削波检测器142连接至解码器132的输出。在削波检测器132发现重 新解码的音频信号包含可解释为削波的一个或多个样本的情况下,削波检 测器经由虚线绘制的连接向编码器122发出削波警告,该警告使编码器 122再次将原始音频信号的时间段编码,但是这次,利用至少一个修改的 编码参数来编码,例如,减小的总增益或其中与先前使用的频率加权相比 频率范围或频带的至少一个衰减的修改的频率加权。编码器122输出取代 先前编码的信号段的第二编码的信号段。通过网络160传输先前编码的信 号段可以被延迟,直到削波检测器142已经分析相应的重新解码的信号段 并且未发现任何潜在的削波。通过这种方式,仅将相对于潜在削波的发生 已经被验证的编码的信号段发送给接收端。

可选地,解码器132或削波检测器142将评估这种削波的可听性。在 削波的效果低于可听性的某个阈值时,解码器继续,而不进行修改。以下 改变参数的方法可行:

·简单方法:在编码器输入级,通过避免在解码器的输出上的削波的 恒定频率独立因素略微减小该段/帧(或者几个连续的帧)的增益。 根据信号特性可在每个帧内调整增益。必要时,可通过减小的增 益进行一个或多个迭代,因为这并不确定在编码器输入处的电平 的减小会始终造成在解码器输出处的电平减小:根据具体情况, 编码器可能选择相对于削波具有不利影响的不同量化步骤。

·先进方法#1:在将最大能量贡献给整个信号或者频率在感知上是最 不相关的那些频率范围内,在频域重新执行量化。如果由量化误 差造成削波,两种方法是合适的:

a)修改量化器内的舍入方式(rounding procedure),以在被认 为最有助于削波问题的频带内对承载最高功率贡献的频率系数选择 较小的量化阈值;

b)在某个频带内增大量化精度,以减少量化误差的量;

c)重复步骤a)和b),直到在编码器中确定削波自由行为 (clipping free behavior)。

·先进方法#2(该方法与基于OFDM(正交频分复用)的系统中波峰 因数减小方法相似):

a)引入所有子带/或其子集的振幅和相位小的(听不清的)变 化,以减小峰值振幅;

b)评估所引入的修改的可听性;

c)在时域中检查峰值振幅的减小;

d)重复步骤a)到c),直到时间信号的峰值振幅小于所需阈值。

根据所提出的音频编码设备的一个方面,为该问题提供了一种“自动” 解决方法,其中,不再需要人机交互来防止发生上述误差发生。不是减小 完整的信号的总响度,而是仅减小较短的信号段的响度,限制完整信号的 总响度的变化。

图2示出了根据进一步可能的实施方式的音频编码设备200的示意性 方框图。音频编码设备200与在图1中示意性示出的音频编码设备100相 似。除了在图1中示出的元件以外,在图2中的音频编码设备200还包括 分段器112、音频信号段缓冲器152、以及编码段缓冲器154。分段器142 被配置为将输入的原始音频信号分割成时间段。将单个的时间段提供给编 码器122,并且还提供给音频信号段缓冲器152,该音频信号段缓冲器152 被配置为暂时存储目前由编码器122处理的一个或多个时间段。在分段器 142的输出与编码器122和音频信号缓冲器152的输入之间互连的是选择 器116,该选择器116被配置为选择由分段器142提供的时间段或者由音 频信号段缓冲器提供的存储的先前时间段提供给编码器122的输入。由削 波检测器142发出的控制信号控制选择器116,以便在重新编码的信号段 显示潜在的削波行为的情况下,选择器116选择音频信号段缓冲器152的 输出,以便使用至少一个修改的编码参数再次将先前的时间段解码。

编码器122的输出连接至解码器132的输入(与在图1中示意性显示 的音频编码设备100的情况一样),并且还连接至编码段缓冲器154的输 入。编码段缓冲器154被配置为暂时存储经编码的信号段,直到由解码器 132对编码的信号段进行解码并且由削波检测器142执行削波分析完成。 音频编码设备200进一步包括开关156或释放元件,该元件将编码段缓冲 器154的输出和音频编码设备200的网络接口相连。由削波检测器142发 出的另一控制信号控制开关156。另一控制信号可与用于控制选择器116 的控制信号相同,或者另一控制信号可从所述控制信号导出,或者控制信 号可从另一控制信号导出。

换言之,在图2中的音频编码设备200可包括用于分割输入音频信号 以获得至少时间段的分段器112。音频编码设备可进一步包括音频信号段 缓冲器152,当时间段被编码器编码并且相应的编码信号段被解码器重新 解码时用于缓冲输入音频信号的时间段作为缓冲段。削波警报可有条件地 促使输入音频信号的缓冲段再次馈送给编码器,以便利用至少一个修改的 编码参数编码。音频编码设备可进一步包括用于编码器的输入选择器,该 选择器被配置为从削波检测器142中接收控制信号并且根据所述控制信号 选择时间段和缓冲段中的一个。因此,根据一些实施方式,选择器116还 可为编码器122的一部分。音频编码设备可进一步包括编码段缓冲器154, 用于在编码的信号段被音频编码设备输出之前,在编码的信号段被解码器 132重新解码时缓冲该编码的信号段,以便该编码的信号段可被已经利用 至少一个修改的编码参数来编码的潜在随后编码的信号段取代。

图3示出了用于进行音频编码的方法的示意性流程图,包括编码待编 码的输入音频信号的时间段的步骤31。作为步骤31的结果,获得相应的 编码信号段。仍然在传输端,在该方法的步骤32中,再次将编码的信号 段解码,以便获得重新编码的信号段。相对于实际的或可感知的信号削波 中的至少一个分析重新解码的信号段,如在步骤34中示意性所示。该方 法还包括步骤36,在步骤34中已经发现重新解码的信号段包含一个或多 个潜在地削波音频样本的情况下,在步骤36中生成相应的削波警报。在 该方法的步骤38中,根据削波警报,利用至少一个修改的编码参数,重 复将输入音频信号的时间段编码,以减小削波概率。

该方法可进一步包括分割输入音频信号,以获得输入音频信号的至少 时间段。该方法可进一步包括在时间段被编码和重新解码相应的编码的时 间段的同时缓冲输入音频信号的时间段作为缓冲段。然后,在削波检测已 经表明削波的概率大于某个阈值的情况下,可利用至少一个修改的编码参 数有条件地将缓冲段编码。

该方法可进一步包括编码的时间段被重新解码的同时并且在编码的 时间段被输出之前将编码的时间段缓冲,以便编码的时间段可被利用至少 一个修改的编码参数再次对时间段编码产生的潜在随后编码的信号段取 代。重复编码的动作可包括由编码器将总增益施加于时间段中,其中,根 据修改的编码参数来确定总增益。

重复编码的动作可包括在至少一个所选择的频率范围内在频域执行 重新量化。该至少一个所选择的频率范围可将最大能量贡献在整个信号或 者在感知上是最不相关的。根据用于进行音频编码的方法的进一步实施方 式,所述至少一个修改的编码参数在编码的量化动作中造成舍入方式的修 改。可以对承载最高的功率贡献的频率范围修改舍入方式。

可以通过选择更小的量化阈值和增大量化精度中的至少一个来修改 舍入方式。该方法可进一步包括将振幅和相位中的至少一个小变化引入至 少一个频域范围,以减小峰值振幅。可替代地或附加地,可评估所引入的 修改的可听性。该方法可进一步包括用于在时域中检查峰值振幅的减小的 关于解码器的输出的峰值振幅确定。该方法可进一步包括振幅和相位中的 至少一个的小变化的引入的重复并且在时域中检查峰值振幅的减小,直到 峰值振幅小于所需阈值。

图4示意性示出了根据一些实施方式的信号段的频域表示和至少一 个修改的编码参数的效果。信号段在频域中由五个频带表示。要注意的是, 这仅仅是一个说明性实例,因而频带的实际数量可不同。而且,例如,单 个频带不必具有相等的带宽,但是随着频率的增大可具有更大的带宽。在 图4中示意性显示的实例中,在频率f2和f3之间的频率范围或频带是在附 近的信号段中具有最高振幅和/或功率的频带。假设削波检测器142已经发 现,如果经编码的信号段照原来的样子传输给接收端并且在接收端上通过 解码器170解码,则具有削波的可能。因此,根据一个策略,具有最高的 信号振幅/功率的频率范围减小一定量,如在图4中由阴影部分以及向下的 箭头所示。虽然信号段的这种修改可略微改变最终的输出音频信号,但是 与原始音频信号相比,比削波事件更难听到(尤其没有与原始音频信号进 行直接比较)。

图5示意性示出了根据一些可替代的实施方式的信号段的频域表示 和至少一个修改的编码参数的效果。在这种情况下,最强的频率范围并非 仅在重复编码音频信号段之前经受修改,而且,该频率范围(例如)根据 心理声学理论或模型被感知为最不重要。在所显示的情况下,频率f3和f4之间的频率范围/频带紧接着f2和f3之间的较强的频率范围/频带。因此,f3和f4之间的频率范围通常被视为由包含显著较高的信号贡献的相邻的两 个频率范围掩盖。然而,f3和f4之间的频率范围可造成在解码的信号段中 发生削波事件。通过减小f3和f4之间的掩盖的频率范围的信号振幅/功率, 削波概率可降低到期望阈值以下,倾听者未过度听到或感知到该修改。

虽然在设备的背景中已经描述了一些方面,但是显然,这些方面还表 示相应方法的说明,其中,方框或装置与方法步骤或方法步骤的特征对应。 同样,在方法步骤的背景中描述的方面还表示相应设备的相应单元或项目 或特征的说明。

本发明的分解信号可存储在数字存储介质上或者可在诸如无线传输 介质或有线传输介质(例如,互联网)上传输。

根据某些实施方式要求,本发明的实施方式可在硬件中或在软件中实 现。可利用具有存储在其上的电子可读控制信号的数字存储介质,例如, 软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,执行该 实施方式,这些电子可读的控制信号与可编程的计算机系统配合(或者能 够与其配合)以执行各个方法。

根据本发明的一些实施方式包括具有电子可读控制信号的非暂存性 数据载体,这些电子可读的控制信号能够与可编程的计算机系统配合,以 便执行在本文中描述的一种方法。

通常,本发明的实施方式可实现为具有程序代码的计算机程序产品, 该程序代码可被操作为当计算机程序产品运行计算机上时执行一种方法。 该程序代码可例如存储在机器可读载体上。

其他实施方式包括存储在机器可读载体上的、用于执行本文描述的一 种方法的计算机程序。

换言之,因此,当计算机程序产品运行在计算机上时,本发明方法的 实施方式是具有用于执行本文所描述的一种方法的程序代码的计算机程 序。

因此,本发明方法的进一步实施方式是数据载体(或数字存储介质或 计算机可读介质),该数据载体包括在其上记录的用于执行本文中描述的 一种方法的计算机程序。

因此,本发明方法的进一步实施方式是表示用于执行本文中描述的一 种方法的计算机程序的数据流或信号序列。该数据流或信号序列例如可被 配置为通过数据通信连接(例如,通过互联网)被传输。

进一步实施方式包括处理设备,例如,计算机或可编程逻辑装置,该 处理设备被配置为或者适配于执行本文中描述的一种方法。

进一步实施方式包括计算机,该计算机具有在其上安装的用于执行本 文描述的一种方法的计算机程序。

在一些实施方式中,可编程逻辑装置(例如,现场可编程门阵列)可 用于执行本文中描述的方法的一些或所有功能。在一些实施方式中,现场 可编程门阵列可与微处理器配合以执行本文中描述的一种方法。通常,这 些方法优选地由任何硬件设备执行。

上述实施方式仅仅说明本发明的原理。要理解的是,对于本领域的技 术人员来说,本文中描述的配置和细节的修改和变化将是显而易见的。因 此,其目的在于,仅仅受到未决专利权利要求的范围的限制,而不受以本 文。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号