首页> 中国专利> 音频录音的自适应动态范围增强

音频录音的自适应动态范围增强

摘要

本发明涉及音频录音的自适应动态范围增强。提供用于调节音频信号的方法和装置。根据本发明的一个方面,提供一种用于调节音频信号的方法,该方法包括以下的步骤:接收至少一个音频信号,每个音频信号具有至少一个通道,每个通道在时间序列上被分成多个帧;对于多个连续时间段计算音频信号的动态偏移的至少一个测量值;将音频信号滤波成多个子带,每个帧由至少一个子带代表;从连续时间段导出动态增益因子;分析帧的至少一个子带以确定是否在帧中存在瞬态;和向具有瞬态的每个帧施加动态增益因子。

著录项

  • 公开/公告号CN102668374A

    专利类型发明专利

  • 公开/公告日2012-09-12

    原文格式PDF

  • 申请/专利权人 DTS(英属维尔京群岛)有限公司;

    申请/专利号CN201080053361.2

  • 发明设计人 M·维尔什;E·斯特因;J-M·卓特;

    申请日2010-10-08

  • 分类号H03G7/00(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人李玲

  • 地址 英属维尔京群岛托尔托拉岛

  • 入库时间 2023-12-18 06:28:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-09-09

    授权

    授权

  • 2012-11-07

    实质审查的生效 IPC(主分类):H03G7/00 申请日:20101008

    实质审查的生效

  • 2012-09-12

    公开

    公开

说明书

相关申请的交叉引用

本发明要求发明人Walsh等在2009年10月9日提交的发明名称 为ADAPTIVE DYNAMIC RANGE ENHANCEMENT OF AUDIO  RECORDINGS、序列号为61/250,320的美国临时专利申请,和发明 人Walsh等在2010年9月10日提交的发明名称为ADAPTIVE  DYNAMIC RANGE ENHANCEMENT、序列号为61/381,860的美国 临时专利申请的优先权,在此引入序列号为61/217,562和61/381,860 美国临时专利申请为作为参考。

关于联邦资助研究/开发的声明

不适用

技术领域

本发明一般涉及音频信号处理,更特别地,涉及通过恢复或强调 音频流和录音的动态范围来增强它们。

背景技术

遵照格言“声音越大越好”,在唱片业中以更高水平的响度灌录 (master)和发行唱片成为一般惯例。伴随诸如CD的数字媒体格式 的出现,用通过可用于代表编码信号的比特数限定的最大峰值电平将 音乐编码。在达到CD的最大振幅时,通过诸如多频带动态范围压缩、 峰值限制和均衡化的信号处理技术,仍可进一步增加响度感知。通过 使用这种数字灌录工具,录音师可通过压缩瞬态峰值(诸如鼓击)并 增加得到的信号的增益使平均信号电平最大化。极度使用动态范围压 缩可将削波和其它可听到的畸变引入到录音的波形中。使用这种极度 动态范围压缩的现代唱片集因此以牺牲音乐再现的质量来得到响度。 增加音乐发行物的响度以匹配竞争发行物的实践可具有两种效果。由 于存在可用于录音的最大响度级(与响度受回放扬声器和放大器限制 的回放相反),提升歌曲或音轨的总响度最终产生从开始到结束最大 并且均匀地响亮的片段。这产生具有小的动态范围(在大声部分和安 静部分存在很小的差异)的音乐,这种效果常常被视为艺术家创作表 现的疲劳和空白。

另一可能的效果是畸变。在数字领域中,它通常被称为削波。数 字媒体不能输出比数字满刻度高的信号,因此不管信号的峰值什么时 候被按过该点,这都导致变得被削波的波形。当出现这种情况时,它 有时可产生可听的卡嗒声。但是,类似鼓击的某些声音将仅对于非常 短的时间达到它们的峰值,并且,如果该峰值远比信号的其余部分声 音大,那么该卡嗒声将不被听到。在许多的情况下,鼓击的峰值被削 波,但是它不被随意的收听者检测到。

图1a和图1b提供有害的灌录技术的视觉呈现。图1a和图1b所 示的音频录音波形代表原始灌录音轨和已经通过使用不同的技术灌录 的同一版本的音轨。图1a表示原始录音,大量峰值的存在表示代表存 在于原始性能中的各种类型的力度(dynamics)的高动态范围。由于 诸如鼓击的某些敲击节拍听起来将是有力并且清楚的,因此该录音提 供振动收听体验。相反,在图1b中示出的录音被重新灌录以用于更大 声的商业CD发行。存在于原始录音中的大多数峰值被压缩或者甚至 被削波,并且,作为结果,录音的动态范围已经受损。在商业音乐的 灌录阶段越来越侵略性地使用动态范围压缩已经产生大量来自消费 者、制作者和艺术家的强烈反对。

音频行业为解决该问题所讨论的方法集中于讨论处于问题本源的 灌录技术。在Bob Katz.的Mastering Audio,Second Edition:The Art  and the Science中描述了这样的一个例子。Katz描述了如何可通过使 用处理信号的校准监视以及使用更多适度的压缩参数在不使最终的结 果畸变的情况下对于响度灌录唱片。而大多数的灌录工程师会同意, Katz的方法常常被播音室管理的需求取代。即使更保守的灌录技术变 为新的标准,它也解决不了已被灌录并分发给最终用户的现有录音的 主要部分的问题。

用于修改音频录音的力度的现有处理技术在现有技术中是已知 的。一种这种处理是响度调平(leveling),其中经受不同程度动态范 围压缩的音频材料的觉察响度之间的差值被归一化为某预定水平。但 是,这些方法被用于将从各种源播放的连续音轨的平均响度归一化, 并且不进行任何尝试以恢复过度动态范围压缩内容的动态范围。作为 结果,当在更低的规定收听级别上被播放时,压缩媒体可更加不发出 动态表现的声音。

另一已知的技术是,如在授权给Bench的发明名称为Dynamic  Expander的美国专利No.3,978,423中描述的那样,应用向上扩展器 (upward expander)。向上扩展器根据固定“扩展曲线”向音频信 号施加时间变化增益,由此输出信号电平比高于选择的阈值的输入电 平大。作为结果,源信号的较大声音部分的振幅增加。但是,这可在 输出信号中导致具有过分强调的瞬态的原本动态的声道(sound  track)。

另一已知的技术是当检测到瞬态时提升较低和较高频带的动态谱 均衡化。作为结果,产生更动态的输出。在以下的文献中描述了动态 谱均衡化:X Rodet,F Jaillet,Detection and Modeling of Fast Attack  Transients(2001),Proceedings of the International Computer Music  Conference;授权给Goodwin等的发明名称为Transient Detection and  Modification in Audio Signals的美国专利No.7,353,169;和授权给 Avendano等的发明名称为Method for Enhancing Audio Signals的美 国专利申请No.11/744,465。与前面的方法不同,这些动态增强技术专 门地影响信号瞬态。但是,它影响所有的信号瞬态,甚至是已表现出 高力度的那些信号瞬态。动态谱均衡化一般向所有音频信号内容施加 处理,不管它是否需要。对于某些类型的音频内容,这可导致过度动 态处理输出。

授权给Hipert等的美国专利No.6,453,282概括了在离散时间音 频域中进行瞬态检测的方法。由于当总体观看信号时由于瞬态导致的 能量变化变得不明显,因此当分析严重动态范围压缩的材料时,这种 时域方法是不可靠的。这导致瞬态信号的错误分类并导致产生误判 (false positive)。

鉴于不断增加对于改善音频录音的呈现的关注,在本领域中需要 改善音频处理。

发明内容

根据本发明,提供用于调节音频信号的方法和装置。本发明对于 音频信号、特别是对于经受了有害灌录技术的音频信号的动态范围提 供强制增强。

根据本发明的一个方面,提供一种用于调节音频信号的方法,该 方法具有以下的步骤:接收至少一个音频信号,每个音频信号具有至 少一个通道,每个通道在时间序列上被分成多个帧;对于多个连续时 间段计算音频信号的动态偏移的至少一个测量值;将音频信号滤波成 多个子带,每个帧由至少一个子带代表;从连续时间段导出动态增益 因子;分析帧的至少一个子带以确定是否在帧中存在瞬态;和向具有 瞬态的每个帧施加动态增益因子。

动态偏移的测量值可由时间段的波峰因数(crest factor)代表。 可通过在帧内取得峰值信号大小的函数与音频信号的平均信号大小的 函数的比,计算每个连续时间段的波峰因数。方法还可包括对于至少 一个子带计算子带相对能量函数的步骤。

可通过比较帧或该帧的一部分的每个子带中的子带瞬态能量与相 对能量阈值并将通过该相对能量阈值的子带的数量求和,计算每个帧 的总体子带瞬态能量。在该帧的分析中通过相对能量阈值的子带的数 量大于预定分数的总子带的情形下,瞬态可存在于帧中。例如,在对 该帧的分析中,通过相对能量阈值的子带的数量大于四分之一的总子 带的情形下,瞬态可存在于帧中。

方法通过下述步骤继续,对于分析中的总子带数量,基于通过阈 值的子带的数量计算动态增益加权因子。根据加权因子加权每个帧的 动态增益因子。如果对于该帧没有检测到瞬态,则该帧的先前动态增 益可通过使用指数衰减曲线减小为1的值。在向输入信号施加最终动 态增益之前,可进行对于音调状音频的检查,以避免对于存在于输入 信号中的强音调进行可听的调制。如果在子带内检测到强音调,则对 于该帧周期不向该子带施加附加的增益,并且,该子带的动态增益继 续以基于先前帧的动态增益值衰减。

根据本发明的另一方面,提供一种音频信号处理装置。音频信号 处理装置包括:用于接收至少一个音频信号的接收部件,每个音频信 号具有至少一个通道,每个通道在时间序列上被分成多个帧;用于对 于多个连续时间段计算音频信号的动态偏移的至少一个测量值的计算 部件;用于将音频信号滤波成多个子带的滤波部件,每个帧由至少一 个子带代表;用于从动态偏移的测量值导出动态增益并分析帧的至少 一个子带以确定是否在帧内存在瞬态并且向具有瞬态的每个帧施加动 态增益的导出部件。

附图说明

参照以下的描述和附图,将更好地理解这里公开的各种实施例的 这些和其它特征和优点,其中,类似的附图标记始终表示类似的部件, 并且其中:

图1a是原始音频录音的波形的透视图;

图1b是动态范围被过度压缩的重新灌录的音频录音的波形的透 视图;

图2是根据本发明的实施例的使用用于在多通道扬声器或头戴式 耳机上回放的自适应动态增强的收听环境的示意图;

图3是示出根据本发明的实施例的在自适应动态增强处理器之前 的可选响度调平处理块的流程图;

图4是示出在根据本发明的一个实施例的用于检测瞬态并因此施 加增益的自适应动态增强处理中采取的步骤的流程图;

图5是示出在根据本发明的一个实施例的检测瞬态、针对已知的 阈值评价瞬态并因此施加自适应EQ曲线的自适应动态增强处理中采 取的步骤的流程图。

具体实施方式

以下关于附图阐述的详细描述意图是作为本发明的当前优选实施 例的描述,并且不是要代表可以构建或利用本发明的唯一形式。描述 结合示出的实施例阐述用于开发和操作本发明的功能和步骤次序。但 是,应当理解可通过也要包含于本发明的精神和范围内的不同实施例 实现相同或等同的功能和次序。还应理解,使用诸如第一和第二等的 关系术语仅用于相互区分实体,而未必要求或隐含这些实体之间的任 何实际的这种关系或次序。

本发明的目的是解决有害录音技术中的问题,在有害录音技术中, 采用侵略性应用动态范围压缩算法,音频录音被灌录为尽可能的大声。 这些录音信号中的瞬态的动态偏移远比它们应当偏移的低。当在适度 的级别上收听时,这产生弱声、沉闷或无生气再现的感受。

本发明分析音频录音的力度,并增强表现有害灌录实践的迹象的 瞬态。使用通过分析源音频录音信号的响度和动态性能得到的智能/ 自适应处理来设计本发明。除非必须,避免修改原始音频录音信号的 力度。但是,也可由用户调整附加的动态处理的缺省量,使得任何录 音的力度可对于更尖锐或“更强力”的声音被夸大,或者对于更细微 的增强减小。可以使用本发明以增强源自任何媒体源的任何音乐、电 影或游戏声轨和任何收听环境中的瞬态力度。

现在参照图2,提供示出多个实施例的实现的示意图。图2示出 用于在扬声器或头戴式耳机上回放动态增强的音频录音的音频收听环 境。音频收听环境包括至少一个诸如DVD或BD播放器、TV调谐器、 CD播放器、手持播放器、因特网音频/视频设备或游戏控制台等的至 少一个消费者电子设备10。消费者电子设备10提供被动态增强以补 偿任何有害灌录技术的源音频录音。

在本实施例中,消费者电子设备10与音频再现系统12连接。音 频再现系统12通过动态增强音频录音的自适应动态增强处理(ADE) 来处理音频录音。在替代性的实施例中,独立式消费者电子设备10 可通过ADE处理增强音频录音。

音频再现系统12包含诸如IBM PowerPC、Inter Pentium(×86) 处理器等的可代表一个或多个常规类型的这种处理器的中央处理单元 (CPU)。随机存取存储器(RAM)暂时存储由CPU执行的数据处 理操作的结果,并且一般通过专用的存储器通道与其互连。音频再现 系统12还可以包含也在i/o总线上与CPU通信的诸如硬盘驱动器的 永久存储设备。也可以连接诸如磁带机、光驱的其它类型的存储设备。 图形卡也通过视频总线与CPU连接,并且向显示监视器传送代表显示 数据的信号。诸如键盘或鼠标的外设数据输入设备可以在USB端口上 与音频再现系统连接。USB控制器对于与USB端口连接的外设翻译 送往和来自CPU的数据和指令。诸如打印机、麦克风和扬声器等的附 加设备可与音频再现系统12连接。

音频再现系统12可利用诸如来自Redmond,Washington的微软 公司的WINDOWS、来自Cupertino,CA的苹果公司的MAC OS、和 具有X-Windows窗口系统的各种UNIX版本等的具有图形用户界面 (GUI)的操作系统。音频再现系统12执行一个或多个计算机程序。 一般地,操作系统和计算机程序以有形的方式体现于例如包含硬盘驱 动器的固定和/或可去除数据存储设备中的一个或多个的计算机可读 介质中。操作系统和计算机程序均可从上述的数据存储设备被加载到 RAM中以供CPU执行。计算机程序可包含指令,这些指令当被CPU 读取和执行时导致其执行步骤以执行本发明的步骤或特征。

以上的音频再现系统12仅代表适于实现本发明的各方面的一个 示例性装置。音频再现系统12可具有许多不同的配置和结构。可以在 不背离本发明的范围的情况下很容易地替代任何这种配置或结构。本 领域技术人员可以认识到,上述的次序最常用于计算机可读介质中, 但是,可在不背离本发明范围的情况下,存在能够被替代的其它现有 次序。

可通过硬件、固件、软件或它们的任意组合实现ADE处理的一 个实施例的要素。当实现为硬件时,ADE处理可在一个音频信号处理 器上被使用,或者分布于各种处理部件之间。当实现为软件时,本发 明的实施例的要素基本上是用于执行必要任务的代码段。软件优选包 含用于实施在本发明的一个实施例中描述的操作的实际代码或模仿或 模拟操作的代码。程序或代码段可被存储于处理器或机器可存取介质 中,或者在传送介质上,通过在载波中体现的计算机数据信号或通过 载波调制的信号被传送。“处理器可读或可存取介质”或“机器可读 或可存取介质”可包含可存储、传送或传递信息的任何介质。处理器 可读介质的例子包含电子电路、半导体存储器件、只读存储器(ROM)、 闪速存储器、可擦ROM(EROM)、软盘、紧致盘(CD)ROM、光 盘、硬盘、光纤介质、射频(RF)链接等。计算机数据信号可包含可 在诸如电子网络信道、光纤、空气、电磁、RF链接等的传送介质上 传播的任何信号。代码段可通过诸如因特网、内联网等的计算机网络 被下载。可在制造物品中体现机器可存取介质。机器可存取介质可包 含当被机器访问时导致机器执行以下描述的操作的数据。术语“数据” 这里指的是出于机器可读目的编码的任何类型的信息。因此,它可包 含程序、代码、数据、文件等。

可通过软件实现本发明的实施例的全部或一部分。软件可具有相 互耦合的几个模块。软件模块与另一模块耦合以接收变量、参数、自 变数、指针等,并且/或者产生或通过结果、更新的变量、指针等。软 件模块也可以是与在平台上运行的操作系统交互作用的软件驱动器或 接口。软件模块也可以是配置、建立、初始化、发送和接收送往和来 自硬件设备的数据的硬件驱动器。

本发明的一个实施例可被描述为通常示为程序框图、流程图、结 构图或框图的处理。虽然框图可将操作描述为依次的处理,但是可以 并行或同时地执行多个操作。另外,操作的次序可被重新配置。处理 在完成其操作时终止。处理可与方法、程序、过程等对应,图2是示 出用于在头戴式耳机14或扬声器16上再现的音频再现系统12的示意 图。音频再现系统12可从各种音频或音频/视频源10接收数字或模拟 音频源信号。音频源信号可以是单个信号、二通道信号(诸如音乐轨 道或TV广播)或多通道信号(诸如电影声道)。音频信号可以是诸 如真实世界声音或工程声音等的任何被觉察或不被觉察的声音。

音频再现系统12可包含用于连接模拟音频源的模拟数字转换器 或数字音频输入接口。它可包含用于处理音频信号的数字信号处理器 以及用于将处理的输出信号转换成被发送到换能器(头戴式耳机14 或扬声器16)的电信号的数字模拟转换器和信号放大器。音频再现系 统12可以是专用于音频和/或视频信号的选择、处理和路由的家庭影 院接收器或汽车音响系统。作为替代方案,音频再现系统12和音频信 号源中的一个或几个可被一起结合到诸如便携式媒体播放器、电视机 或膝上型计算机的消费者电子设备10中。诸如在电视机或膝上型计算 机的情况下,扬声器16也可被结合到同一电器中。

图3是示出ADE处理环境的高层流程图。流程图通过接收输入 信号在步骤300上开始。输入信号是数字音频信号。在本实施例中, 在步骤310中,通过响度调平算法处理输入信号,由此,随时间适调 整到来的输入信号的增益,使得它具有基本上恒定的平均响度级(比 如说,-20dB相对于0dB的满度)。响度调平算法是可选的特征,并 且对于实现ADE处理来说是不需要的。随后,在320中,如果存在 上游增益归一化算法,那么ADE处理可在不导致可源自信号波形削 波的可听的伪信号的情况下,将基准增益电平因子化为扩展到来的信 号的增益所需要的可用的动态余量(headroom)。该通信由虚线箭头 表示。ADE动态余量需求也可将输入的灌录增益和输入信号内容的增 益因子化。可通过使用由DYNAMICS ENHANCEMENT LEVEL描 述的用户参数缩放施加的动态增强的量。使用输出限制器以确保作为 向输入信号施加需要的动态EQ的结果不出现输出饱和。

现在参照图4,示出描述ADE处理的一个实施例的流程图。ADE 处理通过接收代表音频录音的输入信号在步骤400中开始。输入信号 是至少一个通道的数字音频信号。输入信号代表通过模拟/数字转换被 转换成数字格式的已被转换成电子信号并被适当地预处理的有形的物 理现象、特别是声音。一般地,如在本领域中已知的那样,会施加模 拟滤波、数字滤波和其它的预处理,以使混淆、饱和或下游的其它信 号处理误差最小化。可通过诸如PCM编码的常规的线性方法代表音 频信号。在步骤410中,通过可适当地为互补正交镜像滤波器组的多 抽头、多频带、分析滤波器组滤波输入信号。作为替代方案,可以使 用诸如多相滤波器组的伪正交镜像滤波器(PQMF)。滤波器组产生 多个子带信号输出。在本实施例中,使用这种子带输出中的64个。但 是,本领域技术人员很容易认识到输入信号可被滤波成任意数量的子 带。作为滤波功能的一部分,滤波器组应优选还关键地大大削弱每个 子带中的子带信号,特别是将每个子带信号削弱到刚刚足以完全代表 每个子带中的信号(“临界采样”)的更少数量的采样/秒。该子带采 样也可模仿人听觉的生理机能。

在滤波之后,在步骤420中分析子带以进行瞬态检测。可以设想, 不是所有的子带都被用于瞬态分析,原因是,可以获知,某些频率具 有瞬态的可能性很低。在本实施例中,通过使用在频带上计算能量的 加权和的瞬态检测算法来检测瞬态。由于信号能量通常占据叫低的频 率,因此使用附加权重以强调瞬态不再显著的信号的能量。这减少瞬 态识别过程中的“误判”的可能性:

TEHF(m,c)=Σk=0N-1w(k)|G(k,m,c)|2,---(1)

其中TEHF(m,c)是瞬时的高频加权瞬态能量,k是频带指数,m是 分析帧指数,c代表通道指数,w(k)与第k个频率加权滤波系数对应, 以及|G(k,m,c)|代表第c个通道的第m个分析帧的第k个频带的绝 对增益。本领域技术人员可以理解,可根据本发明应用各种瞬态检测 算法,并且以上的例子作为例子被提供且不应被解释为限制本发明的 范围。

将瞬时的瞬态能量函数与先前的瞬态能量的时间平均相比较。该 比较表明可能的瞬态事件,其中,瞬时的瞬态能量应远大于平均瞬态 能量。可通过在每个频带中应用泄漏积分器滤波器(leaky integrator  filter)计算平均瞬态能量TEav

TEav(m,c)=(1-αTE)TEav(m-1,c)+αTETEHF(m,c)             (2)

其中,αTE与瞬态能量阻尼因子对应,m代表帧指数,以及c代表通 道指数。

如果那么触发瞬态开端,其中,GTRANS与一些预 定的短暂阈值对应。一般地,2~3的GTRANS的值产生良好的结果,但 是,阈值也可根据源材料改变。随后,在步骤440中,通过在64个分 析频带中的每一个中取峰值信号电平与先前信号电平的时间平均的 比,计算多频带波峰因数值CF(k,m,c)。

CF(k,m,c)=Gpeak(k,m,c)Gav(k,m,c)---(3)

通过使用具有不同起始(attack)和释放时间常数的泄漏积分器 导出峰值信号电平和平均信号电平。计算平均信号电平的替代性方法 包括在存储于系统存储器中的过去频率子带的几个“帧”上平均化。 本实施例中的峰值和平均增益计算使用泄漏积分器滤波器。

Gpeak(k,m,c)=(1-αpeak_av)Gpeak(k,m-1,c)+αpeak_avG(k,m,c)

如果G(k,m,c)>Gpeak(k,m-1,c)                              (4)

Gpeak(k,m,c)=(1-αpeak_rel)Gpeak(k,m-1,c)+αpeak_relG(k,m,c)

如果G(k,m,c)≤Gpeak(k,m-1,c)(5)

Gav(k,m,c)=(1-αav)Gav(k,m-1,c)+αavG(k,m,c)               (6)

导出的波峰因数基于增益的比。作为结果,导出的波峰因数与输 入信号的电平无关。因此,不管系统的灌录增益或原始录音的录音水 平如何,结果都相同。参见式(3),诸如打击乐器敲击的显著瞬态应 具有比更稳定状态或音调状信号高的波峰因数。如果信号包含表现相 反的波峰因数值的瞬时开端,那么它是在该频带上的后-录音动态范 围压缩或限制的强烈指示。在这种情况下,原始信号应从短时增益提 升受益,以产生希望的波峰因数值,其中,短时指的是检测到的瞬时 的开端和衰减时间的量级上的开端和衰减时间。

作为结果,ADE处理在检测到瞬态开端的任意时间评价波峰因 数。在步骤460中,波峰因数被评价,并且如果它比目标波峰因数阈 值(通过算法调谐和/或用户偏好的组合确定)低,那么该子带中的增 益增加,使得获得希望的波峰因数值。该增益可被限制为保持在规定 或动态评价的动态余量预算内:

Geq(k,m,c)=min(Geq_max,(1-αattack)Geq(k,m-1,c)+αattackCFTargetCF(k,m,c))

如果且TEHF(m,c)>GTRANSTEav(m,c)

(7)

其中,Geq(k,m,c)代表施加的增益函数,Geq_max代表最大允许增益 (通常与分配的算法动态余量对应),αattack是增益起始阻尼函数(gain  attack damping function),如果发现源自迅速增益变化的伪信号,则 该增益起始阻尼函数可被调谐到接近1的值。该阻尼函数的值可以是 与频率有关的,以对于不同的频率范围允许在不同的速率上出现增益 斜坡。CFTarget代表目标波峰因数值,并且CF(k,m,c)代表在频率k 和帧m和通道c上测量的波峰因数值。

如果没有检测到瞬态开端或者如果波峰因数大于等于目标波峰因 数值,那么施加的动态EQ增益通过使用模仿典型的瞬态打击的力度 的包络线向1的值后退。增益降低的速率被加权,使得较高频率增益 比较低频率增益快地减小:

Geq(k,m,c)=max(1,αdecay(k,m)Geq(k,m-1,c))       (8)

其中,αdecay(k,m)代表与频率有关的衰减阻尼因子。在本实施例中, αdecay(k,m)由以1和0为边界在从高值到低值的频率上呈指数倾斜的 64点函数代表。

在步骤480中,由“Dynamics Enhancement Level”(DEL)代 表的用户参数以0.0和1.0之间的值缩放目标波峰因数。0.0的DEL 值意味着,将总是获得波峰因数阈值,并因此不对于原始信号进行增 强。0.5的DEL值代表缺省分析阈值,并且代表“合理”波峰因数期 望。通过该值,被压缩的信号得到增强,而具有足够力度的信号将接 收很少或不接收动态增强。1.0的DEL值代表超出“合理”波峰因数 期望,使得不管是否需要都增强大多数的瞬态的力度。

通过将子带输入信号成分乘以从增强增益得到的时变EQ曲线导 出输出。这些增益在频率上被平滑化,以避免伪信号。EQ曲线被施 加于原始复合输入信号数据,并且,通过使用64频带合成组或等同的 频率时间域滤波器,得到的复合频带系数然后被再组合并被变换成时 域输出采样块。最后,合成滤波器频带的时域输出通过软限制器(或 等同物),以抵消可能由超出可用动态余量的信号电平增加导致的任 何偶然的电平过冲。

对于每个分析帧重复该输入/输出处理。EQ曲线的增益根据每个 帧的分析动态改变。在上述的实施例中,通过频域中的倍增以及随后 的对于输入合成块互补的输出合成,导出的增益曲线被施加到原始信 号。在其它的实施例中,分析和合成方法可不同。例如,如上所述, 分析可在频域中进行,并且,当已经计算了希望的增益曲线时,可通 过使用FIR和/或IIR滤波器在时域中实现代表该希望的频率响应的滤 波器。时域滤波器的系数可根据每个输入数据帧的分析改变。作为替 代方案,波峰因数和瞬态开端检测的分析可整体上在时域中出现。

上述的分析和合成使用均匀分开的频带。优选在更好地匹配人听 力的心理声学的对数分开的频带上执行分析。

现在参照图5,给出示出ADE处理的优选实施例的流程图。流程 图通过使用64频带过采样多相分析滤波器组将输入信号转换成复合 频域表示在步骤500中开始。可以使用其它类型的滤波器组。也可使 用不同数量的滤波器组。在这里描述的实现中,分析滤波器组对于64 个时域输入采样的每个块提取64个频域采样的块,以形成子带音频信 号。

在步骤510中,为了评估存在于输入信号中的力度的量,对于每 个通道导出与频率无关的每帧波峰因数。

其中,Hsum(m,c)被定义为输入数据的第c个通道的第m个帧的k 个频带大小的和:

Hsum(m,c)=∑H(k,m,c)

峰值和函数被定义为:

Hsum_pk(m,c)=Hsum(m,c))如果Hsum(m,c)>Hsum_pk(m-1,c)

否则,

Hsum_pk(m)=(1-αpk_rel)Hsum_pk(m-1)+αpk_relHsum(m)

平均和函数由泄漏积分器函数定义:

Hsum_av(m,c)=(1-αavg)Hsum_av(m-1,c)+αavgHsum(m,c)

其中,αpk_rel代表峰值释放系数,以及αavg代表平均平滑化系数。

每帧波峰因数被定义为峰值信号大小与平均信号大小的比,

CF(m,c)=Hsum_pk(m,c)Hsum_av(m,c)

其中CF(m)代表输入数据的第c个通道的第m个帧的波峰因数。 可以设想,可按照能量求和描述波峰因数。

Hsum(m,c)=∑|H(k,m,c)|2

每帧波峰因数表示存在于输入信号中的动态范围的量。当检测到 瞬态时,该波峰因数应大于等于一些期望的目标值。如果每帧波峰因 数在存在瞬态的情况下太低,那么向输入信号帧施加短期增益以使测 量的波峰因数增加到更希望的值,其中,短时指的是检测瞬态的开端 和衰减时间的量级的开端和衰减时间。

在步骤520中,通过取得规定的目标波峰因数CFT的比导出每帧 动态增益GDYN(m,c),并且,测量的波峰因数CF(m,c)代表获得希望的 动态偏离电平所需要的增益的量。

GDYN(m,c)=CFTCF(m,c)

CFT的值被假定为代表例如14dB的动态材料的合理波峰因数。 也可通过称为动态增强电平(DEL)的用户可控制增益修改该规定的 目标波峰因数,由此间接地影响施加的增强的量。

GDYN(m,c)=[DEL*CET]CF(m,c)

如果目标波峰因数比测量的波峰因数大,那么GDYN(m,c)将小于1。如 果允许该增益值,那么它最终导致输入中的瞬态事件的电平的降低。 但是,在本实施例中,GDYN(m,c)限于大于等于1。

GDYN(m,c)=max(1,[DEL*CFT]CF(m,c))

在该阶段中不向输入信号施加GDYN(m,c)。而是,只有满足两个其它条 件才施加:

1.已对于当前的帧检测到瞬态;或

2.施加增益的子带不具有任何强的音调内容。

在步骤540中,检测当前帧中的瞬态。通过使用计算每子带相对 能量函数的瞬态检测算法,分析子带信号以检测瞬态。当在子带内检 测到大的能量增加时,该函数的值将急剧增加。更多子带的存在表明 同时的增加,这进一步表示在给定的帧内已经检测到瞬态的可能性更 高。

相对能量函数可被定义为:

RE(k,m,c)=Einst(k,m,c)Eav(k,m,c)---(1)

其中,Einst(k,m,c)代表在第c个通道的第m个帧的第k个子带上 测量的能量,以及Eav(k,m,c)代表在第c个通道的第m个帧的第k个 子带上测量的平均能量。每子带平均基于泄漏积分函数:

Eav(k,m,c)=(1-εav)Eav(k,m-1,c)+εavEinst(k,m,c)

对于每个子带相对能量函数,将当前值与一些相对能量阈值 RETRESH相比较。如果在子带中超过相对能量函数阈值,那么该子带 被标注为具有表示瞬态的能量增加。然后通过将通过相对能量阈值的 子带的数量求和,计算总体每帧瞬态能量函数。

TE(m,c)=∑(RE(k,m,c)>RETRESH)

其中,TE(m,c)是0与K之间的整数值,其中,K代表分析的子带 的总数。注意,K可小于帧中的频带的总数。例如,可能更希望使瞬 态检测关注于已检测到明显的能量的子带。

超过相对能量阈值的明显比例的子带表示代表瞬态的能量的宽带 增加。但是,难以使子带的确切数量与正结果相关联以具体地限定瞬 态。在一些情况下,平均信号电平可能太高,使得相对能量阈值可在 许多频带中保持较低。虽然具有解释这一点的肯定结果的子带的所需 数量可减少,但是,这可导致“误判”瞬态检测。因此,每帧瞬态能 量函数以导出瞬态的可能性的估计为开始。并且,计算与超过RETRESH的子带的数量成比例的一系列增益加权函数。例如,

如果TE(m,c)>K/2,则WT(m,c)=1

如果TE(m,c)>K/3,则WT(m,c)=0.75

如果TE(m,c)>K/4,则WT(m,c)=0.5;

其中,K代表分析中的子带的总数。

否则,

WT(m,c)=0

可对于正子带阈值和相关的加权增益使用其它的值。在步骤550 中,确定任意的输入通道上的WT(m,c)>0的任何值代表瞬态开端。然 后通过加权因子修改动态增益:

GDYN_MOD(m,c)=max(1,GDYN(m,c)*WT(m,c))

施加边界检查以确保不施加小于1的增益。然后可向当前数据帧 的所有子带施加该增益。但是,由于这些频带中的增益的突然增加会 导致可听的信号调制,因此在具有明显的音调状成分的子带中,这会 是不希望的。为了避免这种情况,对于存在强音调分析每个子带。通 过它们的性质,音调状成分具有相对较低的峰值平均比(或子带波峰 因数)。因此,不存在向具有低于所谓的音调阈值的测量波峰因数的 子带施加的附加增益,并且它们继续基于它们的原始衰减轨道衰减。

在步骤530中,通过在分析频带中的每一个中取峰值增益电平与 时间平均增益的比,计算每子带波峰因数值。

CF(k,m,c)=Gpeak(k,m,c)Gav(k,m,c)

均使用泄漏积分器实现峰值和平均滤波器。

如果G(k,m,c)>Gpeak(k,m-1,c) ,则Gpeak(k,m,c)=G(k,m,c)

其中,G(k,m,c)代表第c个通道的第m个帧的第k个子带的大小。

否则,

Gpeak(k,m,c)=(1-βpeak_rel)Gpeak(k,m-1,c)+βpeak_relG(k,m,c))

Gav(k,m,c)=(1-βav)Gav(k,m-1,c)+βavG(k,m,c))

其中,βpeak_rel代表每子带峰值释放函数,以及βav代表平均平滑化 函数。

在检测瞬态开端的帧中,将每子带波峰因数与预定的阈值γTONE相比较,这确定是否在该子带中存在音调状成分。如果子带波峰因数 低于该阈值,那么假定检测到音调状成分,并且,对于该帧不向该子 带施加增益。可以使用音调的各种测量,诸如在J.Johnston, “Transform coding of audio signals using perceptual noise criteria,” IEEE J Sel.Areas in Comm.,vol.6,no.2,pp.314-323,1998年2月中 描述的音调的系数。描述为EQDYN(k,m,c)的最终的每子带动态增益被 即时更新为以下的值:

如果CF(k,m,c)>γTONE,则EQDYN(k,m,c)=GDYN_MOD(m,c)

在步骤560中确定,如果没有检测到瞬态或者如果在子带中检测 到音调状成分,那么,通过使用将典型的瞬态衰减函数模型化的与频 率相关的指数曲线,EQDYN(k,m,c)的相对子带值向1(不处理)的值衰 减:

EQDYN(k,m,c)=max(EQDYN(k,m,c)*σdecay(k),1)

其中,σδecay(k)代表随着频率的增加而减小以模拟低频率瞬态与高 频率瞬态相比多慢地衰减的每子带衰减系数函数。施加边界检查以确 保不施加小于1的增益。

在步骤570中,EQDYN(k,m,c)在有限的范围内被约束以避免输出 饱和,如下:

如果EQDYN(k,m,c)*|X(k,m,c)|>Ymax

EQDYN(k,m,c)=EQDYN(k,m,c)Ymax|X(k,m,c)|

其中,|X(k,m,c)|代表第c个通道的第m个帧的第k个段的输入 数据的大小,以及Ymax代表每个通道的每个帧的每个子带的最大允许 输出值。如果保证的话,EQDYN(k,m,c)的最终版本可在频率上被平滑 化以避免伪信号。

在步骤580中,通过将每个频带中的复合输入系数乘以 EQDYN(k,m,c),向适当的输入通道施加规定的增强。

Y(k,m,c)=EQDYN(k,m,c)X(k,m,c)

其中,X(k,m,c)代表第c个通道的第m个帧的第k个段的输入数据, 以及Y(k,m,c)代表第c个通道的第m个帧的第k个段的输出数据。

通过使用64频带合成组或等同的频率时间域滤波器,得到的复合 频带系数被再组合并被变换成时域输出采样块。

对于每个输入采样块重复上述的输入/输出处理(步骤500~580)。 EQ曲线的增益将根据每个输入信号块的分析动态改变。

EQ曲线的增益根据每个输入信号帧的分析动态改变。在上述的 实施例中,通过频域中的倍增以及随后的对于输入合成块互补的输出 合成,导出的增益曲线被施加到原始信号。在其它的实施例中,分析 和合成方法可以不同。

上述的分析和合成使用均匀分开的频带。但是,优选在更好地匹 配人听力的心理声学的对数分开的频带上执行分析。

这里表示的细节仅是例子,并且仅出于解释性讨论本发明实施例 的目的以及为了提供被认为是本发明的原理和概念方面的最有用且很 容易理解的描述而给出这里表示的细节。关于这一点,不尝试以比对 本发明的基本理解所需要的更详细地表示本发明的细节,通过附图给 出的描述使得本领域技术人员很容易理解如何在实践中体现本发明的 几个形式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号