首页> 中国专利> 用于混合来自两个编码位流的音频节目的元数据的自动配置

用于混合来自两个编码位流的音频节目的元数据的自动配置

摘要

音频编码系统使用混合元数据,以控制随后与相关音频节目混合的主音频节目的衰减。通过分析主音频节目和相关音频节目的估计响度来计算衰减的值。

著录项

  • 公开/公告号CN103443854A

    专利类型发明专利

  • 公开/公告日2013-12-11

    原文格式PDF

  • 申请/专利权人 杜比实验室特许公司;

    申请/专利号CN201280016111.0

  • 发明设计人 M·D·郝夫曼;

    申请日2012-04-02

  • 分类号G10L19/008(20130101);H03G5/00(20060101);H03G5/18(20060101);

  • 代理机构中国国际贸易促进委员会专利商标事务所;

  • 代理人康建忠

  • 地址 美国加利福尼亚

  • 入库时间 2024-02-19 21:44:33

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-04

    专利实施许可合同备案的生效 IPC(主分类):G10L19/008 合同备案号:2017990000214 让与人:杜比实验室特许公司|杜比国际公司 受让人:微鲸科技有限公司|苏州工业园区紫猫信息咨询有限公司 发明名称:用于混合来自两个编码位流的音频节目的元数据的自动配置 申请公布日:20131211 授权公告日:20160608 许可种类:普通许可 备案日期:20170606 申请日:20120402

    专利实施许可合同备案的生效、变更及注销

  • 2016-06-08

    授权

    授权

  • 2014-01-08

    实质审查的生效 IPC(主分类):G10L19/008 申请日:20120402

    实质审查的生效

  • 2013-12-11

    公开

    公开

说明书

相关申请的交叉引用

本申请要求在2011年4月8日提交的美国专利临时申请No. 61/473364的优先权,该美国专利临时申请通过引用而将其全部内容并 入此。

技术领域

本发明总体上涉及数字音频编码方法和系统,并且更具体而言, 涉及用于混合从两个编码数字位流获得的音频节目的元数据的产生。

背景技术

符合所谓的Dolby Digital Plus标准的编码信号包含代表主音频节 目的数据,并且可包含代表一个或更多个相关音频节目的数据。在由 Advanced Television Systems Committee,Inc.(ATSC),Washington, D.C.出版的Document A/52,“Digital Audio Compression Standard (AC-3,E-AC-3)”,November22,2010中描述了Dolby Digital Plus 标准。相关音频节目可包含不同语言的听觉内容、关于伴随的视觉内 容的有声解说或描述伴随的视觉内容的用于视觉受损听者的听觉内 容。

在主音频节目及其伴随的视觉内容的回放期间相关音频节目可与 主音频节目混合。相关音频节目包含的混合元数据规定了当相关音频 节目与主音频节目混合时的主音频节目的衰减量。

发明内容

本发明的一个目的是提供指定主音频节目的衰减的混合元数据, 该衰减适于优化当出现主音频节目和相关音频节目的混合时的收听体 验。混合元数据优选地在相关音频节目材料不存在于主音频节目中或 者不与其混合的情况下规定没有衰减,并且优选地规定渐现和渐隐的 衰减以避免主节目响度水平突然变化。

根据本发明的一个方面,通过如下操作对音频信号进行编码:接 收代表主音频节目的一个或更多个主音频信号并且接收代表相关音频 节目的一个或更多个相关音频信号;将所述一个或更多个主音频信号 编码以产生主编码音频信号,并且将所述一个或更多个相关音频信号 编码以产生相关编码音频信号;响应主音频节目的估计响度和相关音 频节目的估计响度产生音频混合元数据,其中,要从主编码音频信号 解码的一个或更多个音频信号和要从相关音频信号解码的一个或更多 个音频信号要根据音频混合元数据被混合;以及将主编码音频信号、 相关编码音频信号和音频混合元数据组装成输出的编码信号。

根据本发明的另一个方面,通过如下操作对输入的编码信号进行 解码:接收输入的编码信号并从其获得主编码音频信号、相关编码音 频信号和混合元数据;将主编码音频信号解码以获得一个或更多个主 音频信号,并将相关编码音频信号解码以获得一个或更多个相关音频 信号;以及根据混合元数据混合一个或更多个主音频信号与一个或更 多个相关音频信号以产生输出音频信号,其中,混合元数据是响应由 主编码音频信号代表的主音频节目的估计响度和由相关编码音频信号 代表的相关音频节目的估计响度而产生的。

参照以下的讨论和附图可以更好地理解本发明及其优选实施例的 各种特征,在附图中,类似的附图标记在几个图中指示类似的要素。 以下的讨论和附图的内容仅作为例子被阐述,并且不应被理解为代表 对于本发明的范围的限制。

附图说明

图1是包含本发明的各个方面的编码器/发射器的示意性框图。

图2是包含本发明的各个方面并且可与图1所示的音频编码器一 起使用的接收器/解码器的一种实现的示意性框图。

图3是包含本发明的各个方面的编码器/解码器的另一种实现的示 意性框图。

图4是可被用于实现本发明的各个方面的设备的示意性框图。

具体实施方式

A.引言

本发明旨在控制通过对编码信号进行解码而获得的主音频节目和 一个或更多个相关音频节目的振幅并随后将它们混合在一起以供回 放。在一个示例性应用中,一个或更多个主音频信号代表诸如电影的 对话和声音效果的主音频节目,并且,一个或更多个相关音频信号代 表诸如描述电影的视觉内容的用于视力受损患者的导演评论或叙述的 相关音频节目。许多其它的例子是可能的。本发明不限于任何特定类 型的音频内容。

可通过各种方式实现本发明。第一类型的实现将本发明的各个方 面结合到音频编码系统的发射器和接收器中。分别在图1和图2中示 意性地示出第一类型的实现的示例性发射器和接收器。

第二类型的实现仅将本发明的各个方面结合到接收器中。在图3 中示意性地示出第二类型的实现的示例性接收器。下文,在讨论了第 一类型的实现之后,讨论该第二类型的实现。

B.发射器和接收器

1.发射器

参照图1,发射器10从路径11接收代表主音频节目的一个或更 多个主音频信号,并且从路径12接收代表相关音频节目的一个或更多 个相关音频信号。

编码器21编码一个或更多个主音频信号以产生主编码音频信号, 并且,编码器22编码一个或更多个相关音频信号以产生相关编码音频 信号。编码器21和编码器22基本上可使用可能希望的任何类型的编 码过程。例如,可以使用分割带感知编码过程,在该分割带感知编码 过程中,音频信号被分成频率子带信号,频率子带信号被分析以估计 心理声学掩蔽效果,并且,以如下的量化分辨率量化频率子带信号, 该量化分辨率适于使得量化噪声水平正好低于所估计的心理声学掩蔽 水平。可以使用各种子带滤波器和/或变换以将音频信号分成频率子带 信号。可使用的感知编码处理的例子包括在上述的ATSC A/52文献中 描述的有时称为AC-3的Dolby Digital和在ISO/IEC标准13818和 14496中描述的高级音频编码(AAC)的变型。可以使用无损编码处 理,诸如在1996年11月21日公开的国际专利申请公开WO96/37048 和在2000年10月12日公开的国际专利申请公开WO00/60746中描 述的那些、以及算术编码、霍夫曼编码和常规的脉冲码调制。本发明 不需要特定的编码处理。

元数据产生器25响应主音频节目的估计响度和相关音频节目的 估计响度产生音频混合元数据。以下描述可实现元数据产生器25的方 式。

格式化器27将主编码音频信号、相关编码音频信号和音频混合元 数据组装成沿路径31通过的输出编码信号。可按传输编码音频信号和 对应于或者代表音频信号的间隔的混合元数据的帧或段来布置输出编 码信号。编码的输出信号可诸如在广播应用中那样被直接传输到一个 或更多个接收器,或者它可被记录于存储介质上以便随后传输至一个 或更多个接收器。

a)元数据产生器

元数据产生器25从主音频节目和相关音频节目的估计响度的分 析产生一个或更多个混合参数。音频信号的估计响度可被从人听觉系 统的一些数学模型得出或者可被直接从信号振幅计算。许多估计响度 的方法是已知的。以下描述一些方法。

(1)估计响度

元数据产生器25基本上可使用可能希望的任何估计响度的方法。 方法的选择会影响性能,但实现本发明不需要特定的方法。

在由国际电工委员会(IEC)公开的标题为“Integrating-averaging sound level meters”的国际标准IEC60804(2000-10)中描述了可被 用于计算音频信号的估计响度水平的一种方法。该标准描述了基于频 率加权和时间平均声压水平的测量。

在由国际标准化组织公开的标题为“Method for calculating  loudness level”的国际标准532(1975)中描述了另一方法。该标准 描述了从对于频率子带计算的功率水平的组合获得响度的测量的方 法。

在Moore,Glasberg and Baer,“A model for the prediction of  thresholds,loudness and partial loudness,”J.Audio Eng.Soc.,vol.45, no.4,April1997和Glasberg and Moore,“A model of loudness  applicable to time-varying sounds,”J.Audio Eng.Soc.,vol.50,no.5, May2002中描述了可用于估计响度的心理声学模型的例子。

还另一方法从对于音频信号的间隔的振幅的均方根(RMS)来计 算估计响度。经验试验表明,约500毫秒的间隔对于符合上述的Dobly  Digital Plus标准的一种示例性编码系统提供估计响度的有用的测量。

以下的讨论假定使用导出以dB表达的响度的测量的响度计算方 法。与0dB对应的基准水平不重要,但是,如果数字音频信号由固定 长度数字值代表,那么方便的选择是使0dB与最大可能数字值对应。 如果希望的话,可以选择不同的基准水平,这不会影响以下讨论。

(2)分析响度

根据一种实现,元数据产生器25通过向一个或更多个主音频信号 应用响度计算方法获得主音频节目的估计响度LM,并且通过向一个或 更多个相关音频信号应用响度计算方法获得相关音频节目的估计响度 LA。相关音频节目的估计响度与作为主音频节目的估计响度之上的某 一阈值量TD的响度水平相比较。

如果相关音频节目的估计响度小于该响度水平,那么元数据产生 器元25产生规定发生混合时的主音频节目的衰减水平的参数。

如果相关音频节目的估计响度大于或等于该响度水平,那么元数 据产生器25可产生不规定主音频节目的衰减的参数。作为替代方案, 当不规定衰减参数时,如果音频编码系统中的接收器被配置为正确地 响应,那么元数据产生器25可能不产生任何参数。

该实现可被表达为:

这里,A=主音频节目的衰减的希望水平。

可从经验上导出阈值TD的值。对于上述的示例性编码系统来说, 使用TD=23dB的阈值具有良好的效果。

可通过各种方式计算X的值,并且,可从经验上识别适当的值, 但没有特别的方式是必需的。对于上述的示例性的编码系统,可从以 下的表达式计算衰减水平:

X=LA-LM-YD  当LA<LM-TD时                (2)

作为替代方案,衰减水平A可以依赖于响度水平。它可被表达为 两个或更多个衰减水平以及各对衰减水平之间的一个或更多个拐点。 没有特定的一组值对于本发明是关键的。已经有利地用于上述的示例 性编码系统的衰减水平和相关拐点的一个集合被依据压缩比来表达。 在本例子中,在拐点以下使用2:1的压缩比,并且,在拐点以上使用 3:1的压缩比。在水平LM+TD之上,拐点是6dB。

在又一实现中,元数据产生器25响应规定衰减延迟的时间间隔 ID、衰减保持的时间间隔IH、衰减攻击的时间间隔IA和衰减释放的时 间间隔IR的一组参数中的一个或更多个参数来产生衰减参数。这些间 隔的特定值对于本发明而言不是关键的。在上述的示例性的编码系统 中有利地使用的一组值是ID=0毫秒、IH=200毫秒、IA=320毫秒和 IR=640毫秒。

优选地,只有相关音频节目的估计响度比阈值触发水平TT高,上 述的实现中的元数据产生器25才产生衰减参数。可从经验上导出该阈 值触发水平。在示例性的编码系统中使用的值是TT=-40dB。

作为替代方案,元数据产生器25可产生规定一个或更多个衰减水 平、在不规定一个以上的衰减水平的情况下的相关拐点和/或上述的时 间间隔中的一个或更多个的一组参数。该组参数构成组装至输出编码 信号中的混合元数据。在本替代性实现中,接收器响应包含于混合元 数据中的所有参数计算希望的衰减水平。

2.接收器

参照图2,接收器20从路径33接收输入编码信号。例如,可直 接从发射器接收或者从存储介质检索输入编码信号。可按传输编码音 频信号和对应于或者代表音频信号的间隔的混合元数据的帧或段来布 置输入编码信号。去格式化器41从输入编码信号获得主编码音频信 号、相关编码音频信号和混合元数据。

解码器43解码主编码音频信号以获得一个或更多个主音频信号, 并且,解码器44解码相关编码音频信号以获得一个或更多个相关音频 信号。虽然实现本发明不需要特定的解码处理,但该解码处理应是用 于产生主编码音频信号和相关编码音频信号的编码处理的互补。例如, 如果使用诸如上述情况的处理的感知编码处理以产生编码音频信号, 那么适当的解码处理会使用遵循用于量化频率子带信号的量化分辨率 的去量化分辨率将频率子带信号去量化,并且将去量化的频率子带信 号合成为解码的音频信号。用于适当的解码方法的附加细节在现有技 术中是已知的,或者可从以上引用的参考文献获得。

元数据处理器45响应控制混合器48的混合元数据产生控制信号。 混合器48通过自适应地混合一个或更多个相关音频信号与其振幅水 平响应混合元数据被控制的一个或更多个主音频信号来产生输出音频 信号。输出音频信号沿路径51通过以用于回放或可能希望的其它处 理。

可通过各种方式实现混合器48,并且,特定的实现不是本发明所 必需的。在一种实现中,混合器48使一个或更多个主音频信号衰减由 混合元数据规定的量,并然后使衰减后的主音频信号与相关音频信号 混合。如果在输入编码信号中不存在混合元数据,那么一个或更多个 主音频信号在混合之前不衰减。

在替代性实现中,混合器48响应包含规定一个或更多个衰减水 平、在不规定一个以上的衰减水平的情况下的相关拐点和/或上述的时 间间隔中的一个或更多个的一组参数的混合元数据。在该替代性实现 中,混合器48响应包含于混合元数据中的所有参数计算主音频信号的 希望的衰减水平。

C.仅接收器

在图3中示意性地示出的接收器30结合有来自图1所示的发射器 10以及图2所示的接收器20的特征。与发射器10或接收器20中的 各部件具有相同的附图标记的接收器30中的各部件执行与之相同的 功能。

元数据产生器/处理器46总体上执行与以上对于元数据产生器25 和元数据处理器45描述的功能相同的功能。通过向从主编码音频信号 解码的一个或更多个主音频信号应用响度计算方法获得主音频节目的 估计响度LM,并且,通过向从相关编码音频信号解码的一个或更多个 相关音频信号应用响度计算方法获得相关音频节目的估计响度LA。如 以上对于元数据产生器25描述的那样导出混合元数据参数。

D.实现

结合本发明的各方面的装置可通过包括软件的各种方式实现,该 软件被计算机或一些其它设备执行,这些设备包括与和在通用计算机 中发现的部件类似的部件耦合的诸如数字信号处理器(DSP)电路的 更多的专用部件。图4是可用于实现本发明的多个方面的设备70的示 意性框图。处理器72提供计算资源。RAM73是被处理器72用于处 理的系统随机存取存储器(RAM)。ROM74代表用于存储操作设备 70所需要的程序并且可能用于实施本发明的各方面的诸如只读存储器 (ROM)的一些形式的持久存储器。I/O控制75代表用于通过通信信 道76、77接收和发送信号的接口电路。在所示的实施例中,所有主要 系统部件与可代表多于一个的物理或逻辑总线的总线71连接;但是, 总线结构不是实现本发明所需的。

在通过通用计算机系统实现的实施例中,为了与诸如键盘或鼠标 和显示器的设备接口连接,以及为了控制具有诸如磁带或盘的存储介 质或光学介质的存储设备78,可包括附加的部件。存储介质可被用于 记录用于操作系统、技术服务和应用的指令的程序,并且可包含实现 本发明的各方面的程序。

可通过按各种方式实现的部件执行实施本发明的各方面所需要的 功能,这些方式包括离散逻辑部件、集成电路、一个或更多个ASIC 和/或程序控制处理器。实现这些部件的方式对于本发明是不重要的。

可通过诸如基带或从超声到紫外频率的整个频谱的调制通信路径 的多种机器可读介质或通过使用包括磁带、卡或盘、光学卡或盘和包 含纸的介质上的可检测标记的基本上任何记录技术传输信息的存储介 质,来传输本发明的软件实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号