首页> 中国专利> 用以基于下混信号表示型态针对上混信号表示型态的供应来提供一个或多个经调整参数的装置、音频信号译码器、音频信号转码器、音频信号编码器、音频位串流、使用对象相关参数信息的方法与计算机程序

用以基于下混信号表示型态针对上混信号表示型态的供应来提供一个或多个经调整参数的装置、音频信号译码器、音频信号转码器、音频信号编码器、音频位串流、使用对象相关参数信息的方法与计算机程序

摘要

一种用以基于一下混信号表示型态及一对象相关参数信息针对一上混信号表示型态的一供应来提供一个或多个经调整参数的装置包括一参数调整器。该参数调整器被配置成接收一个或多个输入参数并基于该一个或多个输入参数提供一个或多个经调整参数。该参数调整器被配置成依赖于该一个或多个输入参数及该对象相关参数信息来提供该一个或多个经调整参数,使得由使用非最佳参数而引起的该上混信号表示型态的一失真至少针对偏离最佳参数超过一预定偏差的输入参数被减小。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-12-30

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/008 变更前: 变更后: 申请日:20100428

    专利权人的姓名或者名称、地址的变更

  • 2015-11-25

    授权

    授权

  • 2012-09-12

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20100428

    实质审查的生效

  • 2012-07-11

    公开

    公开

说明书

技术领域

根据本发明的实施例涉及一种用以基于一下混信号表示型态及一对 象相关参数信息针对一上混信号表示型态的供应来提供一个或多个经调 整参数的装置。

根据本发明的另一实施例涉及一音频信号译码器。

根据本发明的另一实施例涉及一音频信号转码器。

根据本发明的更进一步实施例涉及一用以提供一个或多个经调整参 数的方法。

根据本发明的更进一步实施例涉及一种基于一下混信号表示型态、一 对象相关参数信息及一期望渲染信息来提供多个上混音频信道作为一上 混信号表示型态的方法。

根据本发明的又一实施例涉及一种基于一下混信号表示型态、一对象 相关参数信息及一期望渲染信息来提供一下混信号表示型态及一信道相 关参数信息作为一上混信号表示型态的方法。

根据本发明的更进一步实施例涉及一音频信号编码器、一种用以提供 一编码音频信号表示型态的方法及一音频位串流。

根据本发明的更进一步实施例涉及相对应的计算机程序。

根据本发明的更进一步实施例涉及针对避免失真的音频信号处理的 方法、装置及计算机程序。

背景技术

在已知音频处理、音频传输与音频储存技术中,愈益期望处理多通道 内容以便提高听觉印象。多信道音频内容的使用为使用者带来显著的改 进。举例而言,获得一3维听觉印象,其在娱乐应用中提高使用者的满意 度。然而,多信道音频内容在例如电话会议应用的专业环境中也是有用的, 因为扬声器可懂度可通过使用一多信道音频播放来提高。

然而,还期望在音频质量与位率要求间有一良好折衷,以避免由多通 道应用导致的一过度资源加载。

最近,已提出了针对包含多个音频对象的音频场景的位率有效传输及 /或储存的参数技术,例如,双耳线索编码(类型I)(参见,例如参考文 献[BCC])、联合源编码(参见,例如参考文献[JSC])、及MPEG空间音频 对象编码(SAOC)(参见,例如参考文献[SAOC1]、[SAOC2])。

这些技术旨在感知地重建期望的输出音频场景而非用一波形匹配。

图8示出这一系统的一系统概观(这里:MPEG SAOC)。在图8中 示出的MPEG SAOC系统800包括一SAOC编码器810及一SAOC译码 器820。SAOC编码器810接收多个对象信号x1至xn,它们可被表示为例 如时域信号或时间-频率-域信号(例如,为一傅立叶类型转换的一组转换 系数的形式,或为QMF子频带信号的形式)。SAOC编码器810典型地也 接收下混系数d1至dn,它们与对象信号x1至xn相关联。诸组下混系数可 分别用于下混信号的每一信道。SAOC编码器810典型地被配置成通过根 据相关联的下混系数d1至dn组合对象信号x1至xn来获得下混信号的一信 道。典型地,下混信道比对象信号x1至xn少。为了在SAOC译码器820 端(至少近似)容许分离(或分开处理)对象信号,SAOC编码器810提 供一个或多个下混信号(表示为下混通道)812及一辅助(side)信息814。 辅助信息814说明对象信号x1至xN的特性以便容许一译码器端特定对象 处理。

SAOC译码器820被配置成接收该一个或多个下混信号812及辅助信 息814。再者,SAOC译码器820典型地被配置成接收说明一期望的渲染 设置的一使用者互动信息及/或一使用者控制信息822。举例而言,使用者 互动信息/使用者控制信息822可说明一扬声器设置及提供对象信号x1至 xN的对象的期望空间布局。

SAOC译码器820被配置成提供例如多个译码上混信道信号至上混信道信号可例如与一多扬声器渲染安排的个别扬声器相关联。SAOC 译码器820可例如包含一对象分离器820a,该对象分离器820a被配置成 基于一个或多个下混信号812及辅助信息814来至少近似重建对象信号x1至xN,借此获得重建对象信号820b。然而,重建对象信号820b可能略偏 离原始对象信号x1至xN,举例而言,因为辅助信息814由于比特流限制 不太够进行完美重建。SAOC译码器820可进一步包含一混合器820c,该 混合器820c可被配置成接收重建对象信号820b及使用者互动信息/使用者 控制信息822并基于它们来提供上混信道信号至混合器820可被 配置成使用使用者互动信息/使用者控制信息822来判定个别重建对象信 号820b对上混信道信号至的贡献。使用者互动信息/使用者控制信 息822可例如包含渲染参数(也被表示为渲染系数),这些渲染参数判定 个别重建对象信号822对上混信道信号至的贡献。

然而,应该注意的是,在许多实施例中,在单一步骤中执行用第8 图中对象分离器820a指示的对象分离与用第8图中混合器820c指示的混 合。为实现此目的,可计算说明一个或多个下混信号812到上混信道信号 至上的一直接映像之总参数。这些参数可基于辅助信息及使用者互 动信息/使用者控制信息820来计算。

现在参考图9a、图9b及图9c,将说明不同的用以基于一下混信号表 示型态及对象相关辅助信息来获得一上混信号表示型态之装置。图9a示 出一包含一SAOC译码器920之MPEG SAOC系统900的一方块示意图。 SAOC译码器920包含作为分离功能区块的一对象译码器922及一混合器 /渲染器926。对象译码器922依赖于下混信号表示型态(例如,为在时域 或时间-频率-域中表示的一个或多个下混信号的形式)及对象相关辅助信 息(例如,为对象元数据的形式)提供多个重建对象信号924。混合器/ 渲染器924接收与N个对象相关联的重建对象信号924并基于它们提供一 个或多个上混信道信号928。在SAOC译码器920中,对象信号924的采 集与混合/渲染分开执行,这允许将对象译码功能与混合/渲染功能分离但 带来一相当高的计算复杂度。

现在参考图9b,将简要讨论另一MPEG SAOC系统930,该MPEG  SAOC系统930包含一SAOC译码器950。SAOC译码器950依赖于一下 混信号表示型态(例如,为一个或多个下混信号的形式)及一对象相关辅 助信息(例如,为对象元数据的形式)提供多个上混信道信号958。SAOC 译码器950包含一组合的对象译码器与混合器/渲染器,该组合的对象译码 器与混合器/渲染器被配置成在一联合混合处理中获得上混信道信号958 而无需将对象译码与混合/渲染分开,其中该联合上混过程的参数是取决于 对象相关辅助信息与渲染信息。联合上混过程也取决于被视为对象相关辅 助信息的一部分之下混信息。

综上所述,可在一个一步骤过程或一个两步骤过程中执行提供上混信 道信号928、958。

现在参考图9c,将说明一MEPG SAOC系统960。SAOC系统960 包含一SAOC至MPEG环绕转码器而非一SAOC译码器。

SAOC至MPEG环绕转码器包含一辅助信息转码器982,该辅助信息 转码器982被配置成接收对象相关辅助信息(例如,为对象元数据的形式) 及可取舍地关于一个或多个下混信号的信息及渲染信息。辅助信息转码器 也被配置成基于一接收数据来提供一MPEG环绕辅助信息(例如,为一 MPEG环绕位串流的形式)。因此,辅助信息转码器982被配置成在计入 渲染信息及可取舍地有关一个或多个下混信号内容的信息之情况下将自 对象编码器出来的一对象相关(参数)辅助信息转换成一信道相关(参数) 辅助信息。

可取舍地,SAOC至MPEG环绕转码器980可被配置成操控例如下 混信号表示型态所描述的一个或多个下混信号以获得一经操控的下混信 号表示型态988。然而,下混信号操控器986可被省略使得SAOC至MPEG 环绕转码器980之输出下混信号表示型态988与SAOC至MPEG环绕转 码器之输入下混信号表示型态相同。举例而言,如果通道相关MPEG环绕 辅助信息984基于SAOC至MPEG环绕转码器980之输入下混信号表示 型态可能不能提供一期望的听觉印象(这在一些渲染群集(rendering  constellation)中可能如此),则可使用下混信号操控器986。

因此,SAOC至MPEG环绕转码器980提供下混信号表示型态988 及MPEG环绕位串流984使得多个上混信道信号可使用一接收MPEG环 绕位串流984与下混信号表示型态988的MPEG环绕译码器来产生,该多 个上混信道信号根据输入至SAOC至MPEG环绕转码器980的渲染信息 来表示音频对象。

综上所述,可使用译码SAOC编码音频信号的不同构想。在一些情 况中,一SAOC译码器被使用,该SAOC译码器依赖于下混信号表示型 态及对象相关参数辅助信息来提供上混信道信号(例如,上混信道信号 928、958)。在第9a与9b图中可见此构想的范例。可选择地,SAOC编 码音频信息可被转码以获得一下混信号表示型态(例如,一下混信号表示 型态988)及一信道相关辅助信息(例如,信道相关MPEG环绕位串流 984,),它们可被一MPEG环绕译码器使用以提供期望的上混信道信号。

在MPEG SAOC系统800中(此一系统概观在第8图中给出),一般 处理是以一频率选择方式来完成且在每一频带内可被如下说明:

作为SAOC编码器处理的一部分,N个输入音频对象信号x1至xN被 下混。对于一单声道下混,用d1至dN来表示下混系数。此外,SAOC编 码器810采集说明输入音频对象的特性的辅助信息814。对于MPEG SAOC,彼此间对象功率的关系是此一辅助信息的最基本形式。

(数)下混信号812及辅助信息814被传输及/或储存。为此目的, 下混音频信号可使用习知的感知音频编码器来压缩,诸如MPEG-1层II 或III(也称为“.mp3”)、MPEG高阶音频编码(AAC)、或任一其它音频 编码器。

●在接收端,SAOC译码器820感知地尝试使用经传输的辅助信息 814(当然还有一个或多个下混信号812)来恢复原始对象信号(「对象分 离」)。这些近似对象信号(也表示为重建对象信号820b)接着使用一渲染 矩阵被混合成一用M个音频输出信道表示(例如可用上混信道信号至 表示)的目标场景。对于一单声道输出,用r1至rN指定渲染矩阵系数。

●实际上,很少执行对象信号的分离,因为分离步骤(用对象分离器 820a指示)与混合步骤(用混合器820c指示)被组合成一单一转码步骤, 这通常极大地降低计算复杂度。

已发现这一方案在传输位率(仅需传输几个下混通道外加一些辅助信 息来代替N个离散对象音频信号或一离散系统)与计算复杂度(处理复杂 度主要有关于输出信道数目而非音频对象数目)方面都极其有效。对接收 端上的使用者的进一步好处包括自由选择对他/她的选择(单声道、立体声、 环绕、虚拟化耳机播放等等)的一渲染设置与使用者互动性特征:渲染矩 阵,及因而,输出场景可由使用者随意愿、个人偏好或其它准则来互动地 设置及改变。举例而言,可以将一群组的通话器一起置于一空间区域来与 其它剩余通话器最大的区别开。此互动性透过提供一译码器使用者接口来 实现:

对于每一传输声音对象,其相对层级及(对于非单声道渲染)渲染的 空间位置可被调整。这可随使用者改变相关联图形使用者接口(GUI)滑 动块的位置而实时发生(例如,对象层级=+5dB,对象位置=-30deg)。

然而,已发现的是,针对上混信号表示型态(例如,上混信道信号至)的供应之译码器端参数选择在一些情况中带来可闻降级。

鉴于此情况,本发明的目标是建立一种在提供一上混信号表示型态 (例如,为上混信道信号至的形式)时容许减小或甚至避免可闻失 真的构想。

发明内容

发明概要

此问题由一种根据权利要求1项所述之用以基于一下混信号表示型 态及一对象相关参数信息针对一上混信号表示型态之一供应来提供一个 或多个经调整的参数之装置、一种根据权利要求24项所述之音频信号译 码器、一种根据权利要求25项所述之音频信号转码器、一种根据权利要 求26、27、28项所述之方法、一种根据权利要求29项所述之音频信号编 码器、一种根据权利要求31项所述之方法、一种根据权利要求32项所述 之音频位串流及一种根据权利要求34项所述之计算机程序来解决。

根据本发明的一实施例产生一种用以基于一下混信号表示型态及一 对象相关参数信息针对一上混信号表示型态之一供应来提供一个或多个 经调整的参数之装置。该装置包含一参数调整器(例如,一渲染系数调整 器),该参数调整器被配置成接收一个或多个输入参数(例如,一渲染系 数或一期望渲染矩阵之一说明)并基于该一个或多个输入参数提供一个或 多个经调整的参数。该参数调整器被配置成依赖于该一个或多个输入参数 及该对象相关参数信息(例如,依赖于一个或多个下混系数、及/或一个或 多个物件层级差值、及/或一个或多个对象间相关性值)来提供该一个或多 个经调整参数,使得由使用非最佳参数引起的上混信号表示型态之一失真 至少针对偏离最佳参数超过一预定偏差之输入参数而减小。

根据本发明的此实施例是根据此想法:由不适当选择输入参数引起的 音频信号失真可通过针对上混信号表示型态之供应提供经调整参数来减 小,及通过计入对象相关参数信息能以良好准确度来执行经调整参数的供 应。已发现的是,使用对象相关参数信息容许获得可能由使用输入参数而 引起之可闻失真的一估计测度,这相应地容许提供适于将可闻失真保持在 一预定范围内或较输入参数适于减小可闻失真之经调整参数。对象相关信 息说明例如音频对象特性及/或给出有关编码器端对象处理的信息。

因此,通过提供一个或多个经调整参数,由使用不适当参数(例如, 不适当渲染系数)导致之不期望及往往恼人的音频信号失真可被减小或甚 至避免,其中在参数调整时计入对象相关参数信息有助于通过考虑可闻失 真的一相对可靠估计来确保有效减小及/或限制音频信号失真。

在一优选实施例中,该装置被配置成接收期望渲染参数作为输入参 数,这些期望渲染参数描述上混信号表示型态说明的一个或多个信道中多 个音频对象信号的一期望强度缩放。在此情况中,参数调整器被配置成依 赖于该一个或多个期望渲染参数提供一个或多个实际渲染参数。已发现的 是,选择不适当渲染参数带来使用此类不适当选择的渲染参数而获得之一 上混信号表示型态的一显著(及往往可闻)降级。再者,已发现的是,渲 染参数可依赖于对象相关参数信息被有效调整,因为对象相关参数信息考 虑到对由渲染参数(可由输入参数来定义)的一指定选择而引入之失真的 一估计。

在一优选实施例中,参数调整器被配置成依赖于对象相关参数信息及 一说明音频对象信号对下混信号表示型态的一贡献之下混信息来获得一 个或多个渲染参数限制值,使得一失真度量处在渲染参数值遵从渲染参数 限制值所定义的限制之一预定范围内。在此情况中,参数调整器被配置成 依赖于期望渲染参数及该一个或多个渲染参数限制值来获得实际渲染参 数,使得实际渲染参数遵从渲染参数限制值所定义的限制。计算渲染参数 限制值组成一计算上简单且可靠的机制以根据一失真度量确保可闻失真 在一可容许的范围内。

在一优选实施例中,参数调整器被配置成获得该一个或多个渲染参数 限制值使得在使用一遵从该一个或多个渲染参数限制值的渲染参数而渲 染之多个对象信号的一渲染迭加中一对象信号的一相对贡献与一下混信 号中对象信号的一相对贡献的差异不超过一预定差。已发现的是,若对象 信号之一渲染迭加中一对象信号的贡献类似于一下混信号中对象信号的 一贡献,则失真典型地足够小,而这些相对贡献的一强烈差异典型地带来 可闻失真。这是由于此事实:一对象信号(相对)层级较之下混信号表示 型态中对象信号(相对)层级的一强烈改变往往带来人工因素,因为往往 不可能以理想方式分离不同音频对象的对象信号。因此,已发现调整渲染 参数带来良好结果,借此透过选择渲染参数,对象信号的相对贡献仅被适 度改变。

在另一实施例中,参数调整器被配置成获得该一个或多个渲染参数限 制值使得一失真测度处在一预定范围内,该失真测度说明一由下混信号表 示型态说明的下混信号与使用该一个或多个遵从该一个或多个渲染参数 限制值之渲染参数而渲染的渲染信号间的相干性。已发现的是,对构成参 数调整器的输入参数之期望渲染参数的选择应该使得在下混信号表示型 态说明之下混信号与渲染信号间维持一足够「类似性」,因为若非如此上 混过程中获得可闻失真的风险十分高。

在又一优选实施例中,参数调整器被配置成计算一期望渲染参数(可 构成参数调整器的输入参数)之平方与一最佳渲染参数(可例如被定义为 一最小化一失真度量的渲染参数)之平方间的一线性组合以获得实际渲染 参数(可被装置输出为经调整参数)。在此情况中,参数调整器被配置成 依赖于一预定阈值参数T及失真度量来决定期望渲染参数与最佳渲染参 数对线性组合的一贡献,其中失真度量说明一使用该一个或多个期望渲染 参数而非最佳渲染参数以基于下混信号表示型态来获得上混信号表示型 态而引起之失真。此构想容许将失真减小至一可接受的测度,同时仍维持 期望渲染参数的一足够影响。根据此构想,计入限制可闻失真的一期望程 度可找到最佳渲染参数与期望渲染参数间的一合理良好折衷。

在一优选实施例中,参数调整器被配置成依赖于对感知降级的一计算 测度来提供一个或多个经调整参数,使得由使用非最佳参数引起且用感知 降级之计算测度表示之上混信号表示型态的一感知评估失真受限制。以此 方式,可实现参数可根据听觉印象来调整,从而避免一不可接受之欠佳听 觉印象,同时在依一使用者的期望来调整参数上仍提供足够的灵活性。

在一优选实施例中,参数调整器被配置成接收一说明一个或多个原始 对象信号的性质之对象性质信息,该一个或多个原始对象信号构成下混信 号表示型态说明之一下混信号的基础。在此情况中,参数调整器被配置成 考虑对象性质信息来提供经调整参数使得上混信号表示型态相对被包括 于上混信号表示型态中之对象信号的性质方面的一失真至少针对偏离最 佳参数超过一预定偏差之输入参数而减小。根据本发明的此实施例是根据 此发现:该一个或多个原始对象信号的性质可被用来评估是否输入参数合 适或应该被调整,因为期望提供上混信号使得上混信号的特性有关于该一 个或多个原始对象信号的特性,因为若非如此在许多情况下感知印象会明 显降级。

在一优选实施例中,参数调整器被配置成接收并考虑一对象信号音调 信息作为一对象性质信息以便提供该一个或多个经调整参数。已发现的 是,对象信号的音调是一对感知印象有明显影响的量,及应该避免选择明 显改变音调印象的参数以便拥有一良好听觉印象。

在一优选实施例中,参数调整器被配置成依赖于接收的对象信号音调 信息及一接收的对象功率信息来估计一理想渲染上混信号的音调。在此情 况中,参数调整器被配置成提供该一个或多个经调整参数,以当相比于估 计音调与使用输入参数而获得之一上混信号的音调间的差时减小估计音 调与使用该一个或多个经调整参数而获得之一上混信号的音调间的差,或 使估计音调与使用该一个或多个经调整参数而获得之一上混信号的音调 间的差保持在一预定范围内。使用此构想,能以高计算效率获得听觉印象 降级的一测度,该测度允许适当调整渲染参数。

在一优选实施例中,参数调整器被配置成执行输入参数的一时间与频 率变化调整。因此,可仅在此类调整实际上带来听觉印象的改进或避免听 觉印象的一明显降级之时间间隔或频率区域执行输入参数的调整来获得 经调整参数。

还在另一优选实施例中,参数调整器被配置成亦考虑提供该一个或多 个经调整参数之下混信号表示型态。计入下混信号表示型态,可获得听觉 印象可能的失真的一更加精确估计。

在一优选实施例中,参数调整器被配置成获得一总失真测度,其为说 明多个人工因素类型之失真测度的一组合。在此情况中,参数调整器被配 置成获得总失真测度使得总失真测度是由使用一个或多个输入渲染参数 而非最佳渲染参数以基于下混信号表示型态来获得上混信号表示型态而 引起之失真的一测度。通过组合说明多个人工因素类型的多个失真测度, 建立一调整听觉印象的良好控制机制。

根据本发明的另一实施例产生一种用以基于一下混信号表示型态、一 对象相关参数信息及一期望渲染信息来提供多个上混音频信道作为一上 混信号表示型态之音频信号译码器。该音频信号译码器包含一上混器,该 上混器被配置成基于该下混信号表示型态并依赖于对象相关参数信息及 一实际渲染信息来获得上混音频信道,该实际渲染信息说明由对象相关参 数信息说明之音频对象之多个对象信号至上混音频信道的一分配。该音频 信号译码器亦包含一种用以提供如上讨论一个或多个经调整参数之装置。 用以提供一个或多个经调整参数的装置被配置成接收期望渲染信息作为 该一个或多个输入参数并提供该一个或多个经调整参数作为实际渲染信 息。用以提供一个或多个经调整参数的装置亦被配置成提供该一个或多个 经调整参数使得由使用偏离最佳渲染参数之实际渲染参数而引起之上混 音频信道的失真至少针对偏离最佳渲染参数超过一预定偏差之期望渲染 参数被减小。

在一音频信号译码器中使用用以提供该一个或多个经调整参数之装 置容许避免产生由用不当选择期望渲染信息执行音频译码而引起之强烈 可闻失真。

根据本发明的一实施例产生一种用以基于一下混信号表示型态、一对 象相关参数信息及一期望渲染信息提供一信道相关参数信息作为一上混 信号表示型态之音频信号转码器。该音频信号转码器包含一辅助信息转码 器,该辅助信息转码器被配置成基于下混信号表示型态并依赖于对象相关 参数信息及一实际渲染信息来获得信道相关参数信息,该实际渲染信息说 明由对象相关参数信息说明之音频对象之多个对象信号至上混音频信道 的一分配。该音频信号译码器亦包含一种用以提供如上讨论一个或多个经 调整参数之装置。用以提供一个或多个经调整参数的装置被配置成接收期 望渲染信息作为该一个或多个输入参数并提供该一个或多个经调整参数 作为实际渲染信息。再者,用以提供该一个或多个经调整参数的装置被配 置成提供该一个或多个经调整参数使得由使用偏离最佳渲染参数之实际 渲染参数引起、由信道相关参数信息(结合下混信号信息)表示之上混音 频信道的失真至少针对偏离最佳渲染参数超过一预定偏差之期望渲染参 数减小。已发现的是,提供经调整参数的构想也十分适于结合一音频信号 转码器使用。

根据本发明的进一步实施例产生一种用以提供一个或多个经调整参 数的方法,一种译码一音频信号之方法及一种转码一音频信号之方法。这 些方法是以与如上所讨论装置相同的关键想法为基础。

根据本发明的另一实施例产生一种用以基于多个对象信号来提供一 下混信号表示型态及一对象相关参数信息之音频信号编码器。该音频编码 器包含一下混器,该下混器被配置成依赖于与对象信号相关联的下混系数 来提供一个或多个下混信号,使得该一个或多个下混信号包含多个对象信 号的一迭加。该音频编码器也包含一辅助信息提供器,该辅助信息提供器 被配置成提供一说明对象信号的层级差与相关性特性之对象间关系辅助 信息与一说明个别对象信号的一个或多个个别性质之个别对象辅助信息。 已发现的是,一音频信号编码器提供一对象间关系辅助信息与一个别对象 辅助信息容许有效减小或甚至避免一多信道音频信号译码器端的可闻失 真。对象间关系辅助信息被用于在译码器端分离对象信号,个别对象辅助 信息可被用于决定是否对象信号的个别特性在译码器端被维持,这指示失 真在可接受容许度内。

在一优选实施例中,辅助信息提供器被配置成提供个别对象辅助信息 使得个别对象辅助信息说明个别对象的音调。已发现的是,个别对象的音 调是一心里声学上重要的量,其容许失真的一译码器端限制。

根据本发明的一实施例产生一种用以编码一音频信号之方法。

根据本发明的另一实施例产生一种以一编码形式表示多个(音频)对 象信号之音频位串流。该音频位串流包含一表示一个或多个下混信号之下 混信号表示型态,其中至少一下混信号包含多个(音频)对象信号的一迭 加。该音频位串流也包含一说明对象信号的层级差与相关性特性之对象间 关系辅助信息与一说明个别对象信号的一个或多个个别性质之个别对象 辅助信息。如上所述,这一音频位串流使多信道音频信号的一重建成为可 能,其中可识别并减小或甚至消除由不当设置渲染参数引起的可闻失真。

根据本发明之进一步的实施例产生一种用以实施上面所讨论方法的 计算机程序。

附图说明

参考附图随后将说明根据本发明的实施例,其中:

图1示出一用以基于一下混信号表示型态及一对象相关参数信息针 对一上混信号表示型态之供应来提供一个或多个经调整参数之装置的一 方块示意图;

图2根据本发明一实施例示出了一MPEG SAOC系统的一方块示意 图;

图3根据本发明另一实施例示出了一MPEG SAOC系统的一方块示 意图;

图4示出了对象信号对一下混信号及对一混合信号的一贡献的一示 意表示型态;

图5a根据本发明一实施例示出了一基于单声道下混的SAOC至 MPEG环绕转码器的一方块示意图;

图5b根据本发明一实施例示出了一基于立体声下混的SAOC至 MPEG环绕转码器的一方块示意图;

图6根据本发明一实施例示出了一音频信号编码器的一方块示意图;

图7根据本发明一实施例示出了一音频位串流的一示意表示型态;

图8示出了一参考MPEG SAOC系统的一方块示意图;

图9a示出了一使用一分离的译码器及混合器的参考SAOC系统的一 方块示意图;

图9b示出了一使用一整合的译码器及混合器之参考SAOC系统的一 方块示意图;以及

图9c示出了一使用一SAOC至MPEG转码器的参考SAOC系统的 一方块示意图。

具体实施方式

1.根据图1用以提供一个或多个经调整参数的装置

下面将参考图1说明一用以基于一下混信号表示型态及一对象相关 参数信息针对一上混信号表示型态的供应来提供一个或多个经调整参数 的装置100。图1示出了这一装置100的一方块示意图,该装置100被配 置成接收一个或多个输入参数110。输入参数110可例如是期望渲染参数。 装置100也被配置成基于输入参数110提供一个或多个经调整参数120。 经调整参数可例如是经调整渲染参数。装置100进一步被配置成接收一对 象相关参数信息130。该对象相关参数信息130可例如是描述多个对象的 一对象层级差信息及/或一对象间相关信息。装置100包含一参数调整器 140,该参数调整器140被配置成接收该一个或多个输入参数110并基于 该一个或多个输入参数110来提供该一个或多个经调整参数120。参数调 整器140被配置成依赖于该一个或多个输入参数110及对象相关参数信息 130来提供该一个或多个经调整参数120,使得至少针对偏离最佳参数超 过一预定偏差的输入参数110,减小在一用以基于一下混信号表示型态及 对象相关参数信息130提供一上混信号表示型态的装置中由使用非最佳参 数(例如,该一个或多个输入参数110)而引起的一上混信号表示型态的 失真。

因此,装置100接收该一个或多个输入参数110并基于它们提供该一 个或多个经调整参数120。在提供该一个或多个经调整参数120时,若该 一个或多个输入参数110被用以基于一下混信号表示型态及对象相关参数 信息130来控制一上混信号表示型态的一供应,则装置100明确地或隐性 地判定是否不改变使用该一个或多个输入参数110将导致无法接受的高失 真。因此,经调整参数120典型地比该一个或多个输入参数110较适于调 整这一提供上混信号表示型态的装置,至少在该一个或多个输入参数110 以一不利方式被选择时。

因此,装置100典型地改善一上混信号表示型态的感知印象,该上混 信号表示型态由一上混信号表示型态提供器依赖于该一个或多个经调整 参数120来提供。使用对象相关参数信息来调整该一个或多个输入参数以 获得该一个或多个经调整参数已被发现带来良好结果,因为若该一个或多 个经调整参数120对应于对象相关参数信息130则上混信号表示型态的质 量通常良好,而违反与对象相关参数信息130的期望关系的参数典型地造 成可闻失真。对象相关参数信息可例如包含下混参数,这些下混参数说明 对象信号(来自多个音频对象)对该一个或多个下混信号的一贡献。对象 相关参数信息也能可选择地或额外地包含说明对象信号的特性的对象层 级差及/或对象间相关参数。已发现的是,说明对象信号的一编码器端处理 的参数与说明音频对象自身特性的参数都可被视作有用信息供参数调整 器120使用。然而,其它对象相关参数信息130可被装置100可选择或额 外地使用。

然而,应该注意的是,参数调整器140可使用额外信息以便提供基于 该一个或多个输入参数110来提供该一个或多个经调整参数120。举例而 言,参数调整器140能可取舍地评估下混系数、一个或多个下混信号或任 一额外信息以甚至改进该一个或多个经调整参数120的供应。

2.根据图2的系统

下面将详细说明图2的MPEG SAOC系统200。

为了提供对MPEG SAOC系统200的一良好理解,将给出对期望系 统规格及设计考虑的一概述。随后,将给出系统的一结构概述。此外,将 讨论多个SAOC失真度量,及将说明针对一失真限制的这些SAOC失真 的应用。此外,将讨论系统200的进一步延伸。

2.1系统设计考虑

如上讨论,针对包含多个音频对象的音频场景的位率有效传输/储存 的参数技术典型地在传输位率与计算复杂度方面是有效的。对此系统使用 者在接收端上的进一步好处包括自由选择对他/她的选择(单声道、立体声、 环绕、虚拟化耳机播放、等等)的一渲染设置与使用者互动性特征:渲染 矩阵,及因而,输出场景可随意愿、个人偏好或其它准则来互动地设置及 改变。举例而言,可以将一群组的通话器一起置于一空间区域来与其它剩 余通话器最大的区别开。此互动性透过提供一译码器使用者接口来实现:

对于每一传输声音对象,其相对层级及(对于非单声道渲染)渲染的 空间位置可被调整。这可随使用者改变相关联图形使用者接口(GUI)滑 动块的位置而实时发生(例如,对象层级=+5dB,对象位置=-30deg)。然 而,已发现的是,由于使用下混分离/混合式参数方法,渲染音频输出的主 观质量取决于渲染参数设置。已发现的是,相对对象层级上的改变对最后 音频质量的影响多于空间渲染位置上的改变(「再平移」)。也已发现的是, 相对参数的极端设置(例如,+20dB)甚至可导致无法接受的输出质量。 虽然这只是违反一些构成此方案基础的感知假定的结果,但对于商业产品 而言仍无法接受依使用者接口上的设置而产生不良的声音及人工因素。因 此,根据本发明的实施例类似例如系统200处理此避免无法接受降级问题, 而不管使用者接口的设置(该使用者接口设置可被视作「输入参数」)。

下面将讨论有关避免SAOC失真方法的一些细节。本文所呈现的 SAOC失真限制的方法是以下列构想为基础:

突出的SAOC失真因不当选择渲染系数(可被视作输入参数)而出 现。此选择通常由使用者以一互动方式来作出(例如,经由交互式应用程 序的一实时图形使用者接口(GUI))。因此,引入一额外的处理步骤,该 步骤修改使用者提供的渲染系数(例如,根据某些计算限制它们)并将这 些经修改系数用于SAOC渲染引擎。举例而言,使用者提供的渲染系数可 被视作输入参数,及SAOC渲染引擎的经修改系数可被视作经修改参数。

为控制产生的SAOC音频输出的过度降级,期望开发感知降级的一 计算测度(也被指定为失真测度DM)。已发现的是,此失真测度应该满 足某准则:

该失真测度应易于从SAOC译码引擎的内部参数中计算出。举例而 言,期望无需额外滤波器组计算来获得失真测度。

该失真测度值应该与主观感知声音质量(感知降级)相关,也即符合 心里声学的基本原理。为此目的,可优选地以一频率选择方式来完成失真 测度的计算,因为其通常自感知音频编码及处理知晓。

已发现的是,众多SAOC失真测度可被定义及计算。然而,已发现 的是,SAOC失真测度应该优选地考虑某些基本因素以便对一渲染SAOC 质量做出一正确评估及因而往往(但不一定)具有某些共性:

它们考虑下混系数。这些下混系数判定该一个或多个下混信号中每一 音频对象的相对混合部分。作为一背景信息,应该指出的是,已发现出现 的SAOC失真取决于下混系数与渲染系数间的关系:如果渲染系数定义的 相对对象贡献实质上不同于下混中的相对对象贡献,则SAOC译码引擎 (使用经调整参数)必须对下混信号执行相当大的调整来将其转换为渲染 输出。已发现这导致SAOC失真。

它们考虑渲染系数。这些渲染系数判定每一音频对象对该一个或多个 渲染输出信号中的每一者的相对输出强度。作为一背景信息,应该指出的 是,已发现出现SAOC失真也取决于彼此间对象功率的关系。如果在某一 时间点的一对象具有比其它对象高得多的功率(及如果此对象的下混系数 不是很小的话),则此对象支配下混并被很好地在渲染输出信号中重现。 相比之下,弱对象在下混时仅被很弱地表示及因而在没有显著失真的情况 下无法被提至高输出层级。

它们考虑每一对象相对于另一对象的(相对)对象功率/层级。此信 息被描述为例如一SAOC对象层级差(OLD)。作为一背景信息,应该指 出的是,已发现出现SAOC失真进一步取决于个别对象信号的性质。例如, 将渲染输出中具有音调性质的一对象提升到较大层级(而其它对象可能更 多为具有类似噪声性质的)将导致相当大的感知失真。

除此之外,可考虑其它有关原始对象信号性质的信息。这些信息接着 可被SAOC编码器作为SAOC辅助信息的一部分来传输。举例而言,有 关每一对象项的音调或噪度的信息可作为SAOC辅助信息的一部分被传 输且被用于达到限制失真的目的。

2.2系统概述

根据上述考虑,现在将给出对MPEG SAOC系统200的一概述以很 好地理解本发明。应该指出的是,根据图2的SAOC系统200是根据图8 的MPEG SAOC系统800的一延伸形态,因此上述讨论也适用。再者,应 该指出的是,MPEG SAOC系统200可根据图9a、图9b及图9c中示出的 实施备选900、930、960来修改,其中对象编码器对应于SAOC编码器, 其中使用者互动信息/使用者控制信息822对应于渲染控制信息/渲染系 数。

此外,MPEG SAOC系统100的SAOC译码器可用分离式对象译码 器与混合器/渲染器安排920来替换、用整合式对象译码器与混合器/渲染 器安排930或SAOC至MPEG环绕转码器980来替换。

现在参考图2,可见的是,MPEG SAOC系统200包含一SAOC编码 器210,该SAOC编码器210被配置成接收与自1至N编号的多个对象相 关联之多个对象信号x1至xN。该SAOC编码器210也被配置成接收(或 者获得)下混系数d1至dN。举例而言,SAOC编码器210可针对其提供 的下混信号212的每一信道获得一组下混系数d1至dN。SAOC编码器210 可例如被配置成获得对象信号x1至xN的一加权组合以获得一下混信号, 其中各该对象信号x1至xN用与其相关联的下混系数d1至dN来加权。SAOC 编码器210还被配置成获得说明不同对象信号间的一关系的对象间关系信 息。举例而言,对象间关系信息可包含例如为OLD参数形式的对象层级 差信息与例如为IOC参数形式的对象间相关信息。因此,SAOC编码器 200接着被配置成提供一个或多个下混信号212,该一个或多个下混信号 212中的每一个包含一个或多个对象信号的一加权组合,该一个或多个对 象信号根据一组与各自下混信号(或多信道下混信号212的一信道)相关 联的下混参数来加权。SAOC编码器210还被配置成提供辅助信息214, 其中辅助信息214包含对象间关系信息(例如,为对象层级差参数与对象 间相关参数的形式)。辅助信息214还包含一下混参数信息,例如,为下 混增益参数与下混通道层级差参数的形式。辅助信息214可进一步包含一 可表示个别对象性质的可取舍对象性质辅助信息。下面将讨论有关可取舍 对象性质辅助信息的细节。

MPEG SAOC系统200也包含一SAOC译码器220,该SAOC译码器 220可包含SAOC译码器820的功能。因此,SAOC译码器220接收一个 或多个下混信号212及辅助信息214以及经修改(或「经调整」,或「实 际的」)渲染系数222并基于它们提供一个或多个上混信道信号至

MPEG SAOC系统200也包含一用以依赖于一个或多个输入参数,即 说明一渲染控制信息或渲染系数242的输入参数来提供一个或多个经修改 (或「经调整」,或「实际的」)参数,即经修改渲染系数222的装置240。 装置240被配置成还接收至少辅助信息214的一部分。举例而言,装置240 被配置成接收说明对象功率(例如,对象信号x1至xN的功率)的参数214a。 举例而言,参数214a可包含对象层级差参数(也表示为OLD)。装置240 也优选地接收说明下混系数的辅助信息214的参数214b。举例而言,参数 214b说明下混系数d1至dN。可取舍地,装置240可进一步接收组成一个 别对象性质辅助信息的额外参数214c。

装置240大体上被配置成基于输入渲染系数242(可例如自一使用者 接口接收,或可例如依赖于使用者输入来计算或作为预设信息被提供)来 提供经修改渲染系数222,使得由SAOC译码器220使用非最佳渲染参数 而引起的上混信号表示型态的一失真被减小。换言之,经修改渲染系数222 是输入渲染系数242的一修改版本,其中依赖于参数214a、214b来作出 改变使得上混信道信号至(形成上混信号表示型态)中所有可闻失 真被减小或被限制。

用以提供该一个或多个经调整参数242的装置240可例如包含一渲染 系数调整器250,该渲染系数调整器250接收输入渲染系数242并基于它 们提供经修改渲染系数222。为此目的,渲染系数调整器250可接收一说 明由使用输入渲染系数242而引起的失真的失真测度252。失真测度252 可例如由失真计算器260依赖于参数214a、214b及输入渲染系数242来 提供。

然而,渲染系数调整器250与失真计算器260的功能也可被整合于一 单一功能单元中,使得在没有显式计算一失真测度252的情况下提供经修 改的渲染系数222。当然,可应用减小或限制失真测度的隐式机制。

关于MPEG SAOC系统200的功能,应该指出的是,以上混信道信 号至形式输出的上混信号表示型态以良好感知质量被产生,因为通 过修改或调整渲染系数避免了可闻失真,这些可闻失真系由参考系统800 中不当选择使用者互动信息/使用者控制信息822而引起。修改或调整由装 置240执行使得感知印象的严重降级被避免,或使得较之输入渲染系数 242被SAOC译码器220直接使用(没有修改或调整)的一情况时感知印 象的降级至少被减小。

下面将简要概述本发明构想的功能。在指定一失真测度(DM)的情 况下,可通过计算指定信号的失真测度值并修改SAOC译码算法(限制实 际使用的渲染系数212)使得失真测度值不超过某一阈值值来避免音频输 出中的过度失真。根据此构想的一系统200在图2中被示出并在上面已被 较详细地阐述。

关于系统200,可做下列论述:

期望渲染系数242由使用者或另一接口输入。

在被应用于SAOC译码引擎220之前,渲染系数242被一渲染系数 调整器250修改,该渲染系数调整器250使用一失真计算器260提供的一 个或多个经计算失真测度252。

失真计算器260评估出自辅助信息214(例如,相关对象功率/OLD、 下混系数及可取舍地对象信号性质信息)的信息(例如,参数214a、214b)。 此外,它是基于期望渲染系数输入242。

在一优选实施例中,装置240被配置成根据一失真测度来修改渲染系 数。优选地,使用例如频率选择权重以一频率选择方式调整渲染系数。

渲染系数的修改可以此帧(例如,一目前帧)为基础、或渲染系数不 仅可在逐帧基础上随时间被调整,而且还随时间被处理/控制(例如,随时 间被平滑化),其中如针对一动态范围压缩器/限制器可能可应用不同的起 音/衰减时间常数。

在一些实施例中,失真测度可以是频率选择的。

在一些实施例中,失真测度可考虑下列一个或多个特性:

每一物件的功率/能量/层级

下混系数

渲染系数;及/或

额外对象性质辅助信息,如果适用的话

在一些实施例中,失真测度可以每对象为基础来计算并组合达成一总 失真。

在一些实施例中,一额外对象性质辅助信息214c能可取舍地被评估。 额外对象性质辅助信息214c可在一增强型SAOC编码器中读取,例如, SAOC编码器210。额外对象性质辅助信息可被例如植入一增强型SAOC 位串流中,该增强型SAOC位串流将参考图7被说明。再者,额外对象性 质辅助信息可被一增强型SAOC译码器用于失真限制。

在一特殊情况中,噪度/音调可被用作额外对象性质辅助信息所说明 的对象性质。在此情况中,噪度/音调比之其它对象参数(例如,OLD) 能以粗略得多的频率分辨率来传输以保存于辅助信息上。在一极端情况 中,噪度/音调对象性质辅助信息能以每对象仅一信息来传输(例如,如宽 带特性)。

2.3SAOC失真度量

下面将说明多个不同失真测度,该多个不同失真测度可例如使用失真 计算器260而获得。在下面2.4节将讨论应用这些失真测度来限制渲染系 数的细节。

换言之,此节概述数个失真测度。这些失真测度可个别使用或例如通 过将个别失真度量值加权相加而可被组合形成一复合、更复杂失真度量。 应该注意的是,这里词语「失真测度」与「失真度量」表示类似的量且在 大部分情况中不需要区分。

下面将说明多个失真度量,该多个失真度量可被失真计算器260评估 且可被渲染系数调整器250使用,以便基于输入渲染系数242获得经修改 渲染系数222。

2.3.1失真测度#1

下面将说明一第一失真测度(也表示为失真测度#1)。

为了构想简单易懂,将考虑一N-1-1SAOC系统(例如,一单声道下 混信号(212)及一单一上混信道(信号))。N个输入音频对象被下混成 一单声道信号并被渲染成一单声道输出。如图8中指定,用d1..dN表示下 混系数及用r1..rN表示渲染系数。在下面公式中,为了简单明了,已省略 了时间指数。同样地,已去掉了频率指数,要注意的是,方程式有关于子 频带信号。在下面的一些方程式中,小写字母表示系数或信号,及大写字 母表示可从方程式的脉络中看出的相对应的功率。此外,应该注意的是, 信号有时用相对应时间-频率-域而非时域系数表示。

假定,对象#m(听觉对象指数m)是受关注的一对象,例如最主要 对象,其相对层级被增加且因而限制总声音质量。那么理想的期望输出信 号(上混信道信号)由

y^1;=[xm·rm]+[Σi=1;imNxi·ri]---(1)

指定。这里,第一项是受关注对象对输出信号的期望贡献,而第二项 表示所有其它对象的贡献(「干扰」)。

然而,事实上,由于要经过下混处理,所以输出信号由

y1;=t·Σi=1Nxi·di=[xm·t·dm]+[Σi=1;imNxi·t·di]---(2)

指定,也即下混信号随后被一转码系数t缩放,该转码系数t对应于 一MPEG环绕译码器中的“m2”矩阵。同样地,这可被分为一第一项(对 象信号对输出信号的实际贡献)与一第二项(其它对象信号的实际「干 扰」)。这里,SAOC系统(例如,SAOC译码器220及可取舍地还有装置 240)动态地决定转码系数t,使得实际渲染输出信号的功率匹配于理想信 号的功率:

Y^1=Y1t2=Σi=1Nri2·XiΣi=1Ndi2·Xi---(3)

通过计算对象#m的理想功率贡献与其实际功率贡献间的关系可定义 一失真测度(DM):

这里,表示最终渲染信号的功率,及是下混信号的功 率。要指出的是,在一实际实施中,Xi值可用作为SAOC辅助信息214的 一部分被传输的相对应对象层级差(OLDi)值来直接替换。

为更好解释dm1,其定义可再用公式表示如下:

dm1(m)=rm2·Σi=1Ndi2·Xidm2·Σi=1Nri2·Xi=rm2·XmΣi=1Nri2·Xidm2·XmΣi=1Ndi2·Xi---(4a)

实际上,这意为失真度量是理想渲染(输出)信号中对下混(输入) 信号中相对对象功率贡献的比。这与以下发现相配:SAOC方案在其不必 以大因子来改变相对对象功率时效果最佳。

增加dm1值指示降低声音对象#m的声音质量。已发现的是,若所有 渲染系数被缩放一公共因子,或若所有下混系数被同样地缩放,则dm1值 仍是常数。此外,已发现的是,增加对象#m的渲染系数(增加其相对层 级)导致失真增加。dm1值可如下理解:

值1指示对象#m的理想质量;

增加dm1值使其大于1指示降低质量;

小于1的dm1值不进一步提高对象#m的质量。

因此,声音场景质量的一总测度(也即,所有对象的质量)可如下计 算:

DM1=Σm=1Nw(m)·max[dm1(m),1]Σm=1Nw(m)---(5)

在此方程式中,w(m)指示对象#m的一加权因子,该加权因子有关 于音频场景内特定对象的显著性与敏感性。如一范例,w(m)接着可依 对象功率/响度来选择w(m)=(rm2Xm)α,其中α可典型地被选为0.25 来粗略仿真此对象的心理声学响度增长。此外,w(m)可计入音调与遮 蔽现象。可选择地,w(m)可被设为1,这有助于计算DM1

2.3.2失真测度#2

自方程式(4)开始可建构一选替失真测度来形成一噪声遮蔽比 (NMR)式的一感知测度,也即计算噪声/干扰与遮蔽阈值间的关系:

在此方程式中,msr是取决于其音调的总音频信号的遮蔽对信号比。 dm2值增加指示声音对象#m的失真较高。再者,若所有渲染系数被缩放一 公共因子,或若所有下混系数被同样地缩放,则dm2值仍是常数。dm2的 值范围可如下理解:

值0指示对象#m的理想质量;

增加dm2值使其大于1指示渐进可闻降级;

小于1的dm2值指示对象#m无法区分的质量。

因此,声音场景质量的一总测度(也即,所有对象的质量)可如下计 算:

DM2=Σm=1Nw(m)·max[dm2(m),1]Σm=1Nw(m)---(7)

同样,w(m)指示对象#m的一加权因子,该加权因子有关于音频场 景内特定对象的显著性/层级/响度,通常选为w(m)=(rm2Xm)α,其中 α=0.25。

方程式(6)的失真测度计算作为功率差的失真(这对应于一「具有 频谱差的NMR」量测)。可选择地,失真可在一波形基础上来计算,这导 致如下包括一额外混合乘积项的测度:

|rm2·Σi=1Ndi2·Xi+dm2·Σi=1Nri2·Xi-2·dmrm·(Σi=1Nri2·Xi)·(Σi=1Ndi2·Xi)|·Xmmsr·(Σi=1Nri2·Xi)·(Σi=1Ndi2·Xi)---(8)

2.3.3失真测度#3

一第三失真测度被提出,该第三失真测度说明下混信号与渲染信号间 的相干性。较高相干性造成主观主观声音质量。此外,若IOC数据在SAOC 译码器出现,可计入输入音频对象的相关性。

由SAOC参数(例如,参数214a,其可包含对象层级差参数及对象 间相关参数)可决定对象共变异数的一模型

E=OLDT·OLD·IOC

为计算失真测度,组合一包含渲染及下混系数的矩阵M(M可被理 解为N-1-2SAOC系统的一渲染矩阵)

M=r1r2···rNd1d2···dN

下混与渲染信号间的变异数C则为

C=M·E·M*=c11c12c21c22

一失真测度DM3被定义为

DM3=1-min(|c12|c11·c22,1)

DM3的值可如下理解:

值在范围[0..1]内且指示下混与渲染信号间的相干性。

值0指示理想质量。

增加DM3值指示降低质量。

2.3.4失真测度#4

2.3.4.1概述

此方法打算使用目标渲染能量(UPMIX)与最佳下混能量(自指定 下混DMX而计算)间的平均加权比作为一失真测度。

详情也请参考图4,图4示出下混(DMX)、最佳下混能量(DMX_opt) 及目标渲染能量(UPMIX)的一图形表示型态。

2.3.4.2命名

ch={1,2,...,Nch}上混通道指数

dx={1,2}          下混通道指数

ob={1,2,...,Nob}音频对象指数

pb={1,2,...,Npb}参数频带指数

rch,ob,pb=r(ch,ob,pb)针对信道ch、音频对象ob及参数频带pb的渲染 矩阵

ddx,ob,pb=d(dx,ob,pb)针对下混信道dx、音频对象ob及参数频带pb的 下混矩阵

wob,pb=w(ob,pb)加权因子,其表示针对参数频带pb之音频对象ob的 显著性/层级/响度

NRGpb=NRG(pb)针对频带pb具有最高能量的音频对象的绝对对 象能量

OLDob,pb=OLD(ob,pb)对象层级差,其说明一音频对象ob与针对相 对应频带pb具有最高能量的对象间的强度差

对象间相关性,其说明音频对象的两信道 间的相关性。

2.3.4.3算法

下面将简要说明一用以获得失真测度#4的算法的步骤:

计算上混与下混相对能量:

r^ch,ob,pb2=OLDob,pb·rch,ob,pb2,d^dx,ob,pb2=OLDob,pb·ddx,ob2.

正规化能量,使得Σob=1Nobr~ch,ob,pb2=1Σob=1Nobd~dm,ob,pb2=1:

r~ch,ob,pb2=r^ch,ob,pb2Σob=1Nobr^ch,ob,pb2,d~dm,ob,pb2=d^dm,ob,pb2Σob=1Nobd^dm,ob,pb2.

建构每一上混通道与频带的最佳下混

dch,ob,pb2(opt)=αch,ob,pb·d~1,ob,pb2+βch,ob,pb·d~2,ob,pb2.

通过解线性方程式的超定系统满足下列条件: 来计算乘法常数αch,ob,pb、βch,ob,pb

计算失真测度:

DM4=Σob=1NobΣch=1Nch|1-r~ch,ob,pb2dch,ob,pb2(opt)|wob,pbr^ch,ob,pb2.

2.3.4.4失真控制

失真控制通过依赖于失真测度DM4限制一个或多个渲染系数来实 现。

可指出的是,(i)测度仅对于立体声下混情况是相关的,及(ii)对 于#dx=1及#ch=1的情况,其可简化为DM1。

2.3.4.5性质

下面将简要概述用以计算失真测度#4之构想的性质。此构想

●假定理想转码

●可处理立体声下混;以及

●容许对一多通道渲染进行一般化。

2.3.5失真测度#5

转码系数t的一选替计算被提出。它可被理解为t的一延伸且造成转 码矩阵T,该转码矩阵T以包含对象间相干(IOC)且同时将目前度量DM#1 与DM#2延伸至立体声下混与多信道上混为特征。目前实施转码系数t考 虑实际渲染输出信号的功率与理想渲染信号的功率的匹配,也即

t2=Σi=1Nri2XiΣi=1Ndi2Xi.

共变异数矩阵E的并入产生了t的一经修改公式,即转码矩阵T,其 也考虑物件间相干。由SAOC参数214计算出E的元素为

eij=OLDiOLDjIOCij.

转码矩阵表示下混至渲染输出信号的转换使得TDx≈Rx。其透过使均 方误差最小化而获得,产生

T=RED*(DED*)-1

其中H=RED*hij=Σl=1NΣm=1Nrildjmelm

及V=DED*vij=Σl=1NΣm=1Ndildjmelm

dm1形式的失真测度可现在对于对象m的每一下混/渲染组合(n,k) 由

dm5(m,n,k)=rm,k2vn,ndm,n2hk,n

指定。单独考虑左与右下混通道的dm1(m)得出

dmL(m,k)=rm,k2v1,1dm,12hk,1dmR(m,k)=rm,k2v2,2dm,22hk,2.

可假定的是,两下混/上混路径中的优选者是有关于渲染输出的质量, 因而测度对应于最小值,也即

dm5(m,k)=min[dmL,dmR].

用指数k指定的所有输出通道的一总测度可被计算为

dm5(m)Σk=1NChdm5(m,k)rm,k2XmΣk=1NChrm,k2ek,k.

所有对象的总测度可由

DM5=Σm=1Nw(m)max[dm5(m),1]Σm=1Nw(m)来获得,其中同前述w(m)=[rm2Xm]α

对于dm2与t至T的一类似延伸是可能的。

2.3.6失真测度#6

下面将说明一第六失真测度。

令ei(t)为对象信号#i的平方Hilbert包络及Pi为对象信号#i的功率 (典型地都在一子频带内),则音调/类似噪声的一测度N可由对Hilbert 包络的一正规化变异数估计来获得,如

Ni=var{ei}Pi2

可选择地,同样Hilbert包络差信号的功率/变异数可替代Hilbert包络 本身的变异数使用。在任一情况中,该测度说明包络波动随时间的强度。

此音调/类似噪声测度N可针对理想渲染信号混合与实际SAOC渲染 声音混合二者来决定及一失真测度可由该两者间的差来计算,例如:

DM6=|N理想-N实际|β

其中β是一参数(例如,β=2)。

2.3.7针对参考场景与SAOC渲染场景计算源信号影像的能量

为计算用于失真测度之参考场景与SAOC渲染场景中源影像的对象 能量,对于SAOC渲染场景我们必须计入转码矩阵T,如其在「失真量测 5」中所执行的那样,而对于参考场景与渲染场景二者还要计入源信号的 相关性。

注意:大写的信号的符号在这里反映信号的矩阵符号,而非前面章节 中的信号能量

对于一任意源xm,所有源xi中xm的信号部分可被如下计算:

将所有源信号xi分成一相关于受关注对象xm的信号部分xi‖m与一不相 关于xm的部分xi⊥m。这可由xm至所有信号xi上的子空间投射来完成,亦 即xi=xi‖m+xi⊥m。相关部分由

xi||m=xmTxixmTxmxm=IOCi,m||xm||2xm=gi,mxm

指定。

2.3.7.1由参考场景y中源的影像来计算

其中Y=RX及X=X⊥m+X‖m,对于所有渲染信道,源xm的影像可透 过计算,其中

X||m=xT1||mxT2||m···xTN||m=g1,mxmTg2,mxmT···gN,mxmT

可由下式计算

因此,参考场景中源影像的能量将为:

2.3.7.2由SAOC渲染场景中源的影像来计算

这可用与相同的方式来完成。其中T为转码矩阵及D为下混 矩阵,对于渲染场景中的所有通道将为:

Y^xm=T0.5DX||m.

使用D=d11···d1Nd21···d2NT=t11t12······tNch1tNch2

因此,参考场景中源影像的能量将为:

2.3.7.3计算失真测度

针对每一对象m及输出渲染信道k,dm1形式的失真测度可被计算为

dm7(m)Σk=1NChdm7(m,k)rm,k2||xm||2Σk=1NChrm,k2ek,k.

DM7=Σm=1Nw(m)max[dm7(m),1]Σm=1Nw(m)其中如前述w(m)=[rm2Xm]α.

2.3.8对象信号性质

下面将说明对象信号性质的一范例,其可被例如装置250或人工因素 减小方块320使用以便获得一失真测度。

在SAOC处理中,数个音频对象信号被下混成一下混信号,该下混 信号接着被用于产生最终渲染输出。如果一音调对象信号与具有相等信号 功率的一更似噪声第二对象信号相混合,结果将为类似噪声。这同样适用 于如果第二对象信号具有一较高功率的情况。仅当第二对象信号具有实质 上小于第一对象信号的一功率时,结果才为音调。以相同方式,渲染SAOC 输出信号的音调/类似噪声主要由下混信号的音调/类似噪声决定,而与所 应用的渲染系数无关。为了取得良好的主观输出质量,实际渲染信号的音 调/类似噪声也应该接近于理想渲染信号的音调/类似噪声。为了在失真测 度中使用此构想,必需将有关每一对象的音调/类似噪声的信息作为位串流 的一部分传输。理想渲染输出的音调/类似噪声N接着可在SAOC译码器 中作为每一对象Ni的音调/类似噪声及其对象功率Pi的一函数来估计,亦 即

N=f(N1,P1,N2,P2,N3,P3,…)

并与实际渲染输出信号的音调/类似噪声比较以便计算一失真测度。 如一范例,可使用下列函数f():

N=ΣiNi·Piα(ΣiPi)α

其将对象音调/类似噪声值及对象功率组合成一估计混合信号的音调 /类似噪声值的单一输出。参数α可被选为优化一指定音调/类似噪声测度 的估计程序的精度(例如,α=2)。一基于音调/类似噪声的适当失真度量 在2.3.6节以失真测度#6予以说明。

2.4失真限制方案

2.4.1失真限制方案的概述

下面将给出多个失真限制方案的一简短概述。如上讨论,渲染系数调 整器250接收输入渲染系数242并基于输入渲染系数242提供一经修改渲 染系数222供SAOC译码器220使用。

提供经修改渲染系数的不同构想可被区分,其中这些构想在一些实施 例中可被组合。根据第一构想,依赖于辅助信息214的一个或多个参数(也 即,依赖于对象相关参数信息214)在一第一步骤可获得一个或多个渲染 参数限制值。之后,依赖于期望渲染参数242及该一个或多个渲染参数限 制值获得实际「(经修改或经调整)」渲染系数222,使得实际渲染参数遵 从渲染参数限制值所定义的限制。因此,此类超出渲染参数限制值的渲染 参数被调整(修改)成遵从渲染参数限制值。此第一构想易于实施但有时 可导致使用者满意度略微降低,因为若使用者定义的期望渲染参数242超 出渲染参数限制值就不予考虑使用者对期望渲染参数242的选择。

根据一第二构想,参数调整器计算介于一期望渲染参数的平方与一最 佳渲染参数的平方间的一线性组合以获得实际渲染参数。在此情况中,参 数调整器被配置成依赖于一预定阈值值参数与一失真度量(如上所述)来 判定期望渲染参数与最佳渲染参数对线性组合的一贡献。

此外,失真测度(失真度量)是否使用对象间关系性质及/或个别对 象性质来计算是可区分的。在一些实施例中,仅评估对象间关系性质而不 予考虑个别对象性质(仅有关于一单一对象)。在一些其它实施例中,仅 考虑个别对象性质而不予考虑对象间关系性质。然而,在一些实施例中, 评估对象间关系性质与个别对象性质的一组合。

基于前面考虑,及也基于上面对不同失真测度的讨论,如下面子节概 述的,将定义一些限制失真的方案。这些限制失真的方案可被渲染系数调 整器250应用以便依赖于输入渲染系数242来获得经修改渲染系数。

2.4.2失真限制方案#1

在子节2.3.1,通过计算对象#m的理想功率贡献与其实际功率贡献间 的关系(方程式4)来定义一简单失真测度:

在此方程式中,在SAOC渲染器控制下的仅有变量为在转码过程中 使用的渲染系数。因此如果产生的失真度量不应超过某一阈值值T,则这 施加一条件于对应渲染矩阵系数上:

dm1(m)=rm2·Σi=1Ndi2·Xidm2·Σi=1Nri2·XiTrm2r^m2=T·dm2·Σi=1,imNri2·Xi|Σi=1Ndi2·Xi-T·dm2·Xm|---(6.1.a)

为了为所有找出一解,可设定一组线性方程式Ax=b,其中

x=r^12r^22···r^N2,b=00···Σi=1Nri2

其中cm=1T(Σi=1Ndi2·Xi-T·dm2·Xm).

A的第一个N列自方程式(6.1.a)直接获得。此外,加入一限制使 得新(受限制的)渲染系数的能量等于使用者指定系数的能量。进而获得 (可视作渲染参数限制值)的一解,为:

x=(ATA)-1ATb

以此开始,一第一过分简单失真限制方案可被看做如下:与在渲染矩 阵系数242自使用者界面被提供至SAOC译码器时使用它们不同),对象 #m的有效使用的渲染系数rm’222在被用于SAOC解碼过程之前在每帧的 基础上被(例如,渲染系数调整器240)修改/限制:

rm2=min(rm2,r^m2)

要指出的是,限制过程取决于每一特定帧中个别对象能量。此方法简 单且具有下列较小的缺点:

不考虑相对物件响度与感知遮蔽;及

仅获得提升一特定对象的效果,但未获得减小对象增益的效果。这可 透过亦对dm值规定一下界来处理。

2.4.3限制方案#2

2.4.3.1限制方案概述

此节说明一考虑下列层面的限制函数:

失真测度受一限制阈值制约,

受限制渲染矩阵的推导是基于限制函数与其到初始渲染矩阵的距离。

此限制函数(或限制方案)可例如由渲染系数调整器250结合失真计 算器260来执行。

失真测度是渲染矩阵的一函数,使得

一初始渲染矩阵(例如由输入渲染系数242说明)产生一初始失真测 度,

最佳失真测度产生一最佳渲染矩阵,但此最佳渲染矩阵到初始渲染矩 阵的距离可能不是最佳的,

失真测度与一渲染矩阵到初始渲染矩阵的距离成线性反比,

对于某一阈值,透过在初始与最佳工作点间内插(例如,线性内插) 来获得受限制渲染系数(例如,由经调整或修改渲染系数222说明)。

此外,每一工作点中渲染信号的功率可被假定近似常量,使得

Σi=1Nobri2XiΣi=1Nobrlim,i2XiΣi=1Nobropt,i2Xi

限制方案#2可结合不同失真测度使用,如将在下面所讨论的。

2.4.3.2失真测度#1的限制

对于每一参数频带,一受关注对象之失真测度dm1(m)被定义为

dm1(m)=rm2Σi=1Nobdi2Xidm2Σi=1Nobri2Xi

当将dm1(m)设为其最佳值,亦即dm1,opt(m)=1时,产生最佳渲染矩 阵

ropt,m2=dm2Σi=1Nobri2XiΣi=1Nobdi2Xi

因此,最佳渲染矩阵值可通过使用一方程式系统来获得,其中被用替换。

在dm1(m)的预定阈值为T的条件下,限制渲染矩阵由

rlim,m2=T-1dm1(m)(rm2-ropt,m2)+ropt,m2

指定。

2.4.3.3失真测度#2a的限制

有时也被简要表示为“dm2(m)”之失真测度dm2a(m)被定义为,对于 对象m及每一参数频带

dm2a(m)=(rm2Σi=1Nobdi2Xi-dm2Σi=1Nobri2Xi)XmmsrΣi=1Nobri2XiΣi=1Nobdi2Xi=rm2XmΣi=1Nobri2Xi-dm2XmΣi=1Nobdi2Ximsr.

对于一特定参数频带pb,遮蔽对信号比msr(pb)是渲染信号之功率的 一函数

msr(pb)=[Σi=1Nobri2XiMk]k=max(pb)=[Σi=1Nobri2Xi]k=max(pb)[Mk]k=max(pb)

失真测度的最佳值是零,也即dm2a,opt(m)=0。这对应于一不引入任何 误差的完美转码过程。因此,最佳渲染矩阵产生

ropt,m2=dm2Σi=1Nobri2XiΣi=1Nobdi2Xi

其中dm2a(m)=T,经修改渲染系数222说明之受限制渲染矩度变为

rlim,m2=T-1dm2a(m)(rm2-ropt,m2)+ropt,m2

2.4.3.4失真测度#2b的限制

有时也简要表示为dm2′(m)之失真测度dm2b(m)也可被装置240使用来 依赖于输入渲染系数242获得受限制渲染矩阵,该受限制渲染矩阵可由经 修改渲染系数222说明。

2.4.3.5失真测度#4的限制

失真测度dm4(m)针对对象m及每一参数频带被定义为

dm4(m)=|1-rm2Σi=1Nobdi2Xidm2Σi=1Nobri2Xi|

且其最佳值为dm4,opt(m)=0。因此,最佳与受限制渲染矩阵导致 ropt,m2=dm2Σi=1Nobri2XiΣi=1Nobdi2Xi以及

rlim,m2=T-1dm4(m)(rm2-ropt,m2)+ropt,m2.

因此,装置240可依赖于输入渲染系数242以及还依赖于失真测度 252来提供经修改渲染系数22,失真测度252可等于第四失真测度dm4(m)。

2.4.4限制方案#3

对应于公式(6.1.a),对象m的受限制渲染系数可针对失真测度#3 如下计算。缩写式

c1=Σi=1NΣj=1Ndidjeij,c2=Σi=1,imNrieim,c3=Σi=1,imNΣj=1,jmNrirjeij,c4=Σi=1Ndiemic5=Σi=1,imNΣj=1Nridjeij

一个二次方程式被建立

r^m2((1-T)2·c1emm-c42)+r^m·2·((1-T)2·c1c2-c4c5)+(1-T)2·c1c3-c52=!a·r^m2+b·r^m+c=0其 (正)解为

r^m=-b+b2-4ac2a---(6.2.a)

因此,装置240可包含渲染参数限制值且可根据该渲染参数限制 值来限制经调整(或修改)渲染系数222。

2.4.5进一步可取舍改进

上述被装置240个别或组合执行的用以限制渲染系数222的构想可被 进一步改进。举例而言,可执行对M通道渲染的一般化。为此目的,渲 染系数的平方/幂的和可被使用来取代一单一渲染系数。

此外,可执行对一立体声下混的一般化。为此目的,下混系数的平方 /幂的和可被使用来取代一单一下混系数。

在一些实施例中,失真度量可在频率中组合成一用于降级控制的单一 失真度量。可选择地,在一些情况中对于每一频带独立进行失真控制可能 更好(且更简单)。

不同构想可被用于实际上进行失真控制。举例而言,一个或多个渲染 系数可被限制。可选择地或额外地,(例如,一MPEG环绕译码的)一 m2矩阵系数可受限制。可选择地或额外地,一相对对象增益可受限制。

3.根据图3的实施例

下面参考图3将说明一SAOC译码器的另一实施例。为了便于理解, 将首先给出基本考虑的一简要讨论。一「空间音频对象编码」(SAOC)系 统(类似于标准化为ISO/IEC 23003-2者)的输出可显出取决于音频对象 性质及渲染矩阵与下混矩阵间的关系的人工因素。为讨论此问题,这里在 不失一般性的情况下考虑其中下混矩阵与渲染矩阵具有相同尺寸的情况。 即使下混场景与渲染场景中的通道数不同,相对应的考虑也适用。

已发现的是,一般地,当渲染矩阵变得明显与下混矩阵不同时人工因 素的风险增加了。不同类型的人工因素可被区分:

1.渲染矩阵,也即「有效」渲染矩阵不同于输入至SAOC译码器的期 望渲染矩阵(一对象的实际上实现的衰减或增益与在渲染矩阵中指定的不 同)的缺点。这典型地是由对象在某些参数频带中重迭造成的结果。

2.一对象的音色的不期望的及甚至可能时变的改变。此假影特别严 重。当1中所提及的「泄露」仅局部出现在一单一参数频带时,此人工因 素尤其严重。

3.SAOC译码器中由时间与频率变化信号处理引起的人工因素,像调 变对象信号、音乐声调、调变噪声。

已发现的是,最小化所有类型的人工因素是期望的。

一处理此问题且最小化人工因素的一般化方法是在期望渲染矩阵被 送至SAOC译码器之前对其进行一时间频率变化后处理。此方法在图3中 示出。

图3示出一SAOC译码器安排300的一方块示意图。SAOC译码器 也可被简要表示为一音频信号译码器。音频信号译码器300包含一SAOC 译码器核心310,该SAOC译码器核心310被配置成接收一下混信号表示 型态312及一SAOC位串流并基于它们提供一渲染场景的一说明316,例 如为多个上混音频信道的一表示型态的形式。

音频信号译码器300也包含一人工因素减小方块320,该人工因素减 小方块320可例如被提供为一用以依赖于一个或多个输入参数来提供一个 或多个经调整参数之装置的形式。人工因素减小方块320被配置成接收有 关一期望渲染矩阵的信息322。该信息322可例如采用多个期望渲染参数 的形式,该多个期望渲染参数可形成人工因素减小方块的输入参数。人工 因素减小方块320进一步被配置成接收下混信号表示型态312与SAOC位 串流314,其中SAOC位串流314可携载一对象相关参数信息。人工因素 减小方块320进一步被配置成依赖于有关期望渲染矩阵的信息322来提供 一经修改渲染矩阵324(例如,为多个经调整渲染参数的形式)。

因此,SAOC译码器核心310可被配置成依赖于下混信号表示型态 312、SAOC位串流314及经修改渲染矩阵324来提供渲染场景的表示型 态316。

下面将提供音频信号译码器的功能的一些细节。已发现的是,为了评 估由SAOC系统针对一指定期望渲染矩阵的潜在受限分离能力引起的人 工因素风险,期望计入下混信号(由下混信号表示型态312说明)与SAOC 位串流314。有了此信息在手,例如通过修改渲染矩阵来试图缓解这些人 工因素是可能的。这由人工因素减小方块320来执行。高级缓解策略计入 SAOC系统的时间及频率选择性的限制(重迭)与感知效果两者,也即它 们应该尝试使渲染信号听起来类似于期望输出信号同时具有尽可能少的 可闻人工因素。

在图3所示音频信号译码器300中使用的人工因素减小的一优选方法 是基于一总失真测度,该总失真测度是评估上面列出的不同类型人工因素 的失真测度的一加权组合。这些权重决定上面列出的不同类型人工因素间 的一适当折衷。应该指出的是,这些不同类型人工因素的权重可取决于使 用SAOC系统的应用。

换言之,人工因素减小方块320可被配置成获得针对多个类型人工因 素的失真测度。举例而言,人工因素减小方块320可应用上面讨论的失真 测度dm1至dm6中的一些失真测度。可选择地或额外地,人工因素减小方 块320可使用如此节所述的说明其它类型人工因素的进一步的失真测度。 再者,人工因素减小方块可被配置成使用上面已讨论(例如,2.4.2、2.4.3 及2.4.4节中)的一个或多个失真限制方案或与之相当的人工因素限制方 案基于期望渲染矩阵322来获得经修改渲染矩阵324。

4.根据图5a及5b的音频信号转码器

4.1根据图5a的音频信号转码器

应该注意的是,上面所述构想可应用于一音频信号译码器与一音频信 号转码器中。参考图2及3,已结合音频信号译码器来说明了此构想。下 面将结合音频信号转码器来简要讨论本发明构想的使用。

关于此问题,应该指出的是,已参考图9a、图9b及图9c讨论了音 频信号译码器与音频信号转码器的类似性,因此对图9a、图9b及图9c所 作阐述适用于本发明构想。

图5示出一音频信号转码器500结合一MPEG环绕译码器510的一 方块示意图。如可见,可以是一SAOC至MEPG环绕转码器的音频信号 转码器500被配置成接收一SAOC位串流520并基于它们在不影响(或修 改)一下混信号表示型态524的情况下提供一MPEG环绕位串流522。音 频信号转码器500包含一SAOC剖析方块530,该SAOC剖析方块530被 配置成接收SAOC位串流520并自SAOC位串流530采集期望的SAOC 参数。音频信号转码器500也包含一场景渲染引擎540,该场景渲染引擎 540被配置成接收由SAOC剖析方块530提供的SAOC参数及一渲染矩阵 信息542,该渲染矩阵信息542可被视作一实际渲染(矩阵)信息且可例 如以多个经调整(或修改)渲染参数的形式来表示。场景渲染引擎540被 配置成依赖于这些SAOC参数及渲染矩阵542来提供MPEG环绕位串流 522。为此目的,场景渲染引擎540被配置成计算MPEG环绕位串流参数 522,这些MPEG环绕位串流参数522为通道相关参数(也称为参数信息)。 因此,场景渲染引擎540被配置成依赖于实际渲染矩阵542将组成一对象 相关参数信息的SAOC位串流520的参数转换(「或转码」)成组成一信道 相关参数信息的MPEG环绕位串流的参数。

音频信号转码器500也包含一渲染矩阵产生方块550,该渲染矩阵产 生方块550被配置成接收一有关一期望渲染矩阵之信息,例如其为一有关 一播放配置的信息552及一有关对象位置的信息554的形式。可选择地, 渲染矩阵产生方块550可接收有关期望渲染参数(例如,渲染矩阵项)的 信息。渲染矩阵产生方块还被配置成接收SAOC位串流520(或至少由 SAOC位串流520表示的对象相关参数信息的一子集)。渲染矩阵产生方 块550还被配置成基于接收到的信息提供实际(经调整或修改)渲染矩阵 542。在此程度上,渲染矩阵产生方块550可接替装置100或装置240的 功能。

MEPG环绕译码器510典型地被配置成基于下混信号信息524及场景 渲染引擎540提供的MPEG环绕串流522来获得多个上混信道信号。

总之,音频信号转码器500被配置成提供MPEG环绕位串流522使 得MPEG环绕位串流522容许基于下混信号表示型态524提供一上混信号 信号表示型态,其中该上混信号表示型态实际上由MPEG环绕译码器510 提供。渲染矩阵产生方块550调整场景渲染引擎540使用的渲染矩阵542 使得MPEG环绕译码器510产生的上混信号表示型态不包含一不可接受的 可闻失真。

4.2根据图5b的音频信号转码器

图5b示出一音频信号转码器560及一MPEG环绕译码器510的另一 安排。应该指出的是,图5b的安排非常类似于图5a的安排,因而用相同 的参数数字来表示相同的装置与信号。音频信号转码器560与音频信号转 码器500的不同之处在于音频信号转码器560包含一下混转码器570,该 下混转码器570被配置成接收输入下混表示型态524并提供一馈送至 MPEG环绕译码器510的经修改下混表示型态574。修改下混信号表示型 态是为了在期望音频结果的限定上获得更多灵活性。这是因为MPEG环绕 位串流522无法表示MPEG环绕译码器510的输入信号到MPEG环绕译 码器510所输出的上混信道信号的一些映像。因此,使用下混转码器570 修改下混信号表示型态可带来一增加的灵活性。

再者,渲染矩阵产生方块550可接替装置100或装置240的功能,从 而确保MPEG环绕译码器510提供的上混信号表示型态中的可闻失真被保 持得足够小。

5.根据图6的音频信号编码器

下面参考图6将说明一音频信号编码器600,图6示出这一音频信号 编码器的一方块示意图。音频信号编码器600被配置成接收多个对象信号 612a、612N(也用x1至xN表示)并基于它们提供一下混信号表示型态614 及一对象相关参数信息616。音频信号编码器600包含一下混器620,该 下混器620被配置成依赖与对象信号相关联的下混系数d1至dN来提供一 个或多个下混信号(这组成下混信号表示型态614),使得该一个或多个下 混信号包含多个对象信号的一迭加。音频信号编码器600也包含一辅助信 息提供器630,该辅助信息提供器630被配置成提供一说明两或两个以上 对象信号612a至612N的层级差或相关性特性的对象间关系辅助信息。辅 助信息提供器630还被配置成提供一说明个别对象信号的一个或多个个别 性质的个别对象辅助信息。

音频信号编码器600因而提供对象相关参数信息616使得对象相关参 数信息包含一对象间关系辅助信息与个别对象辅助信息。

已发现的是,此一说明对象信号间的关系与单一对象信号的个别特性 的对象相关参数信息容许如上讨论在一音频信号译码器中提供一多信道 音频信号。对象间关系辅助信息可被接收对象相关参数信息616的音频信 号译码器使用以便自下混信号表示型态中至少近似地采集个别对象信号。 还被包括于对象相关参数信息614内的个别对象辅助信息可被音频信号译 码器用于验证上混过程是否带来太强的信号失真,使得上混参数(例如, 渲染参数)需要被调整。

优选地,辅助信息提供器630被配置成提供个别对象辅助信息,使得 个别对象辅助信息说明个别对象信号的一音调。已发现的是,一音调信息 可被用作一评估上混过程是否带来明显失真的可靠准则。

还应该注意的是,音频信号编码器600可由本文就音频信号编码器所 讨论的任一特征或功能来补充,及下混信号表示型态614与对象相关参数 信息616可由音频信号编码器600来提供,使得它们包含就本发明音频信 号编码器所讨论的特性。

6.根据图7的音频位串流

根据本发明的实施例产生一音频位串流700,该音频位串流700的一 示意表示型态在图7中示出。该音频位串流以一编码形式表示多个对象信 号。

音频位串流700包含一表示一个或多个下混信号的下混信号表示型 态710,其中这些下混信号中至少一个下混信号包含多个对象信号的一迭 加。音频位串流700还包含一说明对象信号的层级差及相关性特性的对象 间关系辅助信息720。音频位串流还包含一说明个别对象信号(这形成下 混信号表示型态710的基础)的一个或多个个别性质的个别对象辅助信息 730。

对象间关系辅助信息及个别对象信息可被整体视为一对象相关参数 辅助信息。

在一优选实施例中,个别对象辅助信息说明个别对象信号的音调。

自然地,音频位串流如本文所讨论典型地由一音频信号编码器来提供 且如本文所讨论由一音频信号译码器来评估。音频位串流可包含针对音频 信号编码器与音频信号译码器所讨论的特性。因此,如本文所讨论,音频 位串流700可十分适于使用一音频信号译码器来提供一多信道音频信号。

7.结论

根据本发明的实施例提供用以减小或避免上述失真问题的解决方案, 上述失真问题源自单一、原始对象信号无法由少数传输下混信号完美重 建。因而有更多解决此问题的简单方案被应用:

一过分简单的方法将是将相对对象增益的范围限制为例如+/-12dB。 若如此,则大对象增益设置可导致可闻降级(范例:将一对象提高20dB 而将其它对象层级保留在0dB),然而,这不是无法避免的:如一范例, 将所有相对对象层级提高相同因子产生一未受损的系统输出。

一更详尽观点将是着眼于相对对象层级的差。对于渲染两音频对象而 言,两相对对象层级的差确实提供了应对渲染输出中可能出现的降级的一 手段,然而,不清楚的是,此想法如何推广至两个以上渲染音频对象。

鉴于此情况,根据本发明的实施例提供了处理此问题且进而防止一不 令人满意的使用者体验的装置。一些实施例根据本发明可带来甚至比前节 中所讨论者更详尽的解决方案。

因此,即使一使用者提供不当的渲染参数,使用本发明也可获得一良 好的听觉印象。

一般而言,如上所述,根据本发明的实施例有关于用以编码一音频信 号或用以译码一编码音频信号的一装置、一方法或一计算机程序、或有关 于一编码音频信号(例如,为一音频位串流的形式)。

8.实施选替方案

虽然在一装置的脉络中已说明了一些层面,但显然这些层面也表示对 相对应方法的一说明,其中一区块或一装置对应于一方法步骤或一方法步 骤的一特征。类似地,在一方法步骤的脉络中所说明的层面也表示对一相 对应装置的一相对应区块或项目或特征的一说明,一些或所有方法步骤可 由(或使用)一硬件装置来执行,例如,微处理器、可程序化计算机或电 子电路。在一些实施例中,某一个或多个最重要方法步骤可由这一装置来 执行。

发明的编码音频信号或音频位串流可被储存于一数字储存媒体上或 能以一传输媒介传输,诸如无线传输媒介或诸如因特网的有线传输媒介。

视某些实施需求而定,本发明的实施例可在硬件或软件中实施。使用 一储存有电子可读取控制信号的数字储存媒体,例如软盘、DVD、蓝光、 CD、ROM、PROM、EPROM、EEPROM或闪存可执行该实施,它们与一 可程序化计算机系统合作(或能够合作)使得各自的方法被执行。因此, 该数字储存媒体可以是计算机可读取的。

根据本发明的一些实施例包含一具有电子可读取控制信号的数据载 体,该数据载体能够与一可程序化计算机系统合作使得本文所予以描述的 方法当中之一方法被执行。

大体上,本发明的实施例可作为一具有一程序代码的计算机程序产品 而被实施,当该计算机程序产品运行于一计算机上时,该程序代码可操作 用于执行这些方法当中的一方法。该程序代码例如被储存于一机器可读取 载体上。

其它实施例包含储存于一机器可读取媒体上、用于执行本文所予以描 述的这些方法当中的一方法的计算机程序。

换言之,发明方法的一实施例因而是一计算机程序,具有一当该计算 机程序运行于一计算机上时用以执行本文所予以描述之这些方法当中的 一方法的程序代码。

发明方法的一进一步实施例因而是一数据载体(或一数字储存媒体或 一计算机可读取媒体),其包含记录于其上用以执行本文所予以描述的这 些方法当中的一方法的计算机程序。

发明方法的一进一步实施例因而是一数据串流或一信号序列,表示用 于执行本文所予以描述之这些方法当中的一方法的计算机程序。该数据串 流或该信号序列可例如被配置成经由一数据通讯连接(例如经由因特网) 来被传递。

一进一步的实施例包含一处理装置,例如一计算机,或一可程序化逻 辑装置,其被配置成或适于执行本文所予以描述的这些方法当中的一方 法。

一进一步的实施例包含一上面安装有用以执行本文所予以描述的这 些方法当中的一方法的计算机程序的计算机。

在一些实施例中,一可程序化逻辑装置(例如,一现场可程序化门阵 列)可被用来执行本文所予以描述的这些方法的一些或所有功能。在一些 实施例中,一现场可程序化门阵列可与一微处理器合作以便执行本文所予 以描述的这些方法当中的一方法。大体上,这些方法优选地被任一硬件装 置执行。

上述实施例仅仅是为了说明本发明的原理。要明白的是,对本文所予 以描述的安排与细节的修改或改变对其他熟于此技者而言将是显而易见 的。因而,意图是仅受后附的权利要求书的范围限制而不受以本文实施例 的说明与阐述方式呈现的特定细节限制。

参考文献

[BCC]C.Faller and F.Baumgarte,“Binaural Cue Coding-Part II:Schemes  and applications,”IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov. 2003

[JSC]C.Faller,“Parametric Joint-Coding of Audio Sources”,120th AES  Convention,Paris,2006,Preprint 6752

[SAOC1]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:“From SAC To  SAOC-Recent Developments in Parametric Coding of Spatial Audio”,22nd  Regional UK AES Conference,Cambridge,UK,April 2007

[SAOC2]J.B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A. L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen: “Spatial Audio Object Coding  (SAOC)-The Upcoming MPEG Standard on  Parametric Object Based Audio Coding”,124th AES Convention,Amsterdam  2008,Preprint 7377

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号