首页> 中国专利> 用以利用平均值而基于下混信号表示形态和与下混信号表示形态相关联的参数侧边信息来提供用于提供上混信号表示形态的一或多个经调整参数的装置、方法与计算机程序

用以利用平均值而基于下混信号表示形态和与下混信号表示形态相关联的参数侧边信息来提供用于提供上混信号表示形态的一或多个经调整参数的装置、方法与计算机程序

摘要

一种用以基于下混信号表示形态及与下混信号表示形态相关联的参数侧边信息来提供用于提供上混信号表示形态的一或多个经调整参数的装置,其包含一参数调整器。该参数调整器被配置为接收一或多个参数,及基于此而提供一或多个经调整参数。该参数调整器被配置为依据多个参数值的平均值而提供一或多个经调整参数,使得通过使用非最佳参数所导致的该上混信号表示形态的失真,对偏离最佳参数的参数至少减少大于预定偏差。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-12-30

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G10L19/008 变更前: 变更后: 申请日:20101015

    专利权人的姓名或者名称、地址的变更

  • 2015-12-16

    授权

    授权

  • 2012-11-28

    实质审查的生效 IPC(主分类):G10L19/00 申请日:20101015

    实质审查的生效

  • 2012-10-03

    公开

    公开

说明书

技术领域

依据本发明的实施例涉及一种用以基于一下混信号表示形态及与该 下混信号表示形态相关联的一参数侧边信息来提供用于提供一上混信号 表示形态的一或多个经调整参数的装置。

依据本发明的另一实施例涉及一种用以基于该下混信号表示形态及 该参数侧边信息来提供一上混信号表示形态的装置。

依据本发明的另一实施例涉及一种用以基于一下混信号表示形态及 与该下混信号表示形态相关联的一参数侧边信息来提供用于提供一上混 信号表示形态的一或多个经调整参数的方法。

依据本发明的另一实施例涉及一种用以执行该方法的计算机程序。

依据本发明的若干实施例涉及一种用于MPEG SAOC的失真控制参 数限制方案。

背景技术

于音频处理、音频传输及音频储存领域,逐渐需要处理多声道内容来 改良听觉感受。多声道音频内容的使用给使用者带来显著改进。举例言的, 可获得三维空间听觉感受而为使用者带来娱乐效果的满足与改善。但多声 道音频内容也可用于职业环境,例如用于电话会议应用,原因在于通过使 用多声道音频回放可改良发话者的可懂性(易于为人所了解)。

但也期望在音频质量与位率需求间获得良好折衷,来避免因多声道应 用造成额外过度资源负荷。

近来,已经提示用于含有多音频对象的音频场景(audio scene)进行 位率有效的传输及/或储存的参数技术,例如双耳线索编码(类别I)(例 如参考参考文献[1])、联合来源编码(例如参考参考文献[2])、及MPEG 空间音频对象编码(例如参考参考文献[3]、[4]、[5])。

若执行极端对象的呈现(rendering),则组合在接收端的使用者互动, 此等技术可导致输出信号的低音频质量(例如参考参考文献[6])。

此等技术针对听觉上重建期望的输出音频场景而非通过波形匹配。

图8显示此种系统(此处:MPEG SAOC)的系统概述。图8所示 MPEG SAOC系统800包含一SAOC编码器810及一SAOC解码器820。 SAOC编码器810接收多个对象信号x1至xN,其例如可表示为时域信号 或时频域信号(例如呈傅立叶型变换的一变换系数集合形式,或呈QMF 子频带信号形式)。SAOC编码器810典型地也接收下混系数d1至dN,其 与对象信号x1至xN相关联。下混系数的分开集合可供下混信号的各声道 利用。SAOC编码器810典型地被配置为经由依据相关联的下混系数d1至dN而组合对象信号x1至xN来获得一下混信号声道。典型地,下混声道 比对象信号x1至xN少。为了允许(至少近似)于SAOC解码器820端的 对象信号的分离(或分开处理),SAOC编码器810提供该一或多个下混 信号(标示为下混声道)812及一侧边信息814二者。侧边信息814描述 的对象信号x1至xN特性来允许解码器端的对象专一性处理。

SAOC解码器820被配置为接收该一或多个下混信号812及侧边信息 814。又,SAOC解码器820典型地被配置为接收一使用者互动信息及/或 一使用者控制信息822,其描述期望的呈现设定值。举例言之,使用者互 动信息/使用者控制信息822可描述一扬声器设定值及提供对象信号x1至 xN的该等对象的期望空间配置。

SAOC解码器820被配置为提供例如多个已解码上混声道信号至 上混声道信号例如可与多扬声器呈现配置的个别扬声器相关联。 SAOC解码器820可例如包含一对象分离器820a,其被配置为基于该一或 多个下混信号812及侧边信息814,重建(至少近似)对象信号x1至xN, 由此获得已重建对象信号820b。但已重建对象信号820b可能略为偏离原 先对象信号x1至xN,例如原因在于由于位率限制,侧边信息814并非相 当足够用于完好重建。SAOC解码器820可进一步包含一混合器820c,其 可被配置为接收已重建对象信号820b及使用者互动信息/使用者控制信息 822,及基于此而提供上混声道信号至混合器820c可被配置为使 用该使用者互动信息/使用者控制信息822而判定个别已重建对象信号 820b对上混声道信号至的贡献。使用者互动信息/使用者控制信息 822例如可包含呈现参数(也标示为呈现系数)其判定个别已重建对象信 号822对上混声道信号至的贡献。

但须注意于多个实施例中,对象的分离于图8以对象分离器820a指 示,及混合于图8以混合器820c指示以单一步骤执行。为了实现此项目 的,总参数可经运算,其描述该一或多个下混信号812映射至上混声道信 号至的直接映射关系。此等参数可基于侧边信息及使用者互动信息/ 使用者控制信息820运算。

现在参考图9a、图9b及图9c,将描述用以基于一下混信号表示形态 及对象相关侧边信息来提供一上混信号表示形态的不同的装置。须注意该 对象相关侧边信息为与该下混信号相关联的侧边信息的实例。图9a显示 一种包含SAOC解码器920的MPEG SAOC系统900的方块示意图。SAOC 解码器920包含一对象解码器922及一混合器/呈现器926作为分开功能方 块。对象解码器922依据该下混信号表示形态(例如呈以时域或时频域表 示的一或多个下混信号形式)及该对象相关侧边信息(例如呈对象元数据 (meta data)形式)而提供多个已重建的对象信号924。混合器/呈现器926 接收与多个N个对象相关联的已重建的对象信号924,及基于此且系基于 该呈现信息而提供一或多个上混声道信号928。于该SAOC解码器920, 对象信号924的提取与混合/呈现分开进行,其允许对象解码功能与混合/ 呈现功能的分离,但带来相当高的运算复杂度。

现在参考图9b,将简短讨论另一种MPEG SAOC系统930,其包含一 SAOC解码器950。SAOC解码器950依据该下混信号表示形态(例如呈 一或多个下混信号形式)及该对象相关侧边信息(例如呈对象元数据(meta  data)形式)而提供多个上混声道信号958。SAOC解码器950包含对象 解码器与混合器/呈现器的组合,其被配置为于联合混合程序获得上混声道 信号958,而未分开对象解码与混合/呈现,其中用于该联合上混处理的参 数取决于该对象相关侧边信息及该呈现信息。该联合上混处理也依据下混 信息,该下混信息被视为该对象相关侧边信息的一部分。

综上所述,上混声道信号928、958的提供可于一步骤式处理或二步 骤式处理执行。

现在参考图9c,将描述一种MPEG SAOC系统960。SAOC系统960 包含SAOC至MPEG环绕转码器980,而非SAOC解码器。

SAOC至MPEG环绕转码器包含一侧边信息转码器982,其被配置为 接收该对象相关侧边信息(例如呈对象元数据形式)及选择性地,接收一 或多个下混信号的信息及呈现信息。该侧边信息转码器也被配置为基于所 接收的数据而提供MPEG环绕侧边信息(例如呈MPEG环绕位流形式)。 据此,侧边信息转码器982被配置为考虑呈现信息及选择性地,考虑该一 或多个下混信号内容的相关信息,而将接收自该对象编码器的一对象相关 (参数)侧边信息变换成一声道相关(参数)侧边信息。

选择性地,SAOC至MPEG环绕转码器980可被配置为操控例如由下 混信号表示形态所描述的该一或多个下混信号而获得经操控的下混信号 表示形态988。但可删除下混信号操控器986,使得SAOC至MPEG环绕 转码器980的输出下混信号表示形态988与SAOC至MPEG环绕转码器 的输入下混信号表示形态相同。若声道相关的MPEG环绕侧边信息984 不允许基于SAOC至MPEG环绕转码器980的输入下混信号表示形态提 供期望的听觉印象(于某些呈现群(rendering constellations)可能为此种 情况),则可使用下混信号操控器986。

据此,SAOC至MPEG环绕转码器980提供下混信号表示形态988 及MPEG环绕位流984,使得使用接收MPEG环绕位流984及下混信号 表示形态988的MPEG环绕解码器,可产生多个上混声道信号,其表示依 据输入该SAOC至MPEG环绕转码器980的呈现信息的该等音频对象。

综上所述,可使用用以解码SAOC编码的音频信号的不同构想。于某 些情况下,使用SAOC解码器,其依据该下混信号表示形态及对象相关参 数侧边信息而提供上混声道信号(例如上混声道信号928、958)。此种构 想的实例可参考图9a及图9b。另外,SAOC编码的音频信息可经转码来 获得一下混信号表示形态(例如下混信号表示形态988)及一声道相关侧 边信息(例如声道相关MPEG环绕位流984),其可由MPEG环绕解码器 用来提供期望的上混声道信号。

于MPEG SAOC系统800,系统概述显示于图8,一般处理以频率选 择方式进行,且于各频带内可描述如下:

●N个输入音频对象信号x1至xN经下混作为SAOC编码器处理的 一部分。用于单声道下混,下混系数标示以d1至dN。此外,SAOC编码 器810提取描述该输入音频对象的侧边信息814。用于MPEG SAOC,对 象功率相对于彼此的关系乃此种侧边信息的最基本形式。

●下混信号(或多个信号)812及侧边信息814被传输及/或储存。 为了实现此项目的,下混音频信号可使用众所周知的听觉音频编码器压 缩,诸如MPEG-1层II或III(也称作为“.mp3”)、MPEG高级音频编码 (AAC)、或其他音频编码器。

●于接收端,SAOC解码器820于构想上尝试使用所传输的侧边信 息814(及当然,一或多个下混信号812)来重新储存该原先对象信号(“对 象分离”)。然后,此等近似的对象信号(也标示为重建的对象信号820b) 使用一呈现矩阵而混合入由M个音频输出声道表示的目标场景(例如可 由上混声道信号至表示)。用于单声道输出,呈现矩阵系数以r1至rN表示。

●实际上,罕见执行(或甚至未曾执行)对象信号的分离,原因在 于分离步骤(以对象分离器820a指示)及混合步骤(以混合器820c指示) 二者组合成单一转码步骤,其经常导致运算复杂度的剧减。

已经发现此种方案就传输位率(只需传输数个下混声道加若干侧边信 息,而无需传输N个分开对象音频信号或分开系统)及运算复杂度(处理 复杂度主要涉及输出声道的数目而非音频对象数目)而言极其有效。对于 接收端的使用者的额外优点包括选择一呈现设定值的自由度(单声、立体 声、环绕、虚拟耳机回放等)及使用者互动的特征结构:呈现矩阵,如此, 输出场景可由使用者依据意愿、个人偏好或其他标准而设定且互动改变。 举例言之,可以定位共同在一个空间区的谈话者来最大化与其余谈话者间 的区别。此种互动性可由设置解码器使用者界面而实现。

对各个所传输的声音对象,可调整其相对电平及(用于非单声道呈现) 呈现的空间位置。当使用者改变相关联的图形使用者界面(GUI)滑动器 位置时可实时发生(例如:对象电平=+5分贝,对象位置=-30度)。

但发现于某些情况下,用以提供上混信号表示形态(例如上混声道信 号至)的参数的解码器端选择造成听觉的降级。

有鉴于此种情况,本发明的目的是提供一种构想其允许当提供上混信 号表示形态(例如上混声道信号至)时减少或甚至避免听觉失真。

发明内容

此一问题可由下述装置获得解决,该种用以基于一下混信号表示形态 及与该下混信号表示形态相关联的一参数侧边信息来提供用于提供一上 混信号表示形态的一或多个经调整参数的装置。该装置包含一参数调整 器,其被配置为接收一或多个参数(于若干实施例可为输入参数),及基 于此而提供一或多个经调整参数。该参数调整器被配置为依据多个参数值 (于若干实施例可为输入参数值)的平均值而提供一或多个经调整参数, 使得经由使用非最佳参数用以提供该上混信号表示形态所造成的该上混 信号表示形态的失真,对偏离最佳参数的参数(或输入参数)至少减少大 于一预定偏差。

依据本发明的此一实施例基于下述构想,多个输入参数值的平均值组 成有意义数量,其允许用于参数的调整,该等参数用来基于一下混信号表 示形态及与该下混信号表示形态相关联的一参数侧边信息而提供一上混 信号表示形态,原因在于失真经常因过度偏离此一平均值所造成。平均值 的使用允许调整一或多个参数来避免如此过度偏离平均值(偶尔也标示为 均值),结果带来避免过度降级音频质量的可能。

前文讨论的实施例提供一种保护所呈现的SAOC场景的存在声音质 量的构想,对该所呈现的SAOC场景,全部处理皆可完全于SAOC解码 器/转码器内进行,原因在于SAOC解码器/转码器包含用以调整参数所需 的完整信息。又,前述实施例并未涉及该呈现场景的听觉音频质量的复杂 测量值的显式计算,原因在于发现限制参数值与平均值间的偏差典型地导 致良好听觉印象,而参数值与平均值间的重大偏差典型地导致听觉失真。 如此,前文讨论的实施例提供一种特别有效的机制,即平均值用来适当调 整参数,该等参数被考虑用以提供上混信号表示形态。

于优选实施例,该装置的参数调整器被配置为依据属于多个参数值的 加权平均的一平均值而提供一或多个经调整的参数。使用加权平均提供高 度自由度,原因在于可对不同参数值配置不同的权值。但配置相同的权值 对于该等参数值也是可能的。

于优选实施例,该装置的参数调整器被配置为提供一或多个经调整的 参数,使得该等提供一或多个经调整的参数偏离该平均值小于对应的接收 的参数。通过将经调整的参数调整至接近平均值,或甚至经由设定经调整 的参数等于平均值,可实现显著失真减少。

于优选实施例,该装置被配置为接收描述音频对象对该上混信号表示 形态的一或多个声道的贡献的一或多个呈现系数(也标示为呈现参数)。 此种情况下,装置优选被配置为提供一或多个经调整的呈现系数作为经调 整的参数。已经发现依据多个呈现参数的平均值(其作为输入参数值)而 调整呈现参数,带来获得良好适合的经调整的呈现参数的可能,避免过度 听觉失真。

于优选实施例,参数调整器被配置为接收多个呈现系数作为输入参 数。此种情况下,参数调整器被配置为对多个音频对象相关联的呈现系数 运算平均。又,参数调整器被配置为提供经调整的呈现系数,使得限制一 经调整的呈现系数与对多个音频对象相关联的呈现系数平均间的偏差。依 据本发明的此一实施例基于发现若一经调整的呈现系数与对多个音频对 象相关联的呈现系数平均间的偏差被限制,则至少对偏离最佳呈现参数达 大于一预定偏压的呈现参数而言,经由使用非最佳呈现参数所造成的上混 信号表示形态失真典型地减少。如此,一个简单机制即调整呈现系数使得 该经调整的呈现系数与对多个音频对象相关联的呈现系数平均间的偏差 被限制,则允许避免过度听觉失真。

于优选实施例,参数调整器被配置为保持一呈现系数不变,该呈现系 数在依据对呈现系数的平均所测定的一容许区间以内;以及将大于该容许 区间的上边界值的一呈现系数选择性地设定为小于或等于该上边界值的 一值;及将小于该容许区间的下边界值的一呈现系数选择性地设定为大于 或等于该下边界值的一值。据此,建立调整呈现系数的一种极为简单的机 制,其中此种简单机制仍然允许获得经调整的呈现系数,其避免因使用与 平均值有强力差异的非最佳呈现参数所造成的上混信号表示形态的过度 失真。

于优选实施例,该参数调整器被配置为迭代重复地选择该等呈现系数 中的一个别者,其包含于个别迭代重复中与该呈现系数平均值的最大偏 离;及使得该等呈现系数中的该选定者更接近该呈现系数平均值。据此, 落在依据该呈现系数平均值所测定的容许区间外侧的呈现参数被迭代重 复地调整至该容许区间内部。如此,呈现参数系依据平均值而调整,使得 使用非最佳呈现参数所造成的上混信号表示形态的失真典型地减低(至少 对偏离最佳呈现参数执大于预定偏离的输入呈现参数而言是如此)。

于优选实施例,该参数调整器被配置为重复该等呈现系数中的一个别 者的迭代重复选择,及重复该等呈现系数中的该选定者的迭代重复修正, 直至全部呈现系数皆调整至落入适用的容许区间内部为止。如此,确保于 该上混信号表示形态的听觉失真维持够小。

于优选实施例,该装置被配置为接收一或多个转码系数,其描述该下 混信号表示形态的一或多个声道映射至该上混信号表示形态的一或多个 声道的映射关系。此种情况下,该装置被配置为提供一或多个已调整的转 码系数作为经调整的参数。依据本发明的此一实施例基于发现转码参数为 极为适合用于依据平均值的调整,原因在于转码系数大为偏离平均值,典 型地造成听觉失真。据此,通过依据平均值调整或限制转码参数,可减少 因使用非最佳转码参数(至少对偏离最佳转码参数达大于预定偏差的输入 转码参数)所引起的上混信号表示形态的失真。

于优选实施例,该参数调整器被配置为接收转码系数(也标示为转码 参数)的一时间序列作为输入参数。此种情况下,该参数调整器被配置为 依据多个转码系数算出一时间均值(也标示为时间平均)。又,该参数调 整器被配置为提供该等经调整的转码系数,使得该等经调整的转码系数与 该时间均值的偏差限制。再度,提供一种用以避免经由使用非最佳转码参 数而造成上混信号表示形态的过度听觉失真的简单机构。

于优选实施例,该参数调整器被配置为允许落在依据该时间均值(其 构成平均值)所测定的一容许区间内部的一转码系数维持不变。又,该参 数调整器被配置为将大于该容许区间的上边界值的一转码系数选择性地 设定为小于或等于该上边界值的一值,及将小于该容许区间的下边界值的 一转码系数选择性地设定为大于或等于该下边界值的一值。据此,可将转 码系数调整至明确界定的容许区间内,其允许减少因使用非最佳转码参数 所引起的上混信号表示形态的失真,至少对偏离最佳转码参数达大于预定 偏差的输入转码参数尤为如此。当使用时间均值时,容许区间以适应性方 式选择。此一构想基于发现转码系数的强时间变化典型地带来听觉失真, 因此须限于某种程度。

于优选实施例,该参数调整器被配置为使用该转码系数序列的递归低 通滤波而算出该时间均值。此种构想显示带来一极为明确界定的时间均 值,其将转码系数的长期演化列入考虑。又,发现此种转码系数序列的递 归低通滤波可使用低运算强度及存储强度执行,其协助减少内存需求。特 别,可获得有意义的时间均值而未长时间储存转码系数历史。

于优选实施例,该参数调整器被配置为提供一或多个经调整参数中的 一给定者,使得该等经调整参数中的该给定者落在容许区间内部,该容许 区间的边界依据多个输入参数值的平均值及一或多个容许参数界定,以及 使得一输入参数与一相对应经调整参数间的偏差为最小化或维持在预定 最大容许范围以内。已经发现通过限制经调整的参数于容许区间,同时考 虑避免输入参数与对应经调整的参数间有过大差异的目的,可获得带来良 好听觉印象的经调整的参数。据此,可减少经由使用非最佳转码参数而造 成上混信号表示形态的失真而不必损及由该等输入参数所界定期望的听 觉设定值。

于优选实施例,该参数调整器被配置为,其边界依据多个输入参数值 的平均值界定的该容许区间,将发现落在该容许区间外部的一输入参数选 择性地设定至该容许区间的一上边界值或一下边界值来获得该输入参数 的经调整版本。

于另一优选实施例,该参数调整器被配置为迭代重复地选择该等输入 参数中的一个别者,其包含于个别迭代重复中与该平均值的最大偏离;以 及将该等输入参数中的该选定者调整至更接近该平均值,来迭代重复地将 判定为落在其边界依据平均值界定的一容许区间(其边界依据平均值而界 定)外部的输入参数调整至该容许区间内部。

于优选实施例,该参数调整器被配置为选择一阶大小,该阶用来将该 等输入参数中较为接近该平均值的选定者调整至该等输入参数中的该选 定者与该平均值间的差的预定分量。

依据本发明的另一实施例提供一种用以基于一下混信号表示形态及 一参数侧边信息来提供一上混信号表示形态的装置。该装置包含如前文讨 论的用以基于一或多个所接收的参数而提供一或多个经调整参数的一装 置。该用以提供一上混信号表示形态的装置也包含一信号处理器,其被配 置为基于该下混信号表示形态及该参数侧边信息而获得该上混信号表示 形态。该用以提供一或多个经调整参数的装置被配置为提供例如输入至该 信号处理器的呈现参数的、或于该信号处理器运算的且由该信号处理器施 加的转码参数等该信号处理器的一或多个处理参数的经调整版本来获得 该上混信号表示形态。

此一实施例基于发现大量参数,该等参数由信号处理器施加,及输入 信号处理器或甚至于信号处理器计算,及其可基于该平均值而自前文讨论 的参数调整获益。已经发现若一参数集合(例如与不同音频对象相关联的 一呈现系数集合,或与时间上不同情况相关联的一转码参数值集合)良好 平衡,使得此种数值集合的个别值并未包含与平均值的过度大量偏差,则 信号处理器典型地提供良好质量的上混信号表示形态,小有失真。如此, 经由采用用以提供一或多个经调整的参数的装置组合用以提供上混信号 表示形态的装置,可实现本发明构想的效益。

于优选实施例,该信号处理器被配置为依据经调整的呈现系数,其描 述音频对象对该上混信号表示形态的一或多个声道的贡献而提供该上混 信号表示形态。该用以提供一或多个经调整参数的装置被配置为接收多个 使用者指定的呈现参数作为输入参数,及基于此而提供由该信号处理器 (优选至信号处理器)使用的一或多个经调整的呈现参数。已经发现使用 该用以提供一或多个经调整参数的装置所能获得的良好平衡的呈现参数, 典型地导致良好听觉印象。

于另一实施例,该用以提供一或多个经调整参数的装置被配置为接收 一混合矩阵的一或多个混合矩阵元作为该一或多个输入参数,及基于此而 提供由该信号处理器使用的一或多个经调整的该混合矩阵的混合矩阵元。 此种情况下,该信号处理器被配置为依据经调整的该混合矩阵的混合矩阵 元而提供该上混信号表示形态,其中该混合矩阵描述该下混信号表示形态 (例如表示呈时域表示形态或时频域表示形态形式)的一或多个音频声道 信号映射至该上混信号表示形态的一或多个音频声道信号的映射关系。已 经发现混合矩阵元应也良好适应于平均值,例如混合矩阵元的时间变化受 限制。

依据本发明的另一实施例,该音频处理器被配置为获得MPEG环绕任 意下混增益值。此种情况下,该用以提供一或多个经调整参数的装置被配 置为接收多个任意下混增益值作为输入参数,及提供多个经调整的任意下 混增益值。已经发现施加用以提供经调整的参数的装置至任意下混增益 值,也导致良好听觉印象且允许限制听觉失真。

依据本发明的其他实施例提供一种用以提供一或多个经调整的参数 的方法及计算机程序。该方法基于前文讨论的装置的相同发现且可由此处 就本发明装置讨论的结构特征及功能中的任一者而扩展延伸。

附图说明

图1显示依据本发明的实施例一种用以提供一或多个经调整的参数的 装置的方块示意图;

图2显示依据本发明的实施例一种用以提供上混信号表示形态的装置 的方块示意图;

图3显示依据本发明的另一实施例一种用以提供上混信号表示形态的 装置的方块示意图;

图4显示使用间接控制及直接控制的参数限制方案的方块示意图;

图5a显示表示收听测试条件的一表;

图5b显示表示收听测试的音频项目的一表;

图6显示表示所测试的极端呈现条件的一表;

图7显示对不同参数限制方案(PLS),MUSHRA收听测试结果的一 线图表示形态;

图8显示参考MPEG SAOC系统的方块示意图;

图9a显示使用分开的解码器及混合器的一参考SAOC系统的方块示 意图;

图9b显示使用集成型解码器及混合器的一参考SAOC系统的方块示 意图;

图9c显示使用SAOC至MPEG转码器的一参考SAOC系统的方块示 意图;及

图10显示一表描述哪些转码系数可由所提示的参数限制方案而修正。

具体实施方式

1.依据图1,用以提供一或多个经调整的参数的装置

后文中,将描述一种用以基于下混信号表示形态及与下混信号表示形 态相关联的参数侧边信息来提供用于提供上混信号表示形态的一或多个 经调整参数的装置。图1显示此种装置100的方块示意图。

该装置100被配置为接收一或多个输入参数110,及基于此而提供一 或多个经调整的参数120。装置100包含一参数调整器130,其被配置为 接收一或多个输入参数110,及基于此而提供一或多个经调整的参数120。 该参数调整器130被配置为依据多个输入参数值的平均值132而提供该一 或多个经调整的参数120,使得至少对偏离最佳参数达大于预定偏差的输 入参数(例如输入参数110),经由使用非最佳参数(例如一或多个输入参 数110)所造成的上混信号表示形态的失真减少。举例言之,参数调整器 130可具有比较该一或多个输入参数110,该一或多个经调整的参数120 是“更接近”(表示造成较少失真)最佳参数(其将导致无失真上混信号 表示形态)的效果。

为了实现此项目的,参数调整器130实施平均值运算来获得一相关输 入参数110(例如与一共享时间区间相关联的输入参数,或与不同时间相 关联的相同参数类型的输入参数)集合的平均值132(例如呈时间平均或 对象间平均)。有关装置100的操作,须注意基于一或多个输入参数110 提供一或多个经调整的参数120依据平均值132实现,原因在于发现平均 值132为用以调整参数的有意义数量。更明确言之,发现(相对于平均值) 中等参数典型地导致中等失真。

进一步细节容后详述。

2依据图2,用以提供一种上混信号表示形态的装置

后文中,将描述依据图2的用以提供一种上混信号表示形态的装置。 图2显示可视为音频信号解码器的此种装置200的方块示意图。举例言至, 装置200可包含SAOC解码器或SAOC转码器的功能。

装置200被配置为接收一下混信号表示形态210及一参数侧边信息 212。又,装置200被配置为接收使用者指定呈现参数214。装置被配置为 提供一上混信号表示形态220。

下混信号表示形态210例如可为一声道音频信号或二声道音频信号的 表示形态。下混信号表示形态210例如可为时域表示形态或编码表示形态。 于若干实施例中,下混信号表示形态210可为时频域表示形态,其中该下 混信号表示形态210的一或多个声道由随后平均值集合表示。

上混信号表示形态220例如可为呈时域表示形态或时频域表示形态形 式的个别音频声道的表示形态。另外,上混信号表示形态220可为编码表 示形态,包含一下混信号表示形态及一声道相关侧边信息二者,例如 MPEG环绕侧边信息。

使用者指定呈现参数214可呈呈现矩阵条目形式提供,该呈现矩阵条 目描述多个音频对象对该上混信号表示形态220的一或多个声道的期望贡 献。另外,使用者指定呈现参数214可呈任何其他适当形式提供,例如规 定音频对象的期望的呈现位置及呈现体积。

装置200包含一信号处理器230,其被配置为基于下混信号表示形态 210及参数侧边信息212而提供上混信号表示形态220。该信号处理器230 包含一重新混合功能232,来基于该下混信号表示形态210而提供上混信 号表示形态220。举例言之,重新混合功能232可经被配置为线性组合下 混信号表示形态212的多个声道而获得一上混信号表示形态220的声道。 于此重新混合中,下混信号表示形态210的声道对上混信号表示形态220 的声道的贡献可经由混合一混合矩阵G的矩阵元测定,其中混合矩阵G 的第一维(例如列数)可由上混信号表示形态220的声道数目测定,及其 中混合矩阵G的第二维(例如行数)可由下混信号表示形态210的声道数 目测定。

举例言之,重新混合处理232可用来经以将包含下混信号表示形态 210的一或多个声道的频谱值的一或多个向量乘以混合矩阵G,可提供包 含与上混信号表示形态220的一或多个声道相关联的频谱值的一或多个向 量。

信号处理器230也包含一混合参数运算236,其提供混合矩阵G(或 相当地,其矩阵元)。混合矩阵元系由混合参数运算230依据参数侧边信 息212及已修正的呈现参数252测定。混合矩阵G的混合矩阵元例如经提 供使得上混信号表示形态220的一或多个声道描述音频对象,依据已修正 的呈现参数252由下混信号表示形态210的一或多个声道表示。为了实现 此项目的,参数侧边信息212由混合参数运算236评估,其中该参数侧边 信息212例如包含,一对象电平差信息OLD、一对象间相关性信息IOC、 一下混增益信息DMG、及(选择性地)一下混声道电平差信息DCLD。 该对象电平差信息例如可以逐频带方式,描述多个音频对象间的电平差。 同理,该对象间相关性信息例如可以逐频带方式,描述多个音频对象间的 相关性。该下混增益信息及该(选择性地)下混声道电平差信息可描述该 下混,该下混执行来将来自多个音频对象的音频对象信号组合成该下混信 号表示形态的一或多个声道,其中典型地具有比下混信号表示形态210的 声道更多个音频对象。

据此,混合参数运算236可评估基于参数侧边信息212及已修正的呈 现参数252,如何选择混合矩阵元来获得包含预期的统计性质的一上混信 号表示形态220。

信号处理器230可选择性地包含侧边信息修正或侧边信息变换240, 其被配置为接收参数侧边信息212,及提供已修正的侧边信息(例如MPEG 环绕侧边信息),使得已修正的侧边信息及由重新混合处理232所提供的 相关联的重新混合下混信号表示形态描述一期望的音频场景。

要言之,信号处理器230例如可满足SAOC解码器820的功能,其中 该下混信号表示形态210扮演该一或多个下混信号812的角色,其中该参 数侧边信息212扮演侧边信息814的角色,及其中该上混信号表示形态220 系相当于输出声道信号至

另外,信号处理器230可包含分开解码器及混合器920的功能,其中 该下混信号表示形态210可扮演一或多个下混信号的角色,其中该参数侧 边信息212可扮演对象元数据的角色,及其中该上混信号表示形态220可 扮演一或多个输出声道信号928的角色。

另外,信号处理器230可包含集成解码器及混合器950的功能,其中 该下混信号表示形态210可扮演一或多个下混信号的角色,其中该参数侧 边信息212可扮演对象元数据的角色,及其中该上混信号表示形态220可 扮演一或多个输出声道信号958的角色。

另外,信号处理器230可包含MPEG环绕转码器980的功能,其中该 下混信号表示形态210可扮演一或多个下混信号的角色,其中该参数侧边 信息212可扮演对象元数据的角色,及其中该上混信号表示形态当与 MPEG环绕侧边信息984组合时可相当于该一或多个下混信号988。

总而言之,已修正呈现参数252可扮演使用者互动/控制信息822或呈 现信息的角色。

装置200也包含用以提供经调整的呈现参数的装置250。用以提供经 调整的呈现参数的装置250接收使用者指定的呈现参数214,及基于此而 提供已修正呈现参数252。装置250典型地被配置为计算与不同音频对象 相关联的多个使用者指定的呈现参数的平均值而获得平均值。又,装置250 被配置为依据该平均值执行呈现参数限制,来经由限制该使用者指定的呈 现参数214而获得已修正呈现参数252。已修正呈现参数252所受限的容 许区间典型地依据该平均值测定,因而避免已修正呈现参数252与平均值 间有强烈偏差,即使使用者指定的呈现参数214中的一者或多者包含此种 与平均值的强烈偏差亦如此。由此方式,典型地避免上混信号表示形态220 内部的过度失真,原因在于包含有限的对象间偏差的已修正呈现参数252 将导致具有低失真的上混信号表示形态,同时与不同音频对象相关联的呈 现参数间的重大差异典型地将导致听觉假象(audible artifacts)。

此处须注意用以提供经调整的呈现参数的装置250可包含与用以提供 一或多个经调整参数的装置100相同的总体功能,其中该使用者指定的呈 现参数214可扮演一或多个输入参数110的角色,及其中该已修正呈现参 数252可扮演一或多个经调整参数120的角色。

有关提供已修正呈现参数252的细节将参考图4讨论如下。

3依据图3,用以提供上混信号表示形态的装置

后文中,依据本发明的另一实施例的用以提供上混信号表示形态的装 置将参考图3作说明,该图显示此种装置300的方块示意图。

装置300典型地接收与装置200同类型输入信号,及提供相同类型输 出信号,因此相同组件符号用于此处来描述相同的或相当的信号。要言之, 装置300接收一下混信号表示形态210、参数侧边信息212及使用者指定 的呈现参数214;及装置300基于此而提供一上混信号表示形态220。

装置300包含一信号处理器330,其功能可实质上相当于信号处理器 230。信号处理器330包含一重新混合功能332,其与信号处理器230的重 新混合功能232相同,在于其基于下混信号表示形态提供重新混合的音频 声道信号。但重新混合332使用经调整的混合矩阵,而非直接得自混合参 数运算的一混合矩阵。

信号处理器330也包含一混合参数运算336,其功能上可与信号处理 器230的混合参数运算236的功能相同。据此,混合参数运算336接收参 数侧边信息212及使用者指定的呈现参数214,及基于此而提供一混合矩 阵G(或相当地,混合矩阵G的混合矩阵元,也标示以337)。

信号处理器330选择性地也包含一侧边信息修正338,其功能与侧边 信息修正240相同。

此外,装置300包含用以提供经调整的混合矩阵元的装置350。装置 350可为或可非为信号处理器330的一部分。装置350被配置为接收由混 合参数运算336所提供的混合矩阵337,G(或相当地,其混合矩阵元), 及基于此而提供经调整的混合矩阵352G’(或相当地,其经调整的混合矩 阵元)。举例言之,每一频带及每个音频帧可提供一个混合矩阵元集合及 一个经调整的混合矩阵元集合。换言之,若选用逐帧处理,则对下混信号 表示形态210的每个音频帧,混合矩阵G及经调整的混合矩阵G’可更新 一次。又并非必要并不同频带有多个混合矩阵G及经调整的混合矩阵G’。

但装置350被配置为基于由混合参数运算336所提供的混合矩阵337 的混合矩阵元而提供经调整的混合矩阵352的经调整的混合矩阵元。举例 言之,处理可以对混合矩阵(或经调整的混合矩阵)的每个位置个别进行, 使得一给定混合矩阵位置的经调整的混合矩阵元序列可取决于位在相同 混合矩阵位置的混合矩阵337的混合矩阵元序列,但与位在不同混合矩阵 位置的混合矩阵元不相干。

用以提供经调整的混合矩阵元的装置350被配置为依据基于混合矩阵 337而运算的一或多个平均值(例如一或多个矩阵位置个别平均值)而提 供该经调整的混合矩阵352的一或多个经调整的混合矩阵元。用以提供经 调整的混合矩阵352的经调整的混合矩阵元的装置350优选被配置为计算 在一给定混合矩阵位置随时间的经过,混合矩阵元的平均值。如此,对一 给定混合矩阵位置,平均值(优选地,但非必要地,时间平均值,例如浮 动平均或准无限脉冲响应平均值,或经由众所周知用于时间平均的递归低 通滤波或类似数算运算所得的平均值)可基于该给定混合矩阵位置的混合 矩阵元序列运算。举例言之,描述下混信号表示形态210的一给定声道对 上混信号表示形态220的一给定声道的贡献的混合矩阵元序列(该等混合 矩阵元系与多个音频框相关联)可用来获得此种平均值(也标示为均值), 该平均值可为有限脉冲响应平均值或(准)无限脉冲响应平均值(例如使 用众所周知用于时间平均的递归低通滤波或类似数算运算所得)。该给定 混合矩阵位置的一目前经调整的混合矩阵元(描述下混信号表示形态210 的一给定声道对上混信号表示形态220的一给定声道的贡献)可被装置 350限制一容许区间,该容许区间依据与该给定混合矩阵位置相关联的平 均值界定。

据此,避免混合矩阵元的过度时间起伏波动,原因在于经调整的混合 矩阵元受限于例如由在相同混合矩阵位置的先前混合矩阵元的平均(有限 脉冲响应平均或(准)无限脉冲响应平均)所测定的容许区间。已经发现 此种该经调整的混合矩阵352的经调整的混合矩阵元的限制典型地带来由 使用非最佳参数(例如非最佳使用者指定的呈现参数)所导致上混信号220 的失真限制,至少若该非最佳使用者指定的呈现参数偏离最佳使用者指定 的呈现参数达多于一个预定偏离时为如此。

此处须注意用以提供经调整的混合矩阵元的装置350可包含与用以提 供一或多个经调整的参数的装置100相同的整个功能,其中该混合矩阵 337的混合矩阵元呈扮演一或多个输入参数110的角色,及其中该经调整 的混合矩阵352的经调整的混合矩阵元可扮演一或多个经调整的参数120 的角色。

4依据图4的参数限制方案

后文中,依据本发明的参数限制方案将参考图4作说明,该图显示此 种参数限制方案的示意表示形态。

图4显示参数限制方案组合SAOC解码器410的应用。但参数限制方 案可组合不同类型音频解码器或音频转码器,例如SAOC转码器施用。

SAOC解码器410接收下混420及SAOC位流422。又,SAOC解码 器提供一或多个输出声道430a至430M。

于第一实施例,标示为(a),参数限制方案实施间接控制。参数限制 方案440接收一输入呈现矩阵R,例如使用者指定的呈现矩阵,及基于此 而提供一经调整的呈现矩阵予SAOC解码器。此种情况下,SAOC解码 器如前述使用经调整的呈现矩阵用于混合矩阵G的导算。参数限制方案 440也接收参数ΛR-、ΛR+,其可决定容许区间边界。

另外或此外,可施加第二参数限制方案450。第二参数限制方案接收 转码参数T,及基于此而提供经调整的转码参数转码参数T可于SAOC 解码器410运算,而经调整的转码参数可由SAOC解码器410施用。举 例言之,转码参数T可相当于如前文讨论的混合矩阵G的混合矩阵元, 而经调整的转码参数可相当于经调整的混合矩阵G’的经调整的混合矩 阵元。

参数限制方案450也接收一或多个参数ΛT-、ΛT+,其可决定容许区间 边界。

4.1概述

后文中,将概述用于失真控制的参数限制方案。

一般性SAOC处理以时/频选择方式进行,容后详述。

SAOC编码器提取若干输入音频对象信号的心理声学特性(例如对象 功率关系及相关性),及然后,下混之成为一单声道或立体声道组合(例 如可标示为下混信号表示形态)。此种下混信号及所提取的侧边信息使用 众所周知的听觉音频编码器,以压缩格式传输(或储存)。在接收端,SAOC 解码器于构想上尝试使用所传输的侧边信息(例如对象电平差信息OLD、 对象间相关性信息IOC下混增益信息DMG、及下混声道电平差信息 DCLD)来回复原先对象信号(即分开的下混物件)。此等近似对象信号然 后使用呈现矩阵(其中该呈现矩阵典型地述不同音频对象对上混信号表示 形态的不同声道的贡献)混合入一目标场景。呈现矩阵由对各个所传输的 音频对象及上混设定扬声器规定的相对呈现系数RC(或对象增益)组成。 此等对象增益判定全部分开的/呈现的对象的空间位置。实际上,罕见执行 (或甚至未曾执行)对象信号的分离,原因在于分离及混合二者组合成单 一组合处理步骤,其经常导致运算复杂度的剧减。单一组合处理步骤例如 可使用转码系数执行,其描述分开对象的对象分离与混合的组合。

已经发现就传输位率(只要求传输一或二下混声道加若干侧边信息而 非个别对象音频信号数目)及运算复杂度(处理复杂度主要涉及输出声道 数目而非音频对象数目)两方面而言,此一方案极为有效。

SAOC解码器(于参数字准)将对象增益及其他侧边信息直接变换成 转码系数(TC),其施加至该下混信号来形成已呈现的输出音频场景的对 应信号(或进一步解码操作的前处理下混信号,即典型地多声道MPEG环 绕呈现)。

已经发现经由施加失真控制措施或DCM可改良所呈现的输出音频场 景的主观听觉音频质量,如非预公开的US 61/173,456所述。此项改良可 由接受目标呈现场景的温和动态修正而实现。呈现信息的修正具有时间及 频率变量本质,在特定情况下可能导致不自然的音色及时间波动假象。

参考文献[6]所述失真控制措施(DCM)的替代之道中,依据本发明 的实施例使用多项参数限制方案,其聚焦在音频假象(音色、时间波动等) 的减少及同时保有天然声音质量。

此处所提示的参数限制方案构想并未使用心理声学算法,基于心理声 学模型调整基于计算得的失真测量值的呈现系数(RC)。反而所提示的参 数限制方案构想显示低度运算及结构复杂度,因此具有整合入SAOC技术 的吸引力。虽言如此,其也可优异地组合参考文献[6]所述方案来由彼此互 补而实现更佳的总体输出质量。

在总SAOC系统中,参数限制方案可以两种方式整合入SAOC解码 器处理连锁。举例言之,参数限制方案可放在前端通过控制呈现系数(RC) R而用于SAOC输出信号的间接(外部)修正,于图4显示为替代之道(a)。 另外,在特性转码系数(TC)T施加至下混信号前,系数T直接(内部) 于SAOC解码器后端修正,于图4显示为替代之道(b)。

4.2间接控制

后文中,将讨论间接控制构想的进一步细节。

间接控制方法的基本假说考虑失真电平与RC偏离其对象平均值的偏 差间的关系。此点基于观察到相较于其他对象,由RC施加更特定衰减/ 增强至一个特定对象,由SAOC解码器/转码器执行所传输的下混信号的 更积极修正。换言之:“对象增益”值相对于彼此的偏差愈高,则发生无 法接受的失真机率愈高(假设相同下混系数)。发现可通过检验RC与跨 全部对象的RC平均值(例如平均呈现值)的偏差测试。

未丧失普适性,后文描述基于考虑对全部对象具有统一下混增益的单 声道下混的组态。对非平凡的下混情况(带有不同的及/或动态的对象增 益),算法可经适当修正。此外,RC假设为频率不变来简化记法(notation)。

基于带有对象指针i的系数R(i)表示的使用者指定的呈现状况,PLS 通过产生实际上由SAOC呈现引擎所使用的修正RC值而避免极端呈 现值。其可呈如下函数导算

R~(i)=FR(R(i),Λ),

此处为PLS控制参数(即临界值)。PLS控制参数可视为容许参数。

呈现系数R(i)与平均呈现值(例如算术平均)的偏差Rd(i)可获得为 Rd(i)=R(i)R,

此处

R=1NobΣi=1NobR(i).

据此,Rd(i)为呈现系数R(i)与平均呈现值R间的比。平均呈现值R为 对具有音频对象指针i的音频对象求取平均所得呈现系数R(i)的平均值。

有限偏差限于某个容许Λ范围为

R~d(i)=Λ对Rd(i)>Λ,

R~d(i)=1ΛRd(i)<1Λ.

注意如此对应于相对于参考值例如进行的RC限制运算,其是自输 入RC动态运算而非特定预定值。

对所述PLS办法,最佳解可以最小限问题公式化,对此给定RCR(i) 与经修正(经限制的)值间的差为最小化

||R~(i)-R(i)||min.

后文中,将描述用来提供经调整的呈现系数的若干算法解,其中 该经调整的呈现系数可视为经调整的参数。

以下二算法解基于位在容许范围以外的该等呈现值的偏差,即

Rd,out(i)=Rd(i)对Rd(i)>Λ,或

4.2.1一步骤式解

可采用简单而快速的一步骤式解来由下述限制容许范围以外的全部 呈现值:

R~d(i)=ΛR对Rd(i)>Λ,

R~d(i)=RΛRd(i)<1Λ.

相反地,在容许范围以内的呈现值可维持不受影响,使得对此等呈现 值

R~(i)=R(i).

4.2.2迭代重复解

另一项可采用的直接方法其中该等具有相关联的偏差的超出范围的 呈现值Rd,out(i)逐渐受限制。此项算法的迭代重复中,最大呈现偏差Rd,max定义为

Rd,mx=max{Rd,out(i)}对Rd>Λ,

Rd,max=min{Rd,out(i)}对

对应的呈现系数限制使得

R~(i)=(1-λ)R(i)+λR,λ∈(0,1).

此项处理可执行直至全部值皆在容许区以内或具有预定迭代重复次 数。

据此,于各次迭代重复,选定一呈现系数R(imax),其导数Rd,out(imax) (例如得自平均值)具有最大值Rd,max。换言之,选定呈现系数R(imax), 其包含于个别迭代重复得自呈现系数平均的一最大导数(导数值Rd,out表示)。此外,使用前述R(i)与的线性组合,该选定的呈现系数R(imax)调整至更接近呈现系数的平均。于迭代重复程序的各步骤,可进行自平均 值具有最大导数的呈现系数的新颖选择,使得于迭代重复算法的不同步骤 可修正不同呈现系数。换言之,imax典型地于每次迭代重复时更新。又, 平均值可选择性地对迭代重复算法的每个步骤,考虑前一个已修正的呈现 系数重新运算。

4.3直接控制

直接控制方法的潜在假说考虑失真电平与TC偏离其时间均值的偏差 间的关系。此点基于观察到比较其他对象,更特定的衰减/增强施加至一特 定对象,由SAOC解码器/转码器执行由TC对所传输的下混信号的更积极 修正。换言之:若TC值异常地大,则获得结论SAOC算法试图通过施加 强力增强而将具有小功率的一对象信号修正成由其他具大功率的对象信 号主控的一输出信号。相反地,若TC值异常地小,则获得结论SAOC算 法试图通过施加强力衰减而将具有大功率的一对象信号修正成由其他具 小功率的对象信号主控的一输出信号。两种情况下,在SAOC的输出端有 产生无法接受地低信号质量的高风险。如此,中心思想是防止TC大为偏 离平均值。

此种PLS可视为时间及频率变量,原因在于其包含与SAOC信号参 数(例如OLD、IOC)及转码/解码处理的试探性元素的全部相依性。

并未丧失一般性,后文描述基于考虑单声道上混的组态。

基于SAOC输出信号TC T(k)具有频率指针k,PLS通过以修正的TC 值置换TC极值(例如在容许区间以外的转码系数),及然后由实际SAOC 呈现方法使用之来防止TC的极值。已修正TC值可以如下函数导算:

T~(k)=FT(T(k),Λ),

此处Λ为PLS控制参数(即临界值)。PLS控制参数可视为容许参数。

因TC为时间变量,故应用递归低通滤波器来计算均值:

Tn(k)=μTn(k)+(1-μ)Tn-1(k).

均值被视为平均值,其中个别转码值的加权由施加递归低通滤波而 导入。

此处,n表示TC的时间指标,而μ∈(0,1]为平均参数。已修正TC值的容许范围定义为:

T(k)ΛT~(k)ΛT(k).

注意如此是与TC限制运算相对应,其相对于参考值进行运算,其是 自TC而非特定预定值由动态运算。

对所述PLS办法,最佳解可调配为最小限解,对该最小限解,给定 TC T(k)与已修正(已限制)TC值间的差为最小化:

||T~(k)-T(k)||min.

后文中,将描述此一问题的可能的解算法。

4.3.1解算法

已修正TC值可获得为:

T~(k)=ΛT~(k)对T(k)>Λ,

T~(k)=T~(k)ΛT(k)=1Λ.

4.3.2转码系数实例

前文讨论的用于转码系数的参数限制方案可应用至不同转码系数,其 例如用于前文讨论的SAOC解码器及SAOC转码器。

举例言之,用于转码系数的参数限制方案可应用至混合矩阵G的限制 参数,其系用于装置300的信号处理器330。此种情况下,在混合矩阵G 的一给定矩阵位置的混合矩阵元可取代转码系数T(k),其中k为频率指针。 混合矩阵G’的对应混合矩阵元可与经调整的转码系数相对应。转码参 数限制方案例如可个别施加至混合矩阵的不同矩阵位置。举例言之,若混 合矩阵G包含混合矩阵元g11、g12、g21及g22,及经调整的混合矩阵G’包 含混合矩阵元g11’、g12’、g21’及g22’,经调整的混合矩阵元g11’(n0)可自一 序列g11(1)至g11(n0)导算出。相当导算可用于经调整的混合矩阵G’的其他 混合矩阵元g12’、g21’及g22’。

图10的表提供对全部SAOC运算模式,由所提示的参数限制方案可 修正、例如可限制的一转码系数列表。图10的表显示不同SAOC模式于 第一栏1010。图10的表进一步显示可由所提示的参数限制方案修正(例 如限制)的参数于第二栏1020。第三栏1030显示参考文献[8]的MPEG SAOC FCD文件的相对应子类别的参考文献。要言之,图10的表显示使 用参考文献[8]的MPEG SAOC FCD文件的相对应子类别的参考文献,对 全部SAOC运算模式,由所提示的参数限制方案可修正(例如可限制)的 一转码系数列表。

4.4参数限制方案用于限制相对偏差的通式

存在有前文讨论的PLS的一通式。此式可以如下最小化问题形式对通 用参数变量表示为:

XiΛX~iΛXi,||X~i-Xi||min.

此处,初步给定Xi值,“参考”值可估算为已修正的变量的函数 为Xi=F(X~i).

前文中,参数变数Xi例如可与R(i)或T(i)相同。同理,经调整的参数 变数可与经调整的呈现系数或经调整的转码系数相同。变数Xi、 例如可相于混合矩阵元gmn(i)及gmn’(i)。

后文将讨论两种解算法。

大致上,用以对此种最小限问题获得正确解的分析办法系需要运算。 但虽言如此,仍有简单快速的替代的道可提供次最佳结果,而仍然的用于 PLS目的。其中两种简单办法说明于此处。

4.4.1一步骤式解

一步骤式解系基于假设限制全部在容许范围以外的全部数 值系在其外侧,

X~i=ΛXi对Xi>Λ,

X~i=XiΛXi=1Λ.

容许范围以内的数值(可视为容许区间)例如可维持不变。

4.4.2重复迭代解

于各步骤,重复迭代解修正一个所选超出范围的值至X~i*=(1-λ)Xi*X-其中λ∈(0,1)

例如,处理指标i*可使用下列条件选择:

Xi*=max(XiX)XiX>Λ,

Xi*=min(XiX)XiX>1Λ.

重复迭代次数可设定为某一值或自该算法隐含地导算出。 须注意全部此等方法皆可应用于如前述限制RC及TC。

4.5通用线性公式

对前文讨论的PLS存在有通用线性公式。前一章节中,通用参数Xi的偏差描述为比相反地,也可定义为结果导致对通用参数 变量如下的最小化问题:

(Xi-ΛX-)X~i(Xi+ΛX+),||X~i-Xi||,min.

此处,初步给定Xi值,及“参考”值可估算为已修正的变量的 函数为Xi=F(X~i).

后文中,将描述此一问题的两个解算法。

一般而言,获得此种最小化问题的正确解的分析办法通常具有运算需 求。虽言如此,仍有简单且快速的替代之道来提供非最佳解而仍然适用于 PLS目的。其中两种简单办法描述于此处:

4.5.1一步骤式解

一步骤式解基于假设:限制在容许范围以外的全部值皆落入 其内定义为:

X~i=min(max(Xi,Xi-ΛX-),Xi+ΛX+).

4.5.2重复迭代解

于各步骤,若在容许范围以外,则重复迭代解修正一个所选的值至

Xi*>Xi*||Xi*-Xi*||>||Xi*-ΛX+||X~i*=Xi*-S,

Xi*<Xi*||Xi*-Xi*||>||Xi*-ΛX-||X~i*=Xi*-S.

举例言之,处理指数i*可使用如下条件选定:及修 正阶大小值为具有λ∈(0,1)。迭代重复次数可设定为某个 值或暗示地自该算法导算出。

此一算法提供使用容许范围的弹性方式,即其动态地改变(取决于 )。

须注意全部此等方法皆可应用于如前述限制RC及TC。

另外,可使用如下算法:

Xi*>Xi*并且||Xi*-Xi*||>ΛX+,

X~i*=Xi*-S,以及

Xi*<Xi*并且||Xi*-Xi*||>ΛX-,

X~i*=Xi*+S

此一算法版本使用固定(静态)容许范围ΛX-,ΛX+

4.6额外备注

须注意全部此等方法皆可应用于限制呈现系数及转码系数,说明如 前。

5参数限制方案应用至多声道下混/上混情况

考虑下混/上混声道的任一种组合,单声道下混/单声道上混情况的单 一TC PLS(例如直接控制)扩充至TC矩阵。结果,直接控制可个别地应 用至各个TC。多声道上混情况用于RC PLS(例如间接控制)例如可于单 多重单声道办法实现,此处全部个别呈现系数皆独立处理。

6收听测试结果

6.1测试设计及项目

已经进行主观收听测试来评估所提示的失真控制测量(DCM)构想的 听觉性能,且与常规SAOC参考模型(SAO CRM)解码处理比较。

测试设计包括所提示的参数限制方案及其组合的直接及间接控制办 法。常规(未由参数限制方案PLS处理的)SAOC解码器的输出信号包括 于该测试来验证SAOC的基准线性能。此外,与下混信号相对应的微不足 道的呈现情况用于收听测试作为比较目的。

图5a的表描述收听测试条件。

已经自提案(CfP)收听测试材料中选出四项代表极端呈现状况的典 型及最关键性假象类型用于目前收听测试。

图5b的表描述收听测试的音频项目。

依据图6的表的呈现对象增益已经应用于所考虑的上混情况。

因所提示的PLS使用常规SAOC位流及下混信号运算(无需SAOC 编码器端的任何PLS相关活性)且未转接残余信息,故无核心编码器应用 至相对应SAOC下混信号。

对全部测试项目及所考虑的呈现条件,PLS的通用设定值取作为:

Λ{R-,R+}=Λ(T-,T+}=6.

6.2测试方法

本收听测试于设计来允许高质量收听的隔音收听室内进行。使用耳机 (STAX SRλPro,附有湖人(Lake-People)D/A-转换器及STAX SRM 监视器)进行回放。

测试方法遵照空间音频验证测试所用程序,基于“隐藏参考及基准的 多重刺激”(MUSHRA)法用于中间质量音频的主观评估[7]。测试方法据 此修正来评估所提示的DCM构想的听觉性能。依据所采用的测试方法, 指示收听者依据下列收听测试指示而比较全部测试条件:

对各项音频请:

●首先研读期望的混音说明,您作为系统使用者,想要实现:

项目「BlackCoffee」:混音中有轻柔喇叭小节

项目「Fanta4」:混音中有强鼓声

项目「LovePop」:混音中有轻柔弦乐小节

项目「试音」:轻音乐及强嗓音

●然使用一个公共等级描述二者来分级信号

-实现期望的混音目标

-全场景音质(考虑失真、假象、不自然…)

共有九位收听者参考各项测试。全部个体皆视为经验老练的收听者。

测试条件对各个测试项目及各个收听者自动随机分配。以自0至100 范围的分数由基于计算机的MUSHRA程序记录主观反应。允许接受测试 各项目间的瞬间切换。

6.3收听测试结果

以图解验证所得收听测试结果的简短概述可参考附录。此等作图显示 对全部收听者对每个项目的平均MUSHRA分级及对全部评估项目的统计 均值连同相关95%信赖区间。

基于所进行收听测试结果可做出下列观察:对全部所进行收听测试结 果,所得MUSHRA分数证实就总统计均值而言,所提示的PLS功能提供 比较常规SAOC RM系统更佳的性能。须注意由常规SAOC解码器(对所 考虑的极端呈现条件,显示强音频假象)所产生的全部项目质量分级,比 较丝毫也未满足期望的呈现情况的下混相同呈现设定值的质量仅略高。因 此,可获得结论:所提示的PLS结果导致对全部所考虑的收听测试情况, 主观信号质量皆有显著改良。也可获得结论:最具展望的限制系统由RC 及TC PLS的组合所组成。

有关收听测试结果的细节可参考图7的图解表示形态。

7替代实施例

虽然于装置上下文已经说明若干方面,但显然此等方面也表示相对应 方法的描述,此处一方块或一装置与一方法步骤或一方法步骤的一特征相 对应。同理,于一方法步骤上下文所描述的方面也表示相对应方块或项目 或相对应装置的特征的描述。部分或全部方法步骤可由(或使用)硬件装 置,例如微处理器、可程序计算机或电子电路执行。若干实施例中,最重 要方法步骤中的某一者或多者可由此种装置执行。

本发明的编码音频信号可储存于数字储存介质或可经由传输介质诸 如无线传输介质或有线传输介质诸如因特网传输。

依据某些实施要求,本发明的实施例可于硬件或于软件实施。实施的 执行可使用有可电子式读取的控制信号储存其上的数字储存介质例如软 盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存, 该等介质与可程序规划计算机系统协力合作(或可协力合作)因而执行个 别方法。因此,数字储存介质可为计算机可读取式。

依据本发明的若干实施例包含具有可电子式读取的控制信号于其上 的数据载体,其与可程序规划计算机系统可协力合作因而执行此处所述方 法中的一者。

一般而言,本发明的实施例可实施为带有程序代码的计算机程序产 品,该程序代码可操作当该计算机程序产品于计算机上运行时用于执行该 等方法中的一者。程序代码例如可储存于机器可读取载体上。

其他实施例包含用以执行此处所述方法中的一者的储存在机器可读 取载体上的计算机程序。

换言之,因而本发明方法的实施例为一种具有程序代码的计算机程 序,当该计算机程序产品于计算机上运行时用以执行此处所述方法中的一 者。

因而本发明方法的又一实施例为一种数据载体(或数字储存介质,或 计算机可读取介质)包含用以执行该等方法中的一者的计算机程序记录于 其上。该数据载体或数字储存介质或记录介质典型地为有实体及/或非瞬时 的。

因此,本发明方法的又一实施例为一种数据流或一序列信号表示用以 执行此处所述方法中的一者的计算机程序。该数据流或该序列信号例如可 被配置为经由数据通信连接,例如经由因特网传输。

又一实施例包含一种处理装置,例如计算机或可程序逻辑装置被配置 为或调整适应用于执行此处所述方法中的一者。

又一实施例包含一种计算机,其上安装用以执行此处所述方法中的一 者的计算机程序。

于若干实施例,可编程逻辑装置(例如现场可编程门阵列)可用来执 行此处所述方法的部分或全部函数。于若干实施例,现场可编程门阵列可 与微处理器协力合作来执行此处所述方法中的一者。大致上,该等方法优 选由硬件装置执行。

前述实施例仅供举例说明本发明的原理。须了解本领域技术人员显然 易知此处所述配置及细节的修正及变化。因此意图本发明只受随附的权利 要求书的范围所限,而非受通过此处实施例的描述及解说所呈现的特定细 节所限。

8结论

依据本发明的实施例提供用于音频解码器的失真控制的参数限制方 案。依据本发明的若干实施例聚焦在空间音频对象编码(SAOC),其提供 用以选择期望的回放设定值(例如单声道、立体声、5.1等)的使用者界 面手段以及经由依据个人偏好或其他标准而控制呈现矩阵的期望输出呈 现场景的交互式实时修正。但一般而言调整所提示的方法用于参数技术为 直接任务。

由于基于下混/分离/混合参数办法,所呈现的音频输出信号的主观质 量系取决于呈现参数设定值。选用由使用者选择呈现设定值有使用者选择 不当对象呈现选项的风险,诸如总体声音场景内部的对象的极端增益操 控。

对商业产品而言,绝对无法接受在使用者界面上产生任何设定的不佳 音质及/或音频假象。为了控制所产生的SAOC音频输出信号的过度降级, 已经描述若干运算措施,其基于运算所呈现的场景的听觉质量测量值,及 依据此测量值(及其他信息),修正实际施加呈现系数(例如请见参考文 献[6])。

本发明提供替代构想用来保护所呈现的SAOC场景的主观音质:

●全部处理全然在SAOC解码器/转码器内部进行,及

●未涉及所呈现的音频场景的听觉音质的复杂测量值的显式 (explicit)计算

如此此等构想可以结构简单而又极端有效方式在SAOC解码器/转码 器内部实施。因所提示的失真控制机制(DCM)针对SAOC解码器特有 的限制参数,即呈现系数(RC)及转码系数(TC),故于全文说明中称作 为参数限制方案(PLS)。

但参数限制方案也可应用于任一种不同的音频解码器。

9 参考文献

[1]C.Faller and F.Baumgarte,″Binaural Cue Coding-Part II:Schemes and  applications″,IEEE Trans.on Speech and Audio Proc.,vol.11,no.6,Nov.2003.

[2]C.Faller,″Parametric Joint-Coding of Audio Sources″,120th AES Convcntion,Paris,2006,Preprint 6752.

[3]J.Herre,S.Disch,J.Hilpert,O.Hellmuth:″From SAC To SAOC-Recent  Developments in Parametric Coding of Spatial Audio″,22nd Regional UK AES  Conference,Cambridge,UK,April 2007.

[4]J.,B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.L.

Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:″Spatial Audio  Object Coding(SAOC)-The Upcoming MPEG Standardon Parametric Obiect  Based Audio Coding″,124th AES Convention,Amstcrdam 2008,Preprint 7377.

[5]ISO/IEC,″MPEG audio technologies-Part 2:Spatial Audio Object Coding  (SAOC),″ISO/IEC JTC1/SC29/WG11(MPEG)FCD 23003-2.

[6]US patent application 61/173,456,METHODS,APPARATUS,AND COMPUTER  PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNAL PROCESSING

[7]EBU Technical rccommendation:″MUSHRA-EBU Method for Subjective Listening  Tests of Intermediate Audio Quality″,Doc.B/AIM022,October 1999.

[8]ISO/IEC JTC1/SC29/WG11(MPEG),Document N10843,“Study on ISO/IEC 20003-2:200x Spatial Audio Object Coding(SAOC)”,89th MPEG Meeting, London,UK,July 2009

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号