首页> 中国专利> 使用上混双耳化从立体声信号生成双耳信号的方法及装置

使用上混双耳化从立体声信号生成双耳信号的方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

公开了一种音频信号处理方法，包括：接收立体声信号；将立体声信号转换为频域信号；基于第一同侧滤波器系数来渲染第一信号；生成与频域信号相关的正面同侧信号；基于第二同侧滤波器系数来渲染第二信号；生成与频域信号相关的侧面同侧信号；基于对侧滤波器系数来渲染第二信号；生成与频域信号相关的侧面对侧信号；将通过混合正面同侧信号和侧面同侧信号生成的同侧信号以及侧面对侧信号分别转换为作为时域信号的时域同侧信号和时域对侧信号，以及通过将时域同侧信号和时域对侧信号混合来生成双耳信号。

著录项

公开/公告号CN112511965B

专利类型发明专利
公开/公告日2022-07-08

原文格式PDF
申请/专利权人高迪奥实验室公司;
展开▼

申请/专利号CN202010972423.5
发明设计人田相培;安炳峻;崔栽成;吴贤午;徐正勋;李泰圭;
展开▼

申请日2020-09-16
分类号H04S7/00(2006.01);
代理机构北京京原星洲知识产权代理事务所(普通合伙) 11747;北京京原星洲知识产权代理事务所(普通合伙) 11747;
代理人缑正煜;雷小林
地址韩国首尔
入库时间 2022-08-23 13:59:39

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-08

授权

发明专利权授予

说明书

技术领域

本公开涉及一种用于有效地发送和再现音频信号的信号处理方法和装置，并且更具体地说，涉及一种用于使用包括音频的媒体服务(诸如广播和流媒体)来向用户提供具有改善的空间感的音频信号的音频信号处理方法和装置。

背景技术

在诸如5.1声道音频的多声道音频格式出现之后，通过多声道音频信号提供更沉浸式的和真实的声音的内容已成为媒体市场上公认的主流媒体。在剧院中，已经经常发现采用以超出了传统的基于5.1声道的声音系统、使用对象的杜比全景声(Dolby Atmos)形式的内容和再现系统。此外，在家用电器领域，还使用虚拟3D渲染(其使用诸如条形音箱或UHDTV的具有有限形状因子的设备提供原始多声道内容声音)来提供比通过使用诸如家庭影院系统的设备的常规DVD或蓝光光盘的多声道内容的如实的再现更沉浸式的和真实的声音。

尽管如此，内容在个人设备(诸如智能手机和平板电脑)中最频繁地被消费。在这种情况下，声音通常以立体声格式被发送并通过耳机和头戴式耳机被输出，因此，变得难以提供足够的沉浸式声音。为了克服该问题，可以使用上混器和双耳渲染器。

上混主要使用通过分析来合成信号的结构，并且具有基于窗口和时频变换的重叠及添加处理结构，其保证了完美的重构。

通过执行给定虚拟声道的头部相关脉冲响应(HRIR)的卷积来实现双耳渲染。因此，双耳渲染需要相对大量的计算，由此具有其中在频域中倍增在零填充之后被时频变换的信号的结构。另外，当需要非常长的HRIR时，双耳渲染可以采用块卷积。

上混和双耳渲染两者均在频域中执行。但是，两个频域具有不同的特性。上混的特征在于，由于相变与通过分析窗口和合成窗口的完美重构的假设不相容，因此频域中的信号变化通常不显示相变。双耳渲染的频域是限制性的，因为包括相变或信号的循环卷积域和用于卷积的HRR均被零填充，因此不应发生循环卷积的混叠。这是因为上混引起的输入信号的变化不保证零填充区域。

在串行地组合两个过程的情况下，应当包括用于上混的所有时频变换，由此需要非常大量的计算。因此，需要一种能够同时反映这两种结构并且在计算量方面进行优化的技术。

发明内容

技术问题

本公开的一方面是提供一种重叠及添加处理结构，其中，有效地组合了上混和双耳渲染。

本公开的另一方面是提供一种用于使用同侧渲染以便减少诸如在正面声像定位期间发生的梳状滤波的着色伪像的方法。

技术方案

本说明书提供一种音频信号处理方法。

具体地，该音频信号处理方法包括：接收立体声信号；将立体声信号转换为频域信号；基于频域信号的声道间相关性和声道间声级差(ICLD)，将频域中的信号分离为第一信号和第二信号，其中，第一信号包括频域信号的正面分量，并且第二信号包括频域信号的侧面分量；基于第一同侧滤波器系数来渲染第一信号并且生成与频域信号相关的正面同侧信号，其中，第一同侧滤波器系数基于第一头部相关脉冲响应(HRIR)的同侧响应信号来生成；基于第二同侧滤波器系数来渲染第二信号并且生成与频域信号相关的侧面同侧信号，其中，第二同侧滤波器系数基于第二HRIR的同侧响应信号来生成；基于对侧滤波器系数来渲染第二信号并且生成与频域信号相关的侧面对侧信号，其中，基于第二HRIR的对侧响应信号来生成对侧滤波器系数；将通过混合正面同侧信号和侧面同侧信号生成的同侧信号以及侧面对侧信号分别转换为作为时域信号的时域同侧信号和时域对侧信号；以及通过混合时域同侧信号和时域对侧信号来生成双耳信号，其中，考虑到应用于时域对侧信号的耳间时间延迟(ITD)来生成双耳信号，以及其中，第一同侧滤波器系数、第二同侧滤波器系数和对侧滤波器系数为实数。

此外，在本说明书中，一种音频信号处理装置，包括：输入终端，被配置为接收立体声信号；以及包括渲染器的处理器，其中，该处理器被配置为：将立体声信号转换为频域信号；基于频域信号的声道间相关性和声道间声级差(ICLD)，将频域中的信号分离为第一信号和第二信号，其中，第一信号包括频域信号的正面分量，并且第二信号包括频域信号的侧面分量；基于第一同侧滤波器系数来渲染第一信号并且生成与频域信号相关的正面同侧信号，其中，第一同侧滤波器系数基于第一头部相关脉冲响应(HRIR)的同侧响应信号来生成；基于第二同侧滤波器系数来渲染第二信号并且生成与频域信号相关的侧面同侧信号，其中，第二同侧滤波器系数基于第二HRIR的同侧响应信号来生成；基于对侧滤波器系数来渲染第二信号并且生成与频域信号相关的侧面对侧信号，其中，基于第二HRIR的对侧响应信号来生成对侧滤波器系数；将通过混合正面同侧信号和侧面同侧信号生成的同侧信号以及侧面对侧信号分别转换为作为时域信号的时域同侧信号和时域对侧信号；以及通过混合时域同侧信号和时域对侧信号来生成双耳信号，其中，考虑到应用于时域对侧信号的耳间时间延迟(ITD)来生成双耳信号，以及其中，第一同侧滤波器系数、第二同侧滤波器系数和对侧滤波器系数为实数。

此外，在本说明书中，将通过混合正面同侧信号和侧面同侧信号生成的同侧信号以及侧面对侧信号分别转换为作为时域信号的时域同侧信号和时域对侧信号包括：将通过对左声道和右声道的每一个混合正面同侧信号和侧面同侧信号而生成的左同侧信号和右同侧信号分别转换为作为时域信号的时域左同侧信号和时域右同侧信号；以及对左声道和右声道中的每一个，将侧面对侧信号转换为作为时域信号的左侧对侧信号和右侧对侧信号，其中，通过混合时域左同侧信号和时域左侧对侧信号，以及混合时域右同侧信号和时域右侧对侧信号，来生成双耳信号。

此外，在本说明书中，第一信号的左声道信号和第二信号的左声道信号之和与立体声信号的左声道信号相同。

另外，在本说明书中，第一信号的右声道信号和第二信号的右声道信号之和与立体声信号的右声道信号相同。

另外，在本说明书中，第一信号的左声道信号的能量和第一信号的右声道信号的能量相同。

另外，在本说明书中，考虑ITD的HRIR的对侧特性被应用于HRIR的同侧特性。

另外，在本说明书中，ITD为1ms或更小。

另外，在本说明书中，第一信号的左声道信号的相位与正面同侧信号的左声道信号的相位相同；第一信号的右声道信号的相位与正面同侧信号的右声道信号的相位相同；第二信号的左声道信号的相位、侧面同侧信号的左侧信号的相位和对侧信号的左侧信号的相位相同，以及第二信号的右声道信号的相位、侧面同侧信号的右侧信号的相位和侧面对侧信号的右侧信号的相位相同。

有益效果

本公开基于立体声声源，通过上混和双耳化来提供具有改善的空间感的声音。

附图说明

从以下结合附图的详细描述，本公开的上述和其他方面、特征和优点将变得更显而易见，其中：

图1是图示根据本公开的实施例的用于生成上混双耳信号的装置的框图；

图2图示根据本公开实施例的用于生成上混双耳信号的装置的频率变换单元；

图3是示出根据本公开的实施例的用于提供完美重构的正弦窗口的图；

图4图示根据本公开的实施例的用于生成上混双耳信号的装置的上混单元；

图5是示出根据本公开的实施例的软判决函数的图。

图6图示根据本公开的实施例的用于生成上混双耳信号的装置的渲染单元；

图7图示根据本公开的实施例的用于生成上混双耳信号的装置的时间变换和混合单元；

图8图示根据本公开的实施例的用于使用上混双耳信号生成算法来改善空间声音的算法；

图9图示根据本公开实施例的用于服务器-客户端结构的简化的上混双耳信号生成算法；

图10图示根据本公开的实施例的在频域中执行音频信号的双耳化的方法；

图11图示根据本公开的实施例的在多个频域中执行音频输入信号的双耳化的方法；

图12图示根据本公开的实施例的对输入信号执行双耳化的方法；

图13图示根据本公开的实施例的混淆锥(cone of confusion)。

图14图示根据本公开的实施例的用于多个输入信号的双耳化方法；

图15图示根据本公开的实施例的其中虚拟输入信号位于混淆锥中的情况；

图16图示根据本公开的实施例的对虚拟输入信号进行双耳化的方法；

图17图示根据本公开的实施例的上混器；

图18图示根据本公开的实施例的对称布局配置；

图19图示根据本公开的实施例的对输入信号进行双耳化的方法；

图20图示根据本公开的实施例的执行与用户的头部的定向相对应的交互式双耳化的方法；

图21图示根据本公开的实施例的由耳间极坐标(IPC)系统中的混淆锥配置的虚拟扬声器布局；

图22图示根据本公开的实施例的向虚拟扬声器平移(panning)的方法；

图23示出根据本公开的另一实施例，向虚拟扬声器平移的方法。

图24是图示根据本公开的实施例的向虚拟扬声器平移的球形图；

图25是图示根据本公开的实施例的向虚拟扬声器平移的左视图；以及

图26是图示根据本公开的实施例的双耳信号的生成的流程图。

具体实施方式

在考虑本公开的功能的同时，本说明书中使用的下述术语已经被选择为目前使用最广泛的通用术语。然而，术语的含义可以根据本领域的技术人员的意图、通常的实践或新技术的出现而变化。另外，在特定情况下，存在由申请人随机选择的术语，并且在此，这些术语的含义将在本公开的说明书中的相应部分中进行描述。因此，应当注意，应当基于术语的实质含义和本说明书的整体上下文而不是术语本身来理解本说明书中使用的术语。

图1是根据本公开的实施例的用于生成上混双耳信号的装置的框图。

参考图1，将描述用于生成上混双耳信号的算法。具体地，用于生成上混的双耳信号的装置可以包括频率变换单元110、上混单元120、渲染单元130和时间变换与混合单元140。用于生成上混双耳信号的装置可以接收输入信号101作为输入，并且可以生成和输出双耳信号，该双耳信号是输出信号106。在此，输入信号101可以是立体声信号。频率变换单元110可以将时域中的输入信号变换为频域信号，以便分析输入信号101。上混单元120可以基于根据输入信号101的每个频率的声道之间的互相关以及通过相干分析指示输入信号101的左声道和右声道之间的能量比的声道间声级差(ICLD)，将输入信号101分离为作为正面信号分量的第一信号和作为侧面信号分量的第二信号。渲染单元130可以基于对应于分离信号的头部相关传递函数(HRTF)来执行滤波。另外，渲染单元130可以生成同侧立体声双耳信号和对侧立体声双耳信号。时间变换和混合单元140可以将同侧立体声双耳信号和对侧立体声双耳信号变换为时域中的相应的信号。时间变换和混合单元140可以通过对时域中变换的对侧双耳信号分量施加采样延迟，然后将变换的对侧双耳信号分量与同侧双耳信号分量混合，来合成上混双耳信号。在此，采样延迟可以是耳间时间延迟(ITD)。

具体地，频率变换单元110和时间变换和混合单元140(时间变换部)可以包括其中用于提供完美重构的分析窗口和合成窗口被配对的结构。例如，可以将正弦窗口用作分析窗口和合成窗口。此外，对于信号变换，可以使用短时傅立叶变换(STFT)和逆短时傅立叶变换(ISTFT)对。可以通过频率变换单元110，将时域信号变换为频域信号。可以在频域中执行上混和渲染。可以通过时间变换和混合单元140，将对其执行了上混和渲染的信号再次变换为时域中的信号。

上混单元120可以根据输入信号101的每个频率来提取左/右信号之间的相干性。此外，上混单元120可以基于输入信号101的ICLD来确定总前后比。另外，上混单元120可以根据前后比，将输入信号101(例如，立体声信号)分离为作为正面立体声声道分量的第一信号102和作为后面立体声声道分量的第二信号104。在本说明书中，术语“后面(rear)”和“(侧方(lateral))侧面(side)”可以在描述中互换使用。例如，“后面立体声声道分量”可以具有与“侧面立体声声道分量”相同的含义。

渲染单元130可以通过将预设的正面空间滤波器增益应用于作为正面立体声声道分量的第一信号102来生成正面双耳信号。另外，渲染单元130可以通过将预设后面空间滤波器增益应用于作为后面立体声声道分量的第二信号104来生成后面双耳信号。例如，当将正面设置为0度时，渲染单元130可以基于对应于30度方位角的头部相关脉冲响应(HRIR)的同侧分量来生成正面空间滤波器增益。另外，渲染单元130可以基于对应于90度方位角(即，侧面)的HRIR的同侧和对侧分量来生成后面空间滤波器增益。

正面空间滤波器增益是指信号的声像可以位于正面，而后面空间滤波器增益是指可以加宽信号的左右宽度。此外，可以以没有相位分量的增益的形式来配置正面空间滤波器增益和后面空间滤波器增益。正面空间滤波器增益只能由同侧分量限定，而后面空间滤波器增益可以基于同侧分量和对侧分量两者来限定。

可以将由渲染单元130生成的正面双耳信号和后面双耳信号的同侧信号混合并作为最终的同侧立体声双耳信号105输出。后面双耳信号的对侧信号可以输出为对侧立体声双耳信号103。

时间变换和混合单元140可以通过使用特定变换技术(例如，逆短时傅立叶变换)，将同侧立体声双耳信号105和对侧立体声双耳信号103变换为时域中的相应的信号。此外，时间变换和混合单元140可以通过将合成窗应用于每个变换的时域信号来生成时域中的同侧双耳信号和时域中的对侧双耳信号。另外，时间变换和混合单元140可以对时域中的所生成的对侧信号施加延迟，然后以重叠及添加形式，将延迟的对侧信号与同侧信号混合，并将其存储在同一输出缓冲器中。在此，延迟可以是耳间时间延迟。另外，时间变换和混合单元140输出一输出信号106。在此，输出信号106可以是上混双耳信号。

图2图示根据本公开的实施例的用于生成上混双耳信号的装置的频率变换单元。

图2具体地图示已经参考图1描述的、用于生成双耳信号的装置的频率变换单元110。在下文中，将通过图2，详细地描述频率变换单元110。

首先，缓冲单元210接收x_time 201，其是时域中的立体声信号。在此，x_time 201可以是图1的输入信号101。缓冲单元210可以通过<等式1>，从x_time 201计算用于帧处理的立体声帧缓冲器(x_frame)202。在下文中，本说明书中的索引“L”和“R”分别表示左信号和右信号。<等式1>中的“L”和“R”分别表示立体声信号的左信号和右信号。<等式1>的“I”表示帧索引。<等式1>的“NH”指示帧长度的一半。例如，如果1024个采样配置一个帧，则“NH”被配置为512。

【等式1】

x_frame[l][L]＝x_time[L][(l-1)＊NH+1：(l+1)＊NH]

x_frame[l][R]＝x_time[R][(l-1)＊NH+1：(l+1)＊NH]

根据<等式1>，可以将x_frame[l]定义为第l帧立体声信号，并且可以具有1/2重叠。

在分析窗口220中，可以通过将帧信号(x_frame)202乘以wind来计算xw_frame203，该wind以用于提供完美重构的窗口的形式被预设，并且其长度是对应于帧信号的长度的“NF”，如<等式2>中。

【等式2】

xw_frame[l][L][n]＝x_frame[l][L][n]＊wind[n] 对于n＝1，2，...，NF

xw_ftame[l][R][n]＝x_frame[l][R][n]＊wind[n] 对于n＝1，2，...，NF

图3是示出根据本公开的实施例的用于提供完美重构的正弦窗口的图。具体地，图3是预设wind的示例，并且图示当“NF”为1024时的正弦窗口。

时频变换单元230可以通过执行通过<等式2>计算的xw_frame[l]的时频变换来获得频域信号。具体地，如在<等式3>中，时频变换单元230可以通过执行xw_frame[l]的时频变换来获得频域信号XW_freq204。<等式3>中的DFT{}表示离散傅里叶变换(DFT)。DFT是时频变换的实施例，并且滤波器组或另一变换技术以及DFT可以用于时频变换。

【等式3】

XW_freq[l][L][1：NF]＝DFT{xw_frame[l][L][1：NF]}

XW_freq[l][R][1：NF]＝DFT{xw_frame[l][R][1：NF]}

图4图示根据本公开的实施例的用于生成上混双耳信号的装置的上混单元。

上混单元120可以计算通过<等式3>计算的频率信号的频带特定能量或bin特定能量。具体地，如在<等式4>中，上混单元120可以通过使用通过<等式3>计算的频率信号的左/右信号的乘积来计算作为频率信号的频带特定能量或bin特定能量的X_Nrg。

【等式4】

X_Nrg[l][L][L][k]＝XW_freq[l][L][k]＊conj(XW_freq[l][L][k])

X_Nrg[l][L][R][k]＝XW_freq[l][L][k]＊conj(XW_freq[l][R][k])

X_Nrg[l][R][R][k]＝XW_freq[l][R][k]＊conj(XW_freq[l][R][k])

在此，conj(x)可以是输出x的复共轭的函数。

使用<等式4>计算的X_Nrg是用于第1帧本身的参数。因此，上混单元120可以计算X_SNrg，其是用于计算时域中的相干性的加权时间平均值。具体地，上混单元120可以使用通过单极模型被定义为0和1之间的值的gamma，通过<等式5>来计算X_SNrg。

【等式5】

X_SNrg[l][L][L][k]＝(1-gamma)＊X_SNrg[l-1][L][L][k]+gamma＊X_Nrg[l][L][L][k]

X_SNrg[l][L][R][k]＝(1-gamma)＊X_SNrg[l-1][L][R][k]+gamma＊X_Nrg[l][L][R][k]

X_SNrg[l][R][R][k]＝(1-gamma)＊X_SNrg[l-1][R][R][k]+gamma＊X_Nrg[l][R][R][k]

如在<等式6>中，相关性分析单元410可以通过使用X_SNrg来计算作为基于相干性的归一化相关性的X_Corr 401。

【等式6】

X_Corr[l][k]＝(abs(X_SNrg[l][L][R][k]))/(sqrt(X_SNrg[l][L][L][k]＊X_SNrg[l][R][R][k]))

abs(x)是输出x的绝对值的函数，而sqrt(x)是输出x的平方根的函数。

X_Corr[l][k]表示第l帧信号中的第k个bin的左/右信号的频率分量之间的相关性。在此，X_Corr[l][k]具有随着左/右信号中的相同分量的数量增加而变得接近于1，并且当左/右信号不同时变得接近于0的形状。

如在等式7中，分离系数计算单元420可以计算掩蔽函数(X_Mask)402，该掩蔽函数用于确定是否从相应的X_Corr 401平移(pan)频率分量。

【等式7】

X_Mask[l][k]＝Gate{X_Corr[l][k]}

<等式7>的Gate{}函数是能够做出决定的映射函数。

图5是示出根据本公开的实施例的软判决函数的图。具体地，图5图示将“0.75”用作阈值的软判决函数的示例。

在其中帧大小固定的系统的情况下，相对低频分量的归一化互相关具有比高频分量的归一化互相关更高的值的可能性高。因此，可以将门函数定义为频率索引k的函数。结果，X_Mask[l][k]区分第l帧中的第k个频率分量的左和右立体声信号的方向性或环境声级。

分离系数计算单元420可以将其方向性由X_Mask 402基于相干性确定的信号渲染为正面信号，并且将由环境声级确定的信号渲染为对应于侧方侧面的信号。在此，在分离系数计算单元420将对应于方向性的所有信号渲染为正面信号的情况下，左和右平移信号的声像可能较窄。例如，具有左和右平移度为0.9∶0.1并且偏向左侧的信号也可以被渲染为正面信号而不是侧面信号。因此，当由方向性确定的信号的左/右分量偏向一侧时，一些分量需要被渲染为侧面信号。因此，如在<等式8>或<等式9>中，分离系数计算单元420可以提取PG_Front403，以便将正面信号渲染分量与方向分量的比的比率分配为0.1∶0.1，并且将后面信号渲染分量与方向分量的比率分配为0.8∶0。

【等式8】

PG_Front[l][L][k]＝min(1，X_Nfg[l][R][R][k]/X_Nrg[l][L][L][k])

PG_Front[l][R][k]＝min(1，X_Nrg[l][L][L][k]/X_Nrg[l][R][R][k])

【等式9】

PG_Front[l][L][k]＝sqrt(min(1，X_Nrg[l][R][R][k]/X_Nrg[l][L][L][k]))

PG_Front[l][R][k]＝sqrt(min(1，X_Nrg[l][L][L][k]/X_Nrg[l][R][R][k]))

当确定X_Mask 402和PG_Front 403时，信号分离单元430可以将作为输入信号的XW_freq 204分离为作为正面立体声信号的X_Sep1 404和作为侧面立体声信号的X_Sep2405。在此，信号分离单元430可以使用<等式10>以便将XW_freq 204分离为作为正面立体声信号的X_Sep1 404和作为侧面立体声信号的X_Sep2 405。

【等式10】

X_Sep1[l][L][k]＝XW_freq[l][L][k]＊X_Mask[l][k]＊PG_Front[l][L][k]

X_Sep1[l][R][k]＝XW_freq[l][R][k]＊X_Mask[l][k]＊PG_Front[l][R][k]

X_Sep2[l][L][k]＝XW_freq[l][L][k]-X_Sep1[l][L][k]

X_Sep2[l][R][k]＝XW_freq[l][R][k]-X_Sep1[l][R][k]

换句话说，可以基于相关性分析和频率信号XW_freq 204的左/右能量比来分离X_Sep1 404和X_sep2 405。在此，分离的信号X_Sep1 404和X_Sep2 405之和可以与输入信号XW_freq 204相同。X_Sep1 404的左声道信号与X_Sep2 405的左声道信号之和可以与频率信号XW_freq 204的左声道信号相同。另外，X_Sep1 404的右声道信号和X_Sep2 405的右声道信号之和可以与频率信号XW_freq 204的右声道信号相同。X_Sep1 404的左声道信号的能量可以与X_Sep1 404的右声道信号的能量相同。

图6图示根据本公开的实施例的用于生成上混双耳信号的装置的渲染单元。

参考图6，渲染单元130可以接收分离的正面立体声信号X_Sep1 404和侧面立体声信号X_Sep2 405，并且可以输出双耳渲染的同侧信号Y_Ipsi 604和对侧信号Y_Contra605。

作为正面立体声信号的X_Sep1 404在其左/右信号中包括相似的分量。因此，在滤波一般HRIR的情况下，可能会在同侧分量和对侧分量两者中均混合相同分量。因此，可能会发生由于ITD引起的梳状滤波。因此，第一渲染器610可以对正面立体声信号执行同侧渲染611。换句话说，第一渲染器610使用通过仅反映由HRIR提供的同侧频谱特性来生成正面图像的方法，并且可以不生成与对侧频谱特性相对应的分量。第一渲染器610可以根据<等式11>生成正面同侧信号Y1_Ipsi 601。<等式11>中的H1_Ipsi是指仅反映由HRIR提供的同侧频谱特性的滤波器，即，基于正面声道位置处的HRIR生成的同侧滤波器。同时，可以使用由ITD进行的梳状滤波来改变音色(sound color)或将声像定位在正面。因此，可以通过同时反映HRIR的同侧分量和对侧分量来获得H1_Ipsi。在此，可以通过反映ITD获得HRIR的对侧分量，并且H1_Ipsi可以包括由于ITD而导致的梳状滤波特性。

【等式11】

Y1_Ipsi[l][L][k]＝X_Sep1[l][L][k]＊H1_Ipsi[l][L][k]

Y1_Ipsi[l][R][k]＝X_Sep1[l][R][k]＊H1_Ipsi[l][R][k]

由于作为侧面立体声信号的X_Sep2 405在其左/右信号中不包含相似的分量，所以即使执行一般HRIR滤波，在同侧分量和对侧分量两者中混合相同分量的现象也不会发生。由此，不会发生由于根据ITD而导致的梳状滤波引起的音质下降。因此，第二渲染器620可以对侧面立体声信号执行同侧渲染621和对侧渲染622。换句话说，第二渲染器620可以通过执行具有HRIR特性的同侧滤波和对侧滤波来根据<等式12>分别生成侧面同侧信号Y2_Ipsi 602和侧面对侧信号Y2_Contra 603。在<等式12>中，H2_Ipsi表示基于侧面声道位置处的HRIR生成的同侧滤波器，以及H2_Contra表示基于侧面声道位置处的HRIR生成的对侧滤波器。

正面同侧信号Y1_Ipsi 601、侧面同侧信号Y2_Ipsi 602和侧面对侧信号Y2_Contra 603可以分别包括左/右信号。在此，H1_Ipsi也可以是其左/右滤波器，可以将H1_Ipsi左滤波器应用于正面同侧信号Y1_Ipsi 602的左信号，并且可以将H1_Ipsi右滤波器应用于正面同侧信号Y1_Ipsi 602的右信号。侧面同侧信号Y2_Ipsi 602和H2_Ipsi，以及侧面对侧信号Y2_Contra 603和H2_Contra可以经受相同的应用。

【等式12】

Y2_Ipsi[l][L][k]＝X_Sep2[l][L][k]＊H2_Ipsi[l][L][k]

Y2_Ipsi[l][R][k]＝X_Sep2[l][R][k]＊H2_Ipsi[l][R][k]

Y2_Contra[l][L][k]＝X_Sep2[l][L][k]＊H2_Contra[l][L][k]

Y2_Contra[l][R][k]＝X_Sep2[l][R][k]＊H2_Contra[l][R][k]

同侧混合单元640可以将Y1_Ipsi 601和Y2_Ipsi 602混合以生成最终双耳同侧信号Y_Ipsi 604。同侧混合单元640可以根据左声道和右声道中的每一个，通过混合Y1_Ipsi601和Y2_Ipsi 602，对左声道和右声道中的每一个分别生成最终双耳同侧信号(Y_Ipsi)604。在此，图4中所示的X_Sep1 404和X_Sep2 405的频率特定相位具有相同的形状。因此，当在H1_Ipsi和H2_Ipsi之间存在相位差时，可能发生诸如梳状滤波的伪像。然而，根据本公开的实施例，H1_Ipsi和H2_Ipsi两者均被定义为实数，由此可以解决诸如梳状滤波的问题。

另外，在“分析窗口化->时间/频率变换->处理->频率/时间变换->合成窗口化”的重叠及添加结构中，其是根据本公开的用于生成双耳信号的总系统流程的示例，如果在处理域中执行复滤波，则通过由于相位变化而导致的混叠可能破坏完美重构的假设。因此，用在本公开的渲染单元130中的所有H1_Ipsi、H2_Ipsi和H2_Contra可能由实数配置。因此，渲染之前的信号与渲染之后的信号具有相同的相位。具体地，渲染之前的信号的左声道的相位和渲染之后的信号的左声道的相位可以相同。同样，渲染之前的信号的右声道的相位和渲染之后的信号的右声道的相位可以相同。渲染单元130可以通过使用<等式13>来将Y_Ipsi 604和Y_Contra 605计算和/或生成为频域中的信号。可以通过在左声道和右声道的每一个中混合来生成Y_Ipsi 604和Y_Contra 605。最终双耳对侧信号Y_Contra 605可以具有与侧面对侧信号Y2_Contra 603相同的值。

【等式13】

Y_Ipsi[l][L][k]＝Y1_Ipsi[l][L][k]+Y2_Ipsi[l][L][k]

Y_Ipsi[l][R][k]＝Y1_Ipsi[l][R][k]+Y2_Ipsi[l][R][k]

Y_Contra[l][L][k]＝Y2_Contra[l][L][k]

Y_Contra[l][R][k]＝Y2_Contra[l][R][k]

图7图示根据本公开的实施例的用于生成上混双耳信号的装置的时间变换和混合单元。

参考图7，由图6的渲染单元130计算和/或生成的Y_Ipsi 604和Y_Contra 605可以通过时间变换和混合单元140被变换为时域中的信号。此外，时间变换和混合单元140可以生成作为最终上混双耳信号的y_time 703。

频率时间变换单元710可以通过逆离散傅里叶变换(IDFT)或合成滤波器组，将作为频域中的信号的Y_Ipsi 604和Y_Contra 605变换为时域中的信号。频率时间变换单元710可以通过将合成窗口720应用于信号，根据<等式14>来生成yw_Ipsi_time 701和yw_Contra_time 702。

【等式14】

yw_Ipsi_time[l][L][1：NF]＝IDFT{Y_Ipsi[l]L][1：NF]}＊wind[1：NF]

yw_Ipsi_time[l][R][1：NF]＝IDFT{Y_Ipsi[l][R][1：NF]}＊wind[1：NF]

yw_Contra_time[l][L][1：NF]＝IDFT{Y1_Contra[l][L][1：NF]}＊wind[1：NF]

yw_Contra_time[l][R][1：NF]＝IDFT{Y1_Contra[l][R][1：NF]}＊wind[1：NF]

如在<等式15>中，可以通过使用yw_Ipsi_time 701和yw_Contra_time 702来生成最终双耳渲染信号y_time 703。参照<等式15>，时间变换和混合单元140可以向信号yw_Contra_time 702指配耳间时间差(ITD)，该时间差是侧面双耳渲染的延迟，也就是说，可以指配与延迟D一样多的ITD(由附图标记730指示)。例如，ITD可以具有1毫秒(ms)或更小的值。另外，时间变换和混合单元140的混合单元740可以通过重叠及添加方法来生成最终双耳信号y_time 703。可以对左声道和右声道的每一个生成最终双耳信号y_time 703。

【等式15】

y_time[L][(l-1)＊NH+1：(l+1)＊NH]

＝y_time[L][(l-1)＊NH+1：(l+1)＊NH]+yw_Ipsi_time[l][L][1：NF]+[yw_Contra_time[l-1][R][(NF-D+1)：NF]yw_Contra_time[l][R][1：(NF-D)]]

y_time[R][(l-1)＊NH+1：(l+1)＊NH]

＝y_time[R][(l-1)＊NH+1：(l+1)＊NH]+yw_Ipsi_time[l][R][1：NF]+[yw_Contra_time[l-1][L][(NF-D+1)：NF]yw_Contra_time[l][L][1：(NF-D)]]

图8图示根据本公开的实施例的用于使用上混双耳信号生成算法来改善空间声音的算法。

图8中所示的上混双耳信号生成单元可以在上混之后，通过双耳滤波，相对于直接声音合成双耳信号。混响信号生成单元(混响器)可以生成混响分量。混合单元可以混合直接声音和混响分量。动态范围控制器可以选择性地放大通过混合直接声音和混响分量而获得的信号的小声音。限幅器可以将放大的信号与稳定的信号合成并输出，以便不允许剪裁放大的信号。可以使用常规算法在混响信号生成单元中生成混响分量。例如，可能存在使用常规算法，组合多个延迟增益和全通的混响器。

图9图示根据本公开的实施例，用于服务器-客户端结构的简化的上混双耳信号生成算法。

图9图示简化的系统配置，其中，通过根据输入信号，基于第一渲染单元的效果或第二渲染单元的效果中的一个，做出二进制判决来执行渲染。在输入信号包括大量的左/右混合信号的情况下，可以使用由第一渲染单元执行的第一渲染方法并且由此执行其正面渲染。在输入信号包括很少的左/右混合信号的情况下，可以使用由第二渲染单元执行的第二渲染方法并且由此执行其侧面渲染。信号类型确定单元可以确定将在第一渲染方法和第二渲染方法中使用的方法。在此，可以通过对整个输入信号进行相关分析来进行确定，而无需对其进行频率变换。相关分析可以由相关分析单元(未示出)执行。

如在<等式16>中，和/差信号生成单元可以生成用于输入信号(x_time)的和信号(x_sum)和差信号(x_diff)。如在<等式17>中，信号类型确定单元可以基于和/差信号来确定渲染信号(是使用第一渲染方法TYPE_1还是第二渲染方法TYPE_2)。

【等式16】

x_sum[n]＝x_time[L][n]+x_time[R][n]

x_diff[n]＝x_time[L][n]-x_time[R][n]

【等式17】

ratioType＝sqrt(abs{SUM_(对于所有n){x_sum[n]＊x_diff[n]}}/SUM_(对于所有n){x_sum[n]＊x_sum[n]+x_diff[n]＊x_diff[n]})

rendType＝(ratioType＜0.22)？(TYPE_1：TYPE2)

如果输入信号的左/右信号分量被均匀地分布，则极有可能发生梳状滤波现象。因此，如<等式17>中，信号类型确定单元可以选择第一渲染方法，其中，仅反映同侧分量而没有对侧分量。同时，信号类型确定单元可以选择第二渲染方法，该第二渲染方法在输入信号的左分量和右分量中的一个比另一分量占据更大的声音比例时积极利用对侧分量。例如，参考<等式17>，由于输入信号的左/右信号彼此相似，分子的x_diff接近0，因此ratioType接近0。即，根据<等式17>，当ratioType小于0.22时，信号类型确定单元可以选择TYPE_1，表示仅反映同侧分量的第一渲染方法。另一方面，如果ratioType等于或大于0.22，则信号类型确定单元可以选择第二渲染方法。

在诸如音频声场的后处理的方法和用于音频信号的传输的编解码器中，执行频域中的音频信号的分析和应用。因此，除了用于最终再现的终端的频域信号之外的频域信号可以被用作用于音频信号的分析和应用的中间结果。另外，频域信号可以被用作用于双耳化的输入信号。

图10图示根据本公开的实施例，执行频域中的音频信号的双耳化的方法。

频域信号可以不是从在循环卷积的假设下零填充的时域信号转换的信号。在这种情况下，频域信号的结构不允许其卷积。因此，频域信号被转换成时域信号。在此，可以使用上述的滤波器组或频率时间变换(例如，IDFT)。另外，可以将合成窗口和诸如重叠及添加处理的处理应用于变换后的时域信号。另外，可以将零填充应用于对其应用于合成窗口和诸如重叠及添加处理的处理的信号，并且可以通过时频变换(例如DFT)，将零填充的信号变换为频域信号。此后，可以将使用DFT的卷积应用于变换后的频域信号的同侧/对侧分量中的每一个，并且可以对其应用频率-时间变换和重叠及添加处理。参考图10，为了双耳化频域中的一个输入信号，需要四次变换处理。

图11图示根据本公开的实施例的对频域中的多个音频输入信号执行双耳化的方法。

图11图示用于一般化的双耳化的方法，该方法从上文参考图10描述的、执行双耳化的方法扩展到N个输入信号。

参考图11，当存在N个输入信号时，可以在频域中混合N个双耳信号。因此，当双耳化N个输入信号时，可以减少频率-时间变换处理。例如，根据图11，在双耳化N个输入信号的情况下，需要N*2+2个变换。同时，当根据图10，执行N个输入信号的双耳化处理时，需要N*4个变换。即，当使用图11的方法时，与使用图10的方法的情况相比，变换的数量可以减少(N-1)*2。

图12图示根据本公开的实施例的对输入信号执行双耳化的方法。

图12图示当存在频率输入信号、对应于该频率输入信号的虚拟声源位置以及作为双耳传递函数的头部相关脉冲响应(HRIR)时，双耳化输入信号的方法的示例。参考图12，当虚拟声源位置相对于特定位置位于左侧时，可以如在<等式18>中，计算同侧增益A_I和对侧增益A_C。可以将同侧增益A_I计算为左HRIR的幅度，并且可以将对侧增益A_C计算为右HRIR的幅度。另外，将所计算的A_I和A_C乘以频率输入信号X[k]，由此，如在<等式18>中，可以计算作为频域中的同侧信号的Y_I[k]和作为频域中的对侧信号的Y_C[k]。

【等式18】

A_I＝|DFT{HRIR_Left}|

A_C＝|DFT{HRIR_Right}|

Y_I[k]＝A_I[k]x X[k]

Y_C[k]＝A_C[k]x X[k]

【等式19】

y_l＝IDFT{Y_I}

y_c＝IDFT{Y_C}

通过频率-时间变换，将在<等式18>中计算的、作为频域信号的Y_I[k]和Y_C[k]变换为如在<等式19>中的时域中的信号。另外，可以根据需要，将合成窗口和重叠及添加处理应用于变换后的时域信号。在此，同侧信号和对侧信号可以被生成为不反映ITD的信号。因此，如图12所示，可以在对侧信号中强制地反映ITD。

【等式20】

A_I＝|DFT{HRIR_Right}|

A_C|DFT{HRIR_Left}|

Y_I[k]＝A_I[k]x X[k]

Y_C[k]＝A_C[k]x X[k]

当虚拟声源相对于特定位置位于右侧时，可以使用<等式20>而不是<等式18>来计算同侧增益和对侧增益。换句话说，仅在同侧和对侧的左输出和右输出的映射上有变化。当虚拟声源相对于特定位置位于中心时，如上所述的当虚拟声源位于左侧或右侧时已经使用的两种方法均可以被使用。如果虚拟声源相对于特定位置位于中心，则ITD可以为0。参考图12，当虚拟声源在中心时，即，当HRIR_Left和HRIR_Right相同时，与虚拟声源存在于左/右侧的情况相比，可以再次减少频率-时间变换处理。

在下文中，在本说明书中，将描述计算ITD的特定值的方法。计算ITD的特定值的方法包括分析HRIR的耳间相位差的方法、利用虚拟声源的位置信息的方法等。具体地，将描述根据本公开的实施例的通过使用虚拟声源的位置信息来计算和指配ITD值的方法。

图13图示根据本公开的实施例的混淆锥(CoC)。

混淆锥(CoC)可以被定义为具有相同耳间时间差的圆周。CoC是图13中的实线所示的部分，并且当双耳地渲染存在于CoC中的声源时，可以应用相同的ITD。

可以通过使频域中的同侧增益和对侧增益相乘的过程来实现作为双耳线索的耳间声级差。可以在时域中指配ITD，同时延迟缓冲器。在图10的实施例中，需要四个变换来生成双耳信号，但在图12的实施例中，仅需要一个或两个变换，由此减少了计算量。

图14图示根据本公开的实施例的用于双耳化多个输入信号的方法。

图14图示用于一般化的双耳化的方法，该方法从上文参考图12描述的、执行双耳化的方法扩展到N个输入信号。即，图14图示了其中存在多个声源的情况。参考图14，当存在N个频率输入信号、对应于该频率输入信号的虚拟声源位置以及作为双耳传递函数的头部相关脉冲响应(HRIR)时，图示了通过使用左同侧混合器和右同侧混合器在频域中混合无延迟的同侧信号，然后进行处理的结构。在图11的情况下，需要N*2+2个变换，但根据图14，N个输入所需的最大变换数量是N+2，从而使变换数量减少大约一半。

图15图示根据本公开的实施例的虚拟输入信号位于混淆锥(CoC)中的情况。

具体地，图15图示当虚拟声源位于CoC中时，双耳化虚拟声源的方法。如图15所示，当虚拟声源位于CoC中时，对侧信号可以在被组合在一起之后进行频率-时间变换。例如，如图15所示，当将三个扬声器放置在一个CoC中以对总共15个虚拟输入信号进行双耳化时，用于生成双耳信号的装置可以通过仅执行六个频率变换来双耳化虚拟输入信号。因此，在上述图11的情况下，当有15个扬声器(虚拟声源)时，需要32个变换(N*2+1＝15*2+2)。但是，在图15的情况下，可以通过根据图16的六个变换来生成双耳信号，由此，可以使变换的数量减少约80％。

图16图示根据本公开的实施例的双耳化虚拟输入信号的方法。

参考图16，可以对存在于图15的编号为1至3的位置处的扬声器的虚拟声源的对侧信号仅执行一次变换，而不是三次。对存在于编号为4至6的位置处的扬声器的虚拟声源、存在于编号为10至12的位置处的扬声器的虚拟声源以及存在于编号为13至15的位置处的扬声器的虚拟声源也是如此。

根据本公开的实施例，当用于生成双耳信号的装置对虚拟声源执行双耳化时，可以以同相形式混合所有同侧分量。通常，由于用于双耳化的HRIR的时间差，可能会发生由于频率干扰而引起的音调变化，从而导致音质下降。然而，在本公开的实施例中应用的同侧增益A_I仅处理同侧HRIR的频率幅度。因此，可以保持向其施加同侧增益A_I的信号的原始相位。因此，不同于特征在于同侧分量的到达时间取决于声音的方向而不同的一般HRIR，本实施例可以消除每个方向上的同侧分量的到达时间的差异，以使同侧分量的到达时间一致。即，当一个信号被分布到多个声道时，本实施例可以根据当使用一般HRIR时发生的到达时间来消除声染色(coloration)。

图17至图19图示将上述双耳化应用于上混的实施例。

图17图示根据本公开的实施例的上混器。

图17图示用于将5声道输入信号转换成正面的4声道和后面的4声道并生成总共8个声道信号的上混器的示例。图17的输入信号的索引C、L、R、LS和RS指示5.1声道信号的中心、左、右、左环绕和右环绕。当上混输入信号时，混响器可以被用来减少上混伪像。

图18图示根据本公开的实施例的对称布局配置。

已经通过上述方法上混的信号可以由对称虚拟布局配置，其中，X_F1位于正面，X_B1位于后面，X_F2[l][L]和X_B2[l][L]位于左侧，以及X_F2[l][R]和X_B2[l][R]位于右侧，如图18所示。

图19图示根据本公开的实施例的双耳化输入信号的方法。

图19是双耳化对应于如图18所示的对称虚拟布局的信号的方法的示例。

根据图18，对应于X_F1和X_B1的所有四个位置(X_F1[l][L]、XF1[l][R]、X_B1[l][L]和X_B1[l][R])可以具有对应于D_1C的相同ITD。根据图18，基于X_F2和X_B2的所有四个位置(X_F2[l][L]、XF2[l][R]、X_B2[l][L]和X_B2[l][R])可以具有对应于D_2C的相同ITD。例如，ITD可以具有1ms或更小的值。

参考图19，可以将基于虚拟声道的HRIR计算的同侧增益和对侧增益应用于频率信号(例如，存在于图17的编号为1至15的位置处的扬声器的虚拟声源)。可以在左同侧和右同侧混合器中混合所有同侧频率信号。在对侧频率信号的情况下，具有相同ITD的信号，诸如X_F1和X_B1对以及X_F2和X_B2对由左对侧混合器和右对侧混合器混合。之后，可以通过频率-时间变换将混合的信号变换为时域信号。可以将合成窗口和重叠及添加处理应用于变换后的信号，最后，将D_1C和D_2C应用于对侧时间信号，使得可以生成输出信号y_time。根据图19，应用六个变换以生成双耳信号。因此，与需要进行18个变换的情况相比(如在图11所示的方法中)，通过6个变换，具有可以实现类似渲染的效果，即，可以使变换处理的数量减少为1/3。

除了用于虚拟现实的头戴式显示器(HMD)以外，最近的耳机设备(在下文中，称为用户设备)还可以通过使用诸如陀螺仪传感器的传感器来提供有关用户头部定向的信息。在此，关于头部定向的信息可以通过以偏航、俯仰、横滚、向上矢量和向前矢量的形式计算的界面来提供。这些设备可以根据用户头部的定向，通过计算声源的相对位置，来对声源进行双耳化。因此，设备可以与用户交互以提供改善的沉浸感。

图20图示根据本公开的实施例的执行与用户的头部的定向相对应的交互式双耳化的方法。

参考图20，其中用户设备执行与用户的头部定向相对应的交互式双耳化的过程的示例如下。

i)用户设备的上混器可以接收通用立体声声源(输入声源)的输入、头部定向、虚拟扬声器布局以及虚拟扬声器的HRIR。

ii)用户设备的上混器可以接收一般立体声声源，并且可以通过参考图4描述的上混过程来提取N声道频率信号。另外，用户设备可以将所提取的N声道频率信号定义为N个对象频率信号。另外，可以提供N声道布局以对应于对象位置。

iii)用户设备可以从N个对象位置和关于用户的头部定向的信息来计算N个以用户为中心的相对对象位置。可以通过基于用户的偏航、俯仰和横滚，与旋转矩阵M_rot的点积，将笛卡尔坐标中由x、y、z定义的第n个对象位置矢量P_n转换为笛卡尔坐标中的相对对象位置P_rot_n。

iv)用户设备的混合矩阵生成单元可以基于所计算的N个相对对象位置，在由L个虚拟扬声器和N个对象频率信号配置的虚拟扬声器布局中获得平移系数，以便生成“M”，其是大小为L x N的混合矩阵。

v)用户设备的平移器(panner)可以通过将N个对象信号乘以大小为L x M的混合矩阵来生成L个虚拟扬声器信号。

vi)用户设备的双耳化器可以通过使用虚拟扬声器信号、虚拟扬声器布局和虚拟扬声器的HRIR来执行双耳化，这已经参考图14进行了描述。

计算iv)中已经定义的平移系数的方法可以使用诸如根据标准化方案的恒定功率平移或恒定增益平移的方法。另外，还可以以定义预定布局的方式使用诸如基于矢量的幅度平移的方法。

考虑到根据本公开的实施例，最终输出未连接到物理扬声器而是被双耳化，布局配置可以被配置为被优化用于双耳化。

图21图示根据本公开的实施例的由耳间极坐标(IPC)中的混淆锥(CoC)构成的虚拟扬声器布局。

根据图21，虚拟扬声器布局可以包括由五个CoC(即，CoC_1至CoC_5)配置的总共15个虚拟扬声器。虚拟布局可以由总共17个扬声器配置，包括由总共5个CoC配置的总共15个扬声器以及左端和右端扬声器。在这种情况下，可以通过稍后将描述的两个操作来执行向虚拟扬声器的平移。

根据本公开的实施例，虚拟扬声器布局可以存在于CoC中，并且可以由三个或以上CoC配置。在此，三个或以上CoC之一可以位于中间平面上。

一个CoC中可能存在具有相同IPC方位角的多个虚拟扬声器。同时，当方位角为+90度或-90度时，一个CoC可以仅由一个虚拟扬声器配置。

图22图示根据本公开的实施例的向虚拟扬声器平移的方法。

参考图22，将描述向虚拟扬声器平移的方法。

如图22所示，向虚拟扬声器平移的方法的第一操作是使用IPC中的方位角信息，向与编号为1、4、7、10、13、16和17的虚拟扬声器相对应的7个虚拟扬声器执行二维平移。即，对象A向编号为1和16的虚拟扬声器执行平移，而对象B向编号为4和7的虚拟扬声器执行平移。作为特定的平移方法，可以使用诸如恒定功率平移或恒定增益平移的方法。另外，可以使用如<等式21>中的将正弦和余弦的加权归一化为增益的形式的方法。<等式21>是平移图22的对象A的方法的示例。<等式21>中的“azi_x”表示x的方位角，例如，<等式21>中的“azi_a”表示A的方位角。

【等式21】

P_16_0＝sin((azi_a-azi_1)/(azi_16-azi_1)＊Pi/2)

P_CoC1_0＝cos((azi_a-azi_1)/(azi_16-azi_1)＊pi/2)

P_16＝P_16_0/(P_16_0+P_CoC1_0)

P_CoC1＝P_CoC1_0/(P_16_0+P_CoC1_0

由于对象A存在于编号为1和16的虚拟扬声器之间，因此计算第16个对象的位置矢量P_16。另外，由于对象A存在于CoC1中，因此计算P_CoC1。

图23示出根据本公开的实施例的向虚拟扬声器平移的方法。

向虚拟扬声器平移的方法的第二操作是通过使用位于每个CoC处的虚拟扬声器来执行IPC仰角的定位。

参考图23，由于位于CoC_1中的对象A的分量位于编号为1和编号7的虚拟扬声器之间，因此可以如在<等式22>中，平移对象A的分量。在<等式22>中，“ele_x”表示x的仰角，例如，<等式22>中的“ele_a”表示对象A的仰角。

【等式22】

P_1_0＝cos((ele_a-ele_1)/(ele_7-ele_1)＊pi/2)

P_7_0＝sin((ele_a-ele_1)/(ele_7-ele_1)＊pi/2)

P_1＝P_1_0/(P_1_0+P_7_0)＊P_CoC1

P_7＝P_7_0/(P_1_0+P_7_0)＊P_CoC1

可以使用通过<等式21>和<等式22>计算的平移增益P_1、P_7和P_16来定位对象A。

图24示出根据本公开的实施例的用于向虚拟扬声器平移的球形图。

图25示出根据本公开的实施例的用于向虚拟扬声器平移的左视图。

在下文中，参考图24和图25，将概括和描述向虚拟扬声器平移的方法。

可以通过稍后描述的方法来生成上述混合矩阵。

a)用于生成用于输出N个扬声器信号的系统的混合矩阵的混合矩阵生成单元可以定位对象信号，该对象信号在由C个CoC配置的N个扬声器布局中，在IPC中以方位角azi_a和仰角ele_a定位，执行向虚拟扬声器平移，然后生成混合矩阵。

b)为了执行向虚拟扬声器平移，可以执行使用方位角信息的方位角平移和通过使用位于CoC中的虚拟扬声器来定位IPC仰角的仰角平移。方位角平移也可以称为混淆锥平移。

混合矩阵生成单元可以在C个CoC中选择分别从方位角azi_a最靠近左侧和右侧的两个CoC。另外，混合矩阵生成单元可以参考选择的两个CoC中的左COC“CoC_Left”的IPC方位角azi_CoC_Left和右CoC“CoC_Right”的IPC方位角azi_CoC_Right，计算CoC之间的平移增益P_CoC_Left和P_CoC_Right，如<等式23>中。平移增益P_CoC_Left和P_CoC_Right的总和可以是“1”。方位角平移也可以被称为水平平移。

【等式23】

P_CoC_Left_0

＝cos((azi_a-azi_CoC_Left)/(azi_CoC_Right-azi_CoC_Left)＊pi/2)

P_CoC_Right_0

＝sin((azi_a-azi_CoC_Left)/(azi_CoC_Right_azi_CoC_Left)＊pi/2)

P_CoC_Left＝P_CoC_Left_0/(P_CoC_Left_0+P_CoC_Right_0)

P_CoC_Right＝P_CoC_Right_0/(P_CoC_Left_0+P_CoC_Right_0)

混合矩阵生成单元可以在存在于CoC_Left上的虚拟扬声器中选择两个虚拟扬声器CW和CCW，这两个虚拟扬声器CW和CCW分别从仰角“ele_a”沿顺时针或逆时针方向最接近。另外，如在<等式24>中，混合矩阵生成单元可以计算位于作为CW的IPC仰角的ele_CoC_Left和作为CCW的IPC仰角的ele_CoC_Left_CCW之间的平移增益P_CoC_Left_CW和P_CoC_Left_CCW。另外，混合矩阵单元可以通过使用以上相同的方法，如在<等式25>中，计算P_CoC_Right_CW和P_CoC_Right_CCW。平移增益P_CoC_Right_CW和P_CoC_Right_CCW之和可以为“1”。仰角平移可以被描述为垂直平移。

【等式24】

P_CoC_Left_CW_0＝sin((ele_a-ele_azi_CoC_Left_CCW)/(ele_azi_CoC_Left_CW-ele_azi_CoC_Left_CCW)＊pi/2)

P_CoC_Left_CCW_0＝cos((ele_a-ele_azi_CoC_Left_CCW)/(ele_azi_CoC_Left_CW-ele_azi_CoC_Left_CCW)＊pi/2)

P_CoC_Left_CW＝P_CoC_Left_CW_0/(P_CoC_Left_CW_0+P_CoC_Left_CCW_0)

P_CoC_Left_CCW＝P_CoC_Left_CCW_0/(P_CoC_Left_CW_0+P_CoC_Left_CCW_0)

【等式25】

P_CoC_Right_CW_0＝sin((ele_a-ele_azi_CoC_Right_CCW)/(ele_azi_CoC_Right_CW-ele_azi_CoC_Right_CCW)＊pi/2)

P_CoC_Right_CCW_0＝cos((ele_a-ele_azi_CoC_Right_CCW)/(ele_azi_CoC_Right_CW-ele_azi_CoC_Right_CCW)＊pi/2)

P_CoC_Right_CW＝P_CoC_Right_CW_0/(P_CoC_Right_CW_0+P_CoC_Right_CCW_0)

P_CoC_Right_CCW＝P_CoC_Right_CCW_0/(P_CoC_Right_CW_0+P_CoC_Right_CCW_0)

当将通过上述过程生成的、对应于P_CoC_Left_CW、P_CoC_Right_CW、P_CoC_Left_CCW和P_CoC_Right_CCW的扬声器的索引分别被称为a、b、c和d时，混合矩阵生成单元可以如在<等式26>中，计算相对于输入对象A的最终平移增益P[a][A]。

【等式26】

P[a][A]＝P_CoC_Left_CW＊P_CoC_Left

P[b][A]＝P_CoC_Right_CW＊P_CoC_Right

P[c][A]＝P_CoC_Left_CCW＊P_CoC_Lefr

P[d][A]＝P_CoC_Right_CCW＊P_CoC_Right

P[m][A]＝0对于m不在{a，b，c，d}中

另外，如在<等式27>中，混合矩阵生成单元可以重复上述过程a)和b)以生成用于将N个对象定位到L个虚拟声道扬声器的整个混合矩阵M。

【等式27】

当计算混合矩阵时，如在<等式28>中，平移器可以通过使用N个输入信号X[1～N]和混合矩阵M来生成L个虚拟扬声器信号“S”。<等式28>的dot(点)函数表示点积。

【等式28】

S＝M(dot)X

用户设备(例如，耳机)可以双耳化输出信号虚拟扬声器布局、与其相对应的HRIR以及虚拟扬声器输入信号S，并将其输出。在此，对于上述双耳化，可以使用参考图14描述的双耳化方法。

在下文中，将再次描述在本说明书中已经描述过的用于计算混合矩阵和定位声像的方法以及用于双耳化的方法的组合。

i)如在<等式23>中，可以通过对象声源的IPC中的方位角来确定CoC对。在此，可以将水平内插比率定义为P_CoC_Left和P_CoC_Right之间的比率。

ii)如在<等式24>和<等式25>中，可以通过使用IPC中的仰角，将与对象声源相邻的两个虚拟扬声器的垂直内插比率定义为P_CoC_Right_CW(或P_CoC_Left_CW)或P_CoC_Right_CCW或P_CoC_Left_CCW)。

iii)如在<等式26>中，通过水平内插比率和垂直内插比率来计算四个虚拟声源(与对象声源相邻的四个虚拟扬声器)的平移。

iv)可以通过将一个输入对象(例如，声源)的平移系数乘以四个虚拟声源的HRIR来执行双耳渲染。上述双耳渲染可以与合成内插的HRIR，然后通过将内插的HRIR乘以目标声源来执行内插的HRIR的双耳化相同。在此，可以通过将通过<等式26>计算的、用于四个虚拟声源的平移增益应用于与每个虚拟声源相对应的HRIR来生成内插HRIR。

用于计算内插系数的<等式23>、<等式24>和<等式25>具有不同于用在一般扬声器平移中的功率归一化的增益归一化的特性。当由于双耳化再次混合信号时，同相相加对应于位于同一CoC中的IPC仰角的垂直分量虚拟声道信号。因此，可以考虑到仅发生相长干涉的事实来执行增益归一化。此外，即使在水平信号与CoC中的其他IPC方位角相对应的情况下，也同相相加与另一方向中的信号相比，其信号更大的方向中的所有同侧分量。因此，可以执行增益归一化。

图26是图示根据本公开的实施例的双耳信号的生成的流程图。

图26图示根据上文参考图1至图25所述的实施例的生成双耳信号的方法。

为了生成双耳信号，双耳信号生成装置可以接收立体声信号并将立体声信号变换为频域信号(由附图标记S2610和S2620指示)。

双耳信号生成装置可以基于频域信号的声道间相关性和声道间声级差(ICLD)，将频域信号分离为第一信号和第二信号(由附图标记S2630指示)。

在此，第一信号包括频域信号的正面分量，而第二信号包括频域信号的侧面分量。

双耳信号生成装置可以基于第一同侧滤波器系数来渲染第一信号并且可以生成与频域信号相关的正面同侧信号(由附图标记S2640指示)。第一同侧滤波器系数可以基于第一头部相关脉冲响应(HRIR)的同侧响应信号来生成。

双耳信号生成装置可以基于第二同侧滤波器系数来渲染第二信号并且可以生成与频域信号相关的侧面同侧信号(由附图标记S2650指示)。第二同侧滤波器系数可以基于第二HRIR的同侧响应信号来生成。

双耳信号生成装置可以基于对侧滤波器系数来渲染第二信号并且可以生成与频域信号有关的侧面对侧信号(由附图标记S2660指示)。可以基于第二HRIR的对侧响应信号来生成对侧滤波器系数。

双耳信号生成装置可以将通过混合正面同侧信号和侧面同侧信号而生成的同侧信号以及侧面对侧信号分别转换为作为时域信号的时域同侧信号和时域对侧信号(由附图标记S2670指示)。

双耳信号生成装置可以通过混合时域同侧信号和时域对侧信号来生成双耳信号(由附图标记S2680指示)。

可以考虑到应用于时域对侧信号的耳间时间延迟(ITD)来生成双耳信号。

第一同侧滤波器系数、第二同侧滤波器系数和对侧滤波器系数可以为实数。

第一信号的左声道信号和第二信号的左声道信号之和可以与立体声信号的左声道信号相同。

第一信号的右声道信号和第二信号的右声道信号之和可以与立体声信号的右声道信号相同。

第一信号的左声道信号的能量和第一信号的右声道信号的能量可以彼此相同。

考虑到ITD的HRIR的对侧特性被应用于HRIR的同侧特性。

ITD可以为1ms或更短。

第一信号的左声道信号的相位可以与正面同侧信号的左声道信号的相位相同。第一信号的右声道信号的相位与正面同侧信号的右声道信号的相位相同。另外，第二信号的左声道信号的相位、侧面同侧信号的左侧信号的相位和侧面对侧信号的左侧信号的相位相同。第二信号的右声道信号的相位、侧面同侧信号的右侧信号的相位，以及侧面对侧信号的右侧信号的相位相同。

操作S2670可以包括：将通过混合用于左声道和右声道的每一个的正面同侧信号和侧面同侧信号而生成的左同侧信号和右同侧信号分别转换为作为时域信号的时域左同侧信号和时域右同侧信号；以及对左声道和右声道中的每一个，将侧面对侧信号转换为作为时域信号的左侧对侧信号和右侧对侧信号。

在此，通过混合时域左同侧信号和时域左侧对侧信号，以及通过混合时域右同侧信号和时域右侧对侧信号，可以生成双耳信号。

为了执行上述双耳信号生成方法，双耳信号生成装置可以包括：被配置为接收立体声信号的输入终端；以及包括渲染器的处理器。

上文已经参考特定实施例描述了本公开。然而，在不脱离本公开的范围的情况下，本领域的技术人员可以进行各种修改。即，尽管已经参考音频信号的双耳渲染的实施例描述了本公开，但是本公开可以等同地应用于并且扩展到包括视频信号以及音频信号的各种多媒体信号。因此，本公开所属的技术领域的技术人员可以根据本公开的详细描述和实施例容易地推断出的内容应当被解释为属于本公开的范围。

上述本公开的实施例可以通过各种方式来实现。例如，本公开的实施例可以通过硬件、固件、软件、其组合等来实现。

在通过硬件实现的情况下，可以通过专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器等中的一个或多个来实现根据本公开的实施例的方法。

在通过固件或软件实现的情况下，可以以执行上述功能或操作的模块、过程、函数等的形式来实现根据本公开的实施例的方法。软件代码可以被存储在存储器中并且可以由处理器执行。存储器可以位于处理器内部或外部，并且可以通过各种众所周知的方式与处理器交换数据。

一些实施例也可以以包括计算机可执行指令，诸如由计算机执行的程序模块的记录介质的形式来实现。这样的计算机可读介质可以是可由计算机访问的预定可用介质，并且可以包括所有易失性和非易失性介质以及可移动和不可移动介质。此外，计算机可读介质可以包括计算机存储介质和通信介质。该计算机存储介质包括可以通过预定方法或技术实现的所有易失性和非易失性介质以及可移动和不可移动介质，用于存储诸如计算机可读指令、数据结构、程序模块和其他数据的信息。通信介质通常包括计算机可读命令、数据结构、程序模块、调制数据信号的其他数据或另一传输机制，以及预定的信息传输介质。

已经出于说明性目的做出了本公开，并且本公开所属领域的技术人员将能够理解到，在不改变本公开的技术精神或基本特征的情况下，可以容易地将本公开修改为其他特定形式。因此，应当理解到，上述实施例并不旨在限制本公开的范围。例如，被描述为单一类型的每个元件可以以分布式方式实现，并且类似地，被描述为分布式的元件也可以以组合形式实现。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用上混双耳化从立体声信号生成双耳信号的方法及装置 [P] . 中国专利： CN112511965A . 2021-03-16
2. METHOD FOR GENERATING BINAURAL SIGNALS FROM STEREO SIGNALS USING UPMIXING BINAURALIZATION, AND APPARATUS THEREFOR [P] . 美国专利： US2022078570A1 . 2022-03-10

机译：使用上混频双耳化从立体声信号生成双耳信号的方法及其设备
3. A method for generating a binaural signal from a stereo signal using upmixing binauralization and a device for that purpose. [P] . 日本专利： JP7039066B2 . 2022-03-22

机译：一种使用上混频双耳化从立体声信号生成双耳信号的方法和用于该目的的设备。
4. A method for generating a binaural signal from a stereo signal using upmixing binauralization and a device for that purpose. [P] . 日本专利： JP2022078172A . 2022-05-24

机译：一种使用上混频双耳化从立体声信号生成双耳信号的方法和用于该目的的设备。