公开/公告号CN116506795A
专利类型发明专利
公开/公告日2023-07-28
原文格式PDF
申请/专利权人 中国科学院声学研究所;
申请/专利号CN202310505876.0
申请日2023-05-06
分类号H04S7/00(2006.01);G10L25/30(2013.01);G06N3/045(2023.01);G06N3/0464(2023.01);G06N3/08(2023.01);
代理机构北京亿腾知识产权代理事务所(普通合伙) 11309;
代理人陈霁
地址 100083 北京市海淀区北四环西路21号中科院声学所DSP大楼
入库时间 2024-01-17 01:18:42
法律状态公告日
法律状态信息
法律状态
2023-08-15
实质审查的生效 IPC(主分类):H04S 7/00 专利申请号:2023105058760 申请日:20230506
实质审查的生效
2023-07-28
公开
发明专利申请公布
技术领域
本说明书一个或多个实施例涉及空间音频技术领域,尤其涉及一种基于稀疏测量的个性化头相关传输函数预测方法及装置。
背景技术
头相关传输函数(Head Related Transfer Function,简称HRTF)在空间音频技术中具有重要的作用。HRTF表征了声波由声源经过头部、耳廓和躯干等生理结构到达人耳鼓膜的过程。不同个体生理参数的差异性导致其HRTF各不相同,在空间音频重放中使用个性化的HRTF可以有效提升重放效果。然而,个性化HRTF通常需要在消声环境下利用特制设备进行测量,且非常耗时,这导致个性化HRTF难以真正应用。目前,广泛采用生理参数的相似性从已有的HRTF数据库中选择或者利用生理参数合成HRTF幅度谱来得到个性化HRTF,但由于HRTF的生成过程过于复杂,现有基于生理参数的个性化HRTF预测方法难以很好地表征不同方向的声源传播过程中与人体各个生理参数之间物理过程。因此,一些方法尝试利用不同方向上测量的HRTF幅度谱插值或预测出全空间个性化HRTF。
然而目前,此类HRTF个性化生成方法需要较多方向上的HRTF测量,导致个性化HRTF生成系统耗时长、占用内存资源大,从而限制其在空间音频重放中的应用。
发明内容
本发明描述一种基于稀疏测量的个性化头相关传输函数预测方法及装置,可以解决上述技术问题。
根据第一方面,提供一种基于稀疏测量的个性化头相关传输函数预测方法。该方法包括:基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数HRTF幅度谱;利用声学特征提取网络处理所述稀疏测量的HRTF幅度谱,获得相应的声学特征;利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量;利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化HRTF幅度谱。
在一种实施方式中,基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数HRTF幅度谱,包括:将所述头相关冲激响应经过傅里叶变换和对数域变换,得到所述稀疏测量的HRTF幅度谱。
在一种实施方式中,所述利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量,包括:将所述目标方向的方位角和俯仰角转化为在笛卡尔坐标系单位球面上的三维坐标;将所述三维坐标输入所述维度增广网络,得到所述增广目标方向向量。
在一种实施方式中,所述利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标HRTF幅度谱,包括:将所述声学特征和所述目标方向向量进行拼接后输入所述谱预测网络,输出所述目标个性化HRTF幅度谱。
在一种实施方式中,所述方法还包括:给定所述稀疏测量的HRTF幅度谱与所述目标方向的方位角和俯仰角,即可通过所述声学特征提取网络、维度增广网络和谱预测神经网络预测出所述目标个性化HRTF幅度谱。
根据第二方面,提供一种基于稀疏测量的个性化头相关传输函数预测装置。该装置包括:
幅度谱获取模块,配置为基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数HRTF幅度谱。
声学特征获取模块,配置为利用声学特征提取网络处理所述稀疏测量的HRTF幅度谱,获得相应的声学特征。
方向向量获取模块,配置为利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量。
目标个性化幅度谱获取模块,配置为利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化HRTF幅度谱。
在一种实施方式中,幅度谱获取模块具体配置为:
将所述头相关冲激响应经过傅里叶变换和对数域变换,得到所述稀疏测量的HRTF幅度谱。
在一种实施方式中,所述声学提取网络实现为卷积神经网络。
在一种具体的实施方式中,所述卷积神经网络包括:若干卷积层、若干最大值池化层、若干激活层和全连接输出层。
在一种实施方式中,所述方向向量获取模块用于将所述目标方向的方位角和俯仰角转化为在笛卡尔坐标系单位球面上的三维坐标;将所述三维坐标输入所述维度增广网络,得到所述增广目标方向向量。
在一种实施方式中,所述目标幅度谱获取模块具体配置为:将所述声学特征和所述目标方向向量进行拼接后输入所述谱预测网络,输出所述目标个性化HRTF幅度谱。
在本说明书实施例提供的上述方法和装置中,利用已有的HRTF数据库中的数据,通过深度学习方法建立稀疏测量的HRTF幅度谱、目标方向和目标个性化HRTF幅度谱之间的映射模型,使得给定新被试的少量HRTF幅度谱与目标方位的方位角和俯仰角,即可通过三个神经网络模块生成目标个性化HRTF幅度谱。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出本说明书实施例提供的基于稀疏测量的个性化头相关传输函数预测方案的实施架构示意图;
图2示出本说明书实施例提供的一种基于稀疏测量的个性化头相关传输函数预测方法的流程示意图;
图3示出本说明书实施例提供的一种基于稀疏测量的个性化头相关传输函数预测装置的结构示意图。
具体实施方式
为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本申请实施例中的技术方案进行描述。
首先需说明的是,在本申请实施例的描述中,“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B这三种情况。另外,除非另有说明,术语“多个”的含义是指两个或两个以上。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
承前所述,基于头相关传输函数的音频处理是目前空间音频渲染的关键技术,如何在较短时间并且占用较少内存的情况下生成全空间个性化HRTF,是需要解决的问题。为解决此问题,本申请实施例提出了一种基于稀疏测量的个性化头相关传输函数预测方法,通过深度学习的方法从稀疏测量的HRTF幅度谱中提取表征被试生理结构的声学特征,进而建立声学特征和目标个性化HRTF幅度谱之间的关系,使得给定被试在少数方位上的测量HRTF,实现对全空间个性化HRTF幅度谱的预测。
图1示出本说明书实施例提供的基于稀疏测量的个性化头相关传输函数预测方案的实施架构示意图,如图1所示,该实施架构涉及利用声学特征提取网络、维度增广网络和谱预测神经网络实现对全空间个性化HRTF幅度谱的预测。具体地,将稀疏测量的HRTF幅度谱输入声学特征提取网络得到相应的声学特征,以及,将目标方向(或称目标方位)的三维坐标输入维度增广网络得到增广目标方向向量,然后将上述两个网络的输出,作为谱神经网络的输入,得到个性化HRTF幅度谱。需要说明的是,声学特征提取网络的具体构成不做具体限定,任何可以实现从稀疏测量的HRTF幅度谱中获得相应声学特征的网络架构都是可以的。对维度增广网络输入层、隐藏层和输出层中每个层次的数目,不做具体限定。对于谱预测神经网络也是一样,在此不做赘述。
图2示出本说明书实施例提供的一种基于稀疏测量的个性化头相关传输函数预测方法的流程示意图,如图2所示,该方法包括以下步骤:
步骤S110,基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数HRTF幅度谱。需说明,文中的若干指代一个或多个。
示例性地,在指定的若干方向上测量当前被试的头相关冲激响应(Head-RelatedImpulse Response,简称HRIR),相对于需要较多方向的HRTF测量,本申请实施例只需若干方向上的测量,因而个性化HRTF生成系统耗时较短,占用内存资源较少。将头相关冲激响应经过傅里叶变换后再将其变换到对数域,得到稀疏测量的HRIR,进而得到对应的HRTF幅度谱。
步骤S120,利用声学特征提取网络处理所述稀疏测量的HRTF幅度谱,获得相应的声学特征。
示例性地,构建由一层卷积层、一层最大值池化层、一层激活层和一层全连接输出层组成的声学特征提取网络,从稀疏测量的HRTF幅度谱中提取一维的声学特征向量,以描述当前被试的生理结构。
步骤S130,利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量。
示例性地,维度增广网络实现为由一层全连接输入层、两层隐藏层和一层输出层组成的深度神经网络。
示例性地,先将目标方位二维的方位角和俯仰角转化为在笛卡尔坐标系单位球面上的三维坐标,后将其输入到深度神经网络,经过输入层节点,最终输出维度增广后的目标方向向量,该目标方向向量为一维向量。
需要理解,对目标方向的度量方式有多种,如极坐标系、笛卡尔坐标系等,可以按需选用,本说明书实施例对此不作限定。
步骤S140,利用谱预测神经网络处理所述声学特征和所述增广目标方向向量,预测出目标个性化HRTF幅度谱。
示例性地,谱预测网络包括一层全连接输入层、六层隐藏层和一层全连接输出层。
示例性地,将声学特征和维度增广后的方向向量进行拼接后,输入谱预测神经网络,最终由输出层输出预测的目标个性化HRTF幅度谱。
综上,在本说明书实施例披露的上述方法中,给定新被试的少量HRTF幅度谱与目标方位的方位角和俯仰角,经由各自的网络映射后,声学特征和维度增广后目标方位向量进行拼接后即可输入到对应的预测网络中进行对目标个性化HRTF幅度谱的预测。
需说明的是,在上述对目标个性化HRTF幅度谱的预测中,使用的是已经训练好的声学特征提取网络、维度增广网络和谱预测神经网络。对于这三个神经网络的训练,与其使用阶段的区别主要在于:在训练阶段,利用预测结果和真值的误差进行网络参数的调整,在使用阶段直接向网络输入参数即可。
本发明通过深度学习的方法从稀疏测量中提取表征被试生理结构的声学特征,进而建立声学特征和目标个性化HRTF幅度谱之间的关系,使得给定被试在少数方位上的测量HRTF,实现对全空间个性化HRTF幅度谱的预测。
本发明利用已有HRTF数据库中数据,通过深度学习方法建立稀疏测量的HRTF幅度谱、目标方向和目标个性化HRTF幅度谱之间的映射模型,使得给定新被试的少量HRTF幅度谱与目标方位的方位角和俯仰角,即可通过三个神经网络模块生成目标个性化HRTF幅度谱。
与本发明提供的上述方法相对应的,本发明还提供一种装置。图3示出本说明书实施例提供的一种基于稀疏测量的个性化头相关传输函数预测装置的结构示意图。如图3所示,该装置300包括:
幅度谱获取模块310,配置为基于若干方向上测量的头相关冲激响应,确定稀疏测量的头相关传输函数HRTF幅度谱。
声学特征获取模块320,配置为利用声学特征提取网络处理所述稀疏测量的HRTF幅度谱,获得相应的声学特征。
方向向量获取模块330,配置为利用维度增广网络将目标方向的维度进行增广,得到增广目标方向向量。
目标个性化幅度谱获取模块340,配置为利用谱预测神经网络处理声学特征和增广目标方向向量,预测出目标个性化HRTF幅度谱。
在一种实施方式中,幅度谱获取模块310具体用于将头相关冲激响应经过傅里叶变换和对数域变换,得到稀疏测量的HRTF幅度谱。
在一种实施方式中,声学提取网络实现为卷积神经网络。
在一种具体的实施方式中,卷积神经网络包括:若干卷积层、若干最大值池化层、若干激活层和全连接输出层。
在一种实施方式中,方向向量获取模块330用于将目标方向的二维方位角和俯仰角转化为在笛卡尔坐标系单位球面上的三维坐标;将三维坐标输入所述维度增广网络,得到增广目标方向向量。
在一种实施方式中,目标幅度谱获取模块340用于将声学特征和目标方向向量进行拼接后输入所述谱预测网络,输出目标个性化HRTF幅度谱。
需要说明,对图3中装置的描述,还可以参见对前述方法的描述。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2所描述的方法。本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
机译: 基于统计模型,内插,测量和人体测头的与头部相关的传递函数的预测
机译: 相关函数测量方法和装置,以及基于相关函数测量的波源图像可视化方法和装置
机译: 基于统计建模,内插,测量和人体测量学的与头部相关的传递函数的预测