首页> 中国专利> 音频编码中的与振幅无关的窗口大小

音频编码中的与振幅无关的窗口大小

摘要

一种计算机实现的方法可以包括:接收对应于第一声能流的第一信号;至少在第一频率下使用第一与振幅无关的窗口大小和在第二频率下使用第二与振幅无关的窗口大小,对接收到的第一信号应用变换,所述第二与振幅无关的窗口大小改进所述第二频率下的时间响应,其中,所述第二频率由于与所述第一频率相关联的共振现象而经受振幅减小;并且存储第一编码的信号,所述第一编码的信号基于对所述接收到的第一信号应用所述变换。

著录项

  • 公开/公告号CN113272895A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 谷歌有限责任公司;

    申请/专利号CN201980024488.2

  • 申请日2019-12-16

  • 分类号G10L19/022(20060101);G10L25/45(20060101);

  • 代理机构11219 中原信达知识产权代理有限责任公司;

  • 代理人周亚荣;邓聪惠

  • 地址 美国加利福尼亚州

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

该文件一般涉及音频编码中的与振幅无关的窗口大小。

背景技术

音频处理仍然是当今技术环境的重要方面。用于个人和专业情况以帮助用户执行各种任务的数字助理经过训练,以识别语音以检测其提示和指令。语音识别还用于创建人们正在谈论的事件的数字可访问的记录。在快速增长的虚拟现实和/或增强现实世界中,音频处理为用户提供了合理的听觉体验,以便最佳地感知数字环境并与之互动。

发明内容

在本公开的方面中,提供了一种计算机实现的方法。该方法包括:接收对应于第一声能流的第一信号;至少在第一频率下使用第一与振幅无关的窗口大小和在第二频率下使用第二与振幅无关的窗口大小,对接收到的第一信号应用变换,第二与振幅无关的窗口大小改进第二频率下的时间响应,其中,第二频率由于与第一频率相关联的共振现象而经受振幅减小;并且存储第一编码的信号,第一编码的信号基于对接收到的第一信号应用变换。

例如,第一频率可以约为3kHz,第二频率可以约为1.5kHz或约为10kHz。第一与振幅无关的窗口大小可以约为18-30ms(例如,约为24ms)。第二与振幅无关的窗口大小可以约为3-9ms(例如,约为6ms)。

该方法可以进一步包括基于第一频率与人类听力中的能量整合相关联,将第一与振幅无关的窗口大小映射到第一频率。

该方法可以进一步包括基于第二频率与人类听力中的能量分化相关联,将第二与振幅无关的窗口大小映射到第二频率。

第一与振幅无关的窗口大小可以应用于接收到的第一信号的除第二频率下的频带以外的所有频率。第一与振幅无关的窗口大小可以大于第二与振幅无关的窗口大小。第一与振幅无关的窗口大小可以大于第二与振幅无关的窗口大小整数倍。第一与振幅无关的窗口大小可以约比第二与振幅无关的窗口大小大四倍。

该方法可以进一步包括在对第一接收到的信号应用变换时使用第三与振幅无关的窗口大小,第三与振幅无关的窗口大小用在与共振现象不相关的第三频率下,第三与振幅无关的窗口大小与第一和第二与振幅无关的窗口大小不同。

第三与振幅无关的窗口大小可以小于第一与振幅无关的窗口大小。第三与振幅无关的窗口大小可以约为第一与振幅无关的窗口大小的一半大。第三与振幅无关的窗口大小可以大于第二与振幅无关的窗口大小。第三与振幅无关的窗口大小可以约为第二与振幅无关的窗口大小的两倍大。第三与振幅无关的窗口大小可以小于第一与振幅无关的窗口大小。

在第一频率下使用第一与振幅无关的窗口大小应用变换可以生成第一结果,其中,在第二频率下使用第二与振幅无关的窗口大小应用变换可以生成第二结果,该方法进一步包括比存储第一结果更频繁地存储第二结果。

该方法可以进一步包括以低于第一结果的精确度存储第二结果。

该方法可以进一步包括在第三频率下应用变换时使用第三与振幅无关的窗口大小,第三与振幅无关的窗口大小改进第三频率下的时间响应,第三频率由于与第一频率相关联的共振现象经受振幅减小。

第二和第三频率可以位于第一频率的相对侧。

第三与振幅无关的窗口大小可以约等于第二与振幅无关的窗口大小。

第二和第三与振幅无关的窗口大小可以小于第一与振幅无关的窗口大小。

第一音频文件可以包括第一编码的信号,并且该方法可以进一步包括:接收对应于第二声能流的第二信号;至少在第一频率下使用第一与振幅无关的窗口大小和在第二频率下使用第二与振幅无关的窗口大小,对接收到的第二信号应用变换;存储第二编码的信号,第二编码的信号基于对接收到的第二信号应用变换,其中,第二音频文件包括第二编码的信号;并且确定第一和第二音频文件之间的差异。

确定差异可以包括将第一和第二音频文件播放到人类听力模型中,该模型包括共振现象。

在本公开的方面中,提供了一种有形地体现在非暂时性存储介质中的计算机程序产品,该计算机程序产品包括指令,该指令在由处理器执行时,使处理器执行本文描述的任何方法的操作。

一个方面的可选特征可以与任何其他方面结合。

附图说明

图1示出系统的示例。

图2示出了确定声源的方向性的示例。

图3示出了音频信号的示例。

图4示出了音频编码器的示例。

图5示出了窗口大小的示例。

图6示意性地示出了解码的示例。

图7示出了音频分析仪的示例。

图8示出了方法的示例。

图9示出了可用于实现这里描述的技术的计算机设备和移动计算机设备的示例。

在各个附图中,相似的附图标记指示相似的元件。

具体实现方式

本文件描述了使用与振幅无关的窗口大小进行音频处理的示例。在一些实现方式中,可以在处理具有与人耳中的共振现象相关联的频率的信号时使用相对较大的窗口大小。例如,窗口大小可以大约是用于另一个频率的窗口大小的两倍。在一些实现方式中,可以在处理具有由于共振现象而经受振幅减小的频率的信号时使用相对较小的窗口大小。例如,窗口大小可以比用于另一频率的窗口大小小约两倍。

图1示出了系统100的示例。系统100可以与本文其他地方所述的一个或多个其他示例一起使用。系统100包括多个声音传感器102,包括但不限于麦克风。例如,可以使用一个或多个全方向麦克风和/或其他空间特性的麦克风。声音传感器102检测空间104中的音频。例如,空间104可以由结构表征(诸如在具有特定环境脉冲响应的录音棚中),或者可以被表征为基本没有周围结构(诸如在基本空旷的空间中)。声音传感器的输出可以被提供给共振增强编码器106。共振增强编码器106可以对来自声音传感器102的音频信号执行改进编码。在一些实现方式中,共振增强编码器106可以改进在与共振现象相关联的声音信号的一个或多个特定频率下的时间响应。可以通过提高一个或多个频率下的编码处理的时间分辨率改进时间响应。例如,可以通过在应用变换时包括相对较少的音频内容(例如,信号的时间较短部分)来提高时间分辨率。这种方法可以提高系统100(或另一组件,包括但不限于音频分析仪)确定声音方向性的能力;即,至少部分地基于两个或更多声源的空间性将两个或更多声源彼此区分。

在共振增强编码器106对来自声音传感器102的信号编码之前,可以执行对信号的一种或多种类型的调节。在一些实现方式中,信号可以被处理成生成特定表示(例如,根据预先指定的格式)。例如,可以将表示分解成来自声音传感器102的声音的各个声道。

在编码时,共振增强编码器106可以将变换应用于来自声音传感器102的信号。变换可以包括向来自声音传感器102的信号的各个频率(或频带)应用两种或更多种不同的窗口大小。在一些实现方式中,窗口大小是与振幅无关的,即窗口大小被应用于特定的至少一个频率(频带),与信号这方面的特性无关。例如,共振增强编码器106可以不考虑频率(频带)是否包含持续的声能水平,和/或频率(频带)是否包含任何瞬变,诸如具有比波形的周围部分更高振幅的相对短持续时间的区域。使用不同的窗口大小可以有助于解决与收听有关的情况,包括但不限于声学特性,诸如共振现象。

在编码之后,可以将经编码的信号存储、转发和/或发送到另一位置。例如,信道108表示可以管理经编码的音频信号的一种或多种方式,诸如通过传输到另一系统以进行回放。

如果应播放编码的信号的音频,则可以执行解码过程。这样的解码过程可以由共振增强解码器110执行。例如,共振增强解码器110可以以与共振增强编码器106基本相反的方式执行操作。例如,可以在解码模块中执行逆变换,解码模块部分地或完全地恢复由共振增强编码器106生成的特定表示。可以根据情况存储和/或播放所得的音频信号。例如,系统100可以包括两个或更多个音频回放源112(包括但不限于扬声器),可以向其提供经处理的音频信号以进行回放。

可以在耳机上播放来自声音传感器102的信号的表示,并且系统100可以计算应在耳机中渲染的内容。在一些实现方式中,这可以应用于涉及虚拟现实(VR)和/或增强现实(AR)的情况。在一些实现方式中,渲染可以取决于用户如何转动他或她的头。例如,可以使用将头部方位通知给系统的传感器,然后,系统可以使人听到来自与头部方位无关的方向的声音。作为另一示例,可以在一组扬声器上播放来自声音传感器102的信号的表示。即,首先,系统100可以存储或发送围绕收听者的声场的说明。在共振增强解码器110处,然后可以计算各个扬声器应该产生的内容,以在收听者的头部周围产生声场。即,本文例证的方法可以促进声音的空间分解。

图2示出了确定声源的方向性的示例。这里示意性地示出了空间轮廓的示例。物理空间200可以包括任何空间扩展,包括但不限于房间、室外区域或大气区域。圆圈202示意性地表示每种情况下的收听者。出于本示例的目的,由圆圈202表示的收听者可以是根据本主题的装置(例如,图1中的系统100),或者可以是人类收听者。收听者将感知表示为声能流的声音。例如,装置可以感知声音以对其进行编码(例如,装置可以是根据本主题的编码器)。作为另一示例,装置可以感知声音以对其进行分析,以便做出差异确定(例如,装置可以是根据本主题的音频分析仪)。作为另一示例,人类收听者可以通过成为该空间中或该空间附近的主动或被动收听者来感知物理空间200中的声音。

人204A-C被示意性地示出为处于物理空间200中。人形符号代表收听者可以听到的任何类型的声源。这样的声音可以由人类(例如,语音、歌曲或其他说话方式)、自然(例如,风、动物或其他自然现象)或技术(例如,机器、扬声器或其他人造装置)生成。即,本主题涉及来自一种或多种类型的来源的声音,而不管声音是不是由人引起的。人204A-C在圆圈202周围的位置表示圆圈202可以感知来自多个单独方向的声音。这里,可以说每个人204A-C都与他们相关联了相应的空间轮廓206A-C。空间轮廓206A-C表现了收听者可以感知声音到达的方向。空间轮廓206A-C对应于如何捕捉来自不同声源的声音:一些声音直接从声源到达,而其他声音(同时生成的)首先在一个或多个表面上反弹,然后被感知。也就是说,这里由人204A表示的声音可以具有空间轮廓206A,这里由人204B表示的声音可以具有空间轮廓206B,并且这里由人204C表示的声音可以具有空间轮廓206C。

在房间的背景下,空间轮廓的概念是该说明性示例的概括。在此,空间轮廓既包括直接路径,也包括所有反射路径,声源的声音通过反射路径行进以到达圆圈202的收听者。在不同情况下,诸如当物理空间200相对没有结构或抑制回声和其他声反射时,声能的直接路径可以在圆圈202处占主导地位。在一些实现方式中,术语“方向”可以被认为具有一般含义,并且等效于表示直接路径和所有反射路径的一组方向。在一些实现方式中,可以出现比空间轮廓206A-C更多或更少的空间轮廓。

圆圈202所代表的不同收听者可以具有不同的能力来空间分辨具有各个空间轮廓206A-C的到达声音。例如,人类可能能够基于其各自的空间轮廓206A-C并行识别十个,也许十五个声源。另一方面,装置(例如,在本主题之前的基于计算机的系统)可能能够并行区分出比人类收听者明显更少的声源。例如,现有的计算机已经能够并行区分少于三个同时的声源(例如,约两个声源)。这会引起音频设备执行空间分解的能力的受限(例如,在AR/VR系统中)。因此,使用具有改进的空间分解能力的基于计算机的系统可以允许圆圈202的收听者在更多的空间轮廓206A-C之间进行区分。

确定声音的方向性可以取决于多个因素,包括但不限于时间响应。在一些实现方式中,时间响应可以表现系统在时间上检测声学现象的开始或结束的能力。例如,改进的时间响应对应于系统在准确指出声音开始或结束的时间方面更好。这适用于任何类型的声音,包括持续的声能级和瞬变两者。

图3示出了音频信号300的示例。音频信号300可以出现在本文中其他地方所述的一个或多个其他示例中或被考虑在内。这里的音频信号300包括输入信号302A-C,其可以被称为某个系统的相应输入。即,每个输入信号302A-C都表示可以由计算机系统和/或人类收听者记录的音频信号(例如,声能流)。参考信号300所述的一些示例将基于人类收听者。输入信号302A-C具有不同的频率(或频带)。在一些实现方式中,输入信号302A与大约1.5kHz的频率相关联。例如,这对应于约666微秒(μs)的周期。在一些实现方式中,输入信号302B与大约3.0kHz的频率相关联。例如,这对应于大约333μs的周期。在一些实现方式中,输入信号302C与大约10.0kHz的频率相关联。例如,这对应于大约100μs的周期。输入信号302A-C可以彼此分离并且彼此独立,或者它们可以是相同声信号的一部分。例如,带通滤波器阵列可以用于将输入信号分离成多个分量,包括但不限于输入信号302A-C。

每个输入信号302A-C都可以包括任何类型的音频信号内容。在一些实现方式中,输入信号302A包括波形304A。例如,波形304A可以是具有相似或相同振幅并且具有大约1.5kHz的频率的相对均质的波组。在一些实现方式中,输入信号302B包括波形304B。例如,波形304B可以是具有相似或相同振幅并且具有大约3.0kHz的频率的相对均质的波组。在一些实现方式中,输入信号302C包括波形304C。例如,波形304C可以是具有相似或相同振幅并且具有大约10.0kHz的频率的相对均质的波组。

一种或多种声学现象可能影响对输入信号302A-C的感知。在一些实现方式中,可以发生共振。例如,人耳在大约3kHz时产生共振,这可以用在耳朵中振荡的膜的弹性粘稠特性以及该膜上的毛细胞的相互作用来解释。这种共振现象在所有人类中都很普遍。共振可能对人耳接收声波的方式产生某些影响。

从输入信号302B开始,该信号处于大约3.0kHz的共振频率下,因此,耳朵将接收受共振影响的信号306B。共振可以引起输入信号302B的放大。如果输入信号302B具有特定振幅,则信号306B可以具有更大倍数的振幅。例如,信号306B的振幅可以是输入信号302B的振幅的大约两倍(例如,放大约+6dB)。共振还会在大约3.0kHz的频率下引起瞬变的时间本地化的拖尾。即,与共振相关联的能量的累积可能随着时间而积累信号能量。因此,频率3.0kHz可以与人类听力中的能量整合相关联。例如,这可能使瞬变的时间特征模糊并且使瞬变衰减(例如,衰减约为2的因数)。这种模糊可能使瞬变更加难以检测(例如,瞬变可以说是消失了)。这可能会导致听到瞬变声音的时间比发生的时间更长(例如,瞬变声音可能会在时间上拖尾)。例如,信号306B可以包括比波形304B长几倍(例如,长三倍)的波形308B。

现在参考输入信号302A和302C,这些信号处于也受人耳中的共振影响的大约两个频率(分别为1.5kHz和10.0kHz)下,因此,耳朵将分别接收也受到共振影响的信号306A和306C。特别地,共振会导致输入信号302A和302C减小。如果输入信号302A具有特定振幅,则信号306A可能具有小几倍的振幅。例如,信号306A的振幅可以是输入信号302A的振幅的大约一半(例如,减小约-6dB)。如果输入信号302C具有特定振幅,则信号306C可以具有小几倍的振幅。例如,信号306C的振幅可以是输入信号302C的振幅的大约一半(例如,减小约-6dB)。大约1.5和/或10.0kHz的瞬变可能在时间上变得更加局部化(例如,在时间上变尖)。例如,3.0kHz下的共振可以通过消除周围频率来充当微分滤波器,从而增强这些频率中的瞬变,但会衰减持续波中的能量。这样可以允许更多量化,但留给用于布置瞬变的空间较小。例如,信号306A可以包括比波形304A短几倍(例如,短三倍)的波形308A。作为另一示例,信号306C可以包括比波形304C短几倍(例如,短三倍)的波形308C。因此,1.5和10.0kHz频率每个都可以与人类听力中的能量分化相关联。

应用本主题的方面可以促进改进的音频处理。例如,音频压缩器(例如,作为图1中的共振增强编码器106的一部分)和/或评估音频信号相似性的组件(例如,图7中的音频分析仪700)可以获得更高的振幅灵敏度和/或更高的时间灵敏度。本主题可以通过存储在计算机程序产品中并且可由至少一个处理器执行的指令(例如,计算机程序)来实践。在一些实现方式中,根据指令执行操作可以使得在第一频率(例如,在大约3.0kHz下)下的振幅灵敏度增大。例如,振幅灵敏度增大可以归因于在第一频率下比在另一频率(例如,低于约1kHz的频率)下使用的与振幅无关的窗口大小大(例如,窗口大2倍)。在一些实现方式中,根据指令执行操作可以引起第二频率下(例如,在大约1.5和/或大约10kHz下)的时间灵敏度增大。例如,时间灵敏度的增大可以归因于在第二频率下比另一频率(例如,低于大约1kHz的频率)下使用的与振幅无关的窗口大小小(例如,窗口小2倍)。

图4示出了音频编码器400的示例。音频编码器400可以与本文其他地方所述的一个或多个示例一起使用。音频编码器400被配置成接收输入402(例如,对应于声能流的一个或多个信号)、处理输入402的信号,以及生成输出404(例如,一个或多个编码的信号)。在一些实现方式中,音频编码器400可以与高质量音频(例如,以提供高质量hifi声音系统)一起使用。例如,音频编码器400可以支持无损(例如,可以使用编码的信号完美重构的原始信号)或接近无损(例如,可以使用编码的信号几乎完美重构的原始信号)的压缩。可以基于参考图9所述的一个或多个示例实现音频编码器400。

音频编码器400可以包括一个或多个变换406。变换406可以将音频信号从时间域转换为频率域。可以在一个或多个时间范围上执行变换406,有时将其称为用于变换406的窗口。当声音缓慢发展时,可以说窗口越大(例如,转换的毫秒(ms)数越大),信号的该部分就可以被压缩地越多。对于声音,有时可以认为它们在相关的参考系中发展相对较慢。例如,利用语音,通过一列正在振动的空气产生音频信号,以使得在某些给定时间,空气将至少基本上像在20毫秒之前那样振动。在这种背景下,积分变换可以用于获得振动的预测特征。可以使用与频率有关的任何变换,包括但不限于傅里叶变换或余弦变换。在一些实现方式中,可以使用变换的离散变形。例如,离散傅立叶变换(DFT)可以被实现为快速傅立叶变换(FFT)。作为另一示例,可以使用离散余弦变换(DCT)。

音频编码器400包括窗口大小和频率之间的映射408。映射408可以基于人耳中的共振现象。在一些实现方式中,映射408可以将第一窗口大小与频率相关联,该频率与人类听力中的能量整合相关联。例如,频率可以为大约3.0kHz(例如,具有大约18-30ms的窗口大小,诸如大约24ms)。在一些实现方式中,映射408可以将第二窗口大小与频率相关联,该频率与人类听力中的能量分化相关联。例如,频率可以是大约1.5kHz和/或大约10.0kHz(例如,具有大约3-9ms的窗口大小,诸如大约6ms)。在一些实现方式中,映射408可以将第三窗口大小与频率相关联,该频率不与人类听力中的任何特定声学现象相关联(例如,不与任何共振相关联)。例如,频率可以低于大约1.0kHz和/或高于大约10.0kHz(例如,具有大约6-18ms的窗口大小,诸如大约12ms)。映射408可以以多种不同方式中的任何一种来实现窗口大小(例如,就诸如ms的大小而言)与频率(例如,就一个或多个频带而言)之间的关联。例如,映射408可以包括要与一个或多个变换406一起使用的查找表。作为另一示例,可以将映射408整合到一个或多个变换406中,以便自动地应用于变换。

编码器400是可以执行与改进编码有关的方法的装置的示例。该方法可以包括接收对应于第一声能流的第一信号(例如,图3中的信号302B)。该方法可以包括对接收到的第一信号进行变换(例如,FFT或DCT)。变换至少可以使用第一频率(例如,大约3kHz)下的第一与振幅无关的窗口大小(例如,大约24ms)和第二频率(例如,约1.5kHz和/或约10kHz)下的第二与振幅无关的窗口大小(例如,大约6ms)。第二与振幅无关的窗口大小可以改进第二频率下的时间响应(例如,图3中的波形308A和/或308C可以表示相对更容易检测的瞬变)。例如,第二与振幅无关的窗口大小可以通过比用于大部分带宽的窗口大小短来改进时间响应,从而每次都将变换应用于较短的音频信号跨度。由于与第一频率相关联的共振现象,所以第二频率可能经受振幅减小(例如,信号306A或306C可以相对于输入信号302A或302C分别具有减小的振幅)。该方法可以包括存储第一编码的信号(例如,输出404),第一编码的信号基于将变换应用于接收到的第一信号。

图5示出了窗口大小的示例。相对于代表频率的轴500示出了窗口大小。例如,轴500的频率是被包括在音频信号中的各个频率(例如,被滤波器组分开)。频率502可以与共振现象相关联(例如,在人耳中)。例如,共振可以放大频率502下的信号,并衰减一个或多个其他频率下的信号。在此,指示了频率504和频率506。频率504和/或506可以与共振现象相关联(例如在人耳中)。例如,共振可以使频率504和/或506下的信号衰减。在变换中,可以将不同的窗口大小用于频率502、504或506中的一个或多个,并且窗口大小可以独立于在任何频率下的特定振幅(例如,不取决于是否已在该频率(频带)中检测到瞬变)。在一些实现方式中,与频率502相关联的窗口大小可以用于信号的除频率504和/或506以外的所有频率(例如,用于包括频率504和/或506的一个或多个频带)。频率504和506可以使用彼此相同或不同的窗口大小。频率502的窗口大小可以大于频率504和/或506的窗口大小。使频率502的窗口大小大于频率504和/或506的窗口大小可以提供下列优点:更高效地处理音频信号中时间响应增加相对不显著的部分(例如,以便每次都将变换应用于更大跨度的音频信号)。例如,24ms窗口大于6ms的窗口。在一些实现方式中,频率502的窗口大小可以比频率504和/或506的窗口大小大整数倍。例如,大约24ms的窗口大小是大约6ms的窗口大小的大约四倍。标记了频率508和频率510。在一些实现方式中,频率508和/或510不与人耳的任何声学现象相关联(例如,频率508和/或510不被3kHz下的共振放大或衰减)。例如,频率508可以低于频率504(例如,在大约1kHz或更低频率下)。作为另一示例,频率510可以高于频率506。频率508和/或510可以使用与一个或多个其他频率大小不同的窗口大小。在一些实现方式中,频率508和/或510的窗口大小小于频率502的窗口大小。在一些实现方式中,频率508和/或510的窗口大小约为频率502的窗口大小的一半。使频率508和/或510的窗口大小大约是频率502的窗口大小的一半可以提供下列优点:在共振效应不会发生或相对不显著的音频信号部分中获得更高质量的编码(例如,以便每次都将变换应用于较小跨度的音频信号)。例如,约12ms的窗口大小小于约24ms的窗口大小,并且约是其一半。在一些实现方式中,频率508和/或510的窗口大小可以大于频率504和/或506的窗口大小。在一些实现方式中,频率508和/或510的窗口大小可以是频率504和/或506的窗口大小的大约两倍。使频率508和/或510的窗口大小大约是频率504和/或506的窗口大小的两倍可以提供下列优点:在其中时间响应增大相对不显著的音频信号部分中获得更高效的编码(例如,以便每次都将变换应用于更大跨度的音频信号)。例如,窗口大小12ms大于大约6ms的窗口大小,并且约为其两倍。频率504和506可以位于频率502的相对侧。例如,频率504和506之一可以低于频率502,而频率504和506中的另一个可以低于频率502。即,这里的位置可以由频率定义。例如,频率502下的共振可能引起在一个或多个较高频率(例如,在频率506下)下和在一个或多个较低频率(例如,在频率504下)下的衰减。

编码器(例如,图4中的音频编码器400)可以被包括在编解码器中。在一些实现方式中,编解码器可以计算窗口大小的倍数。当存储不同频带的频率时,可以存储大约1.5kHz和大约10kHz的频率。在一些实现方式中,与共振频率(例如,大约3kHz)相比,对于这些频率,可以更频繁地存储数据(例如,整数倍)。更频繁地存储数据可以提供下列优点:窗口大小更短,从而改善了时间响应,从而每次都将变换应用于较短跨度的音频信号。例如,大约1.5kHz和大约10kHz频率的数据可以被更频繁地存储,因为它们的窗口大小在持续时间上短于共振频率(例如,大约3kHz)的窗口大小,所以它们对于给定时间段具有输出。例如,如果3kHz窗口大小是1.5kHz窗口大小的四倍,并且约为10kHz窗口大小,则一个窗口可以具有四个输出,而另一个窗口则具有一个输出,而每个窗口的输出值可能与彼此不同。在一些实现方式中,相对较低的精确度可以用于大约1.5kHz和/或大约10kHz的频率。例如,可以省略一位或两位,以便保留时间数据并且存在更大程度的量化。量化在减少存储的数据量方面可能是有利的,从而需要较少的系统资源。在一些实现方式中,相对更高的精确度可以用于大约3kHz的频率。例如,可以添加一位或两位,以便有更多数据来捕捉该区域中更精细的振幅变化。即,可以说以共振频率(例如3kHz)施加的变换产生第一结果,并且可以说以衰减频率(例如1.5和/或10kHz)施加的变换产生第二结果。与第二结果(例如,每6毫秒)相比,第一结果的存储频率降低了(例如,每24毫秒),包括但不限于,第二结果的存储频率是第一输出的大约四倍。

图6示意性地示出了解码的示例。这些示例的解码可以与本文其他地方所述的一个或多个其他示例一起使用。可以将解码应用于编码的信号以将其转换为另一种形式(例如,音频信号)。编码过程所暗示的不同大小的变换可以被操作,并在解码时进行累加。在一些实现方式中,不同的频带可以由不同的窗口长度来表示。也就是说,在对声音解码时,可以从多种不同大小的变换中的每一种进行解码。在一些实现方式中,为了取出一个样本,可以执行三种变换(例如,分别称为6ms-,12ms-和24ms-变换)。可以将它们累加,并且解码器可以发射6毫秒的时间。这里示出了变换600-1、600-2、600-3和600-4。例如,变换600-1至600-4中的每一个都对应于将具有特定窗口大小(例如,6ms)的变换应用于一个或多个频率。这里示出了变换602-1和602-2。例如,变换602-1和602-2中的每一个都对应于将具有特定窗口大小(例如,12ms)的变换应用于一个或多个频率。这里示出了变换604。例如,变换604对应于将具有特定窗口大小(例如,24ms)的变换应用于一个或多个频率。变换606示意性地表示变换对音频信号的另一种应用(例如,具有较小或较大的窗口大小)。

下面是解码的示例。可以执行变换600-1、602-1和604,其中变换602-1和604可以被存储(例如,通过图1中的共振增强解码器110存储在存储器中)。然后,可以对变换600-1、602-1和604进行累加,并将其用于在一部分时间(例如6ms)输出声音。之后,可以执行变换600-2。通过从存储中检索变换602-1和604,可以对变换600-2、602-1和604进行累加,并将其用于在一部分时间(例如6ms)输出声音。然后,可以执行变换600-3和602-2,其中可以存储变换602-2。然后,可以对变换600-3、602-2和604进行累加,并将其用于在一部分时间(例如6ms)输出声音。最后,可以执行变换600-4。通过从存储中检索变换602-2和604,可以对变换600-4、602-2和604进行累加,并将其用于在一部分时间(例如6ms)输出声音。

图7示出了音频分析仪700的示例。音频分析仪700可以与本文其他地方所述的一个或多个其他示例一起使用。可以使用参考图9所述的一个或多个示例来实现音频分析仪700。在一些实现方式中,音频分析仪700可以用于确定(例如,建模)音频文件之间的差异。这里,音频文件702和704被示为正被输入到音频分析仪700中。音频文件702和704中的每一个都可以根据本主题来生成。例如,音频编码器400(图4)可以生成音频文件702和704。音频分析仪700包括差异确定电路706。在一些实现方式中,差异确定电路706可以执行音频文件702和704的评估,以确定它们是否相同或不同,或者它们之间有什么差异。仅举几个例子,差异确定电路706可以执行这种评估作为语音识别、盲源分离、方向性确定、安全性控制、身份验证、音乐选择和/或欺诈检测的一部分。差异确定电路706可以将音频文件702和704中的每一个应用于人类听力模型708。在一些实现方式中,模型708是人耳如何工作的基于软件的表示(例如,心理声学模型)。例如,模型708可以指定大约3kHz频率下的声音被放大并且经受能量整合(例如,时间上的拖尾),并且大约1.5kHz和大约10kHz频率下的声音被衰减并且经受能量分化(例如,瞬变增强)。通过差异确定电路706将音频文件702和704应用于人类听力模型708,音频编码器400可以确定音频文件702和704之间的差异(如果存在)。差异确定电路706可以包括用户界面710,以输出评估音频文件702和704的一个或多个结果。在一些实现方式中,用户界面710指示用户界面710之间的差异(如果存在)。用户界面710可以生成输出712,仅举几个例子,诸如以二进制评估的形式(例如,“相同”或“不相同”)或根据相似性标准的定量评估(例如,“95%相似”)。可以为人类用户或依赖于音频分析仪700的评估的另一组件生成输出712。

图8示出了方法800的示例。方法800可以与本文其他地方所述的一个或多个其他示例一起使用。方法800可以是由图9中的计算设备900执行的计算机实现的方法。方法800可以包括比所示的操作更多或更少的操作。除非另外指出,否则方法800的两个或更多操作都可以以不同顺序执行。

在802,信号可以被接收。信号可以是对应于能量流的音频信号。例如,共振增强编码器106可以从声音传感器102接收信号(图1)。

在804,变换可以被应用于接收到的信号。在一些实现方式中,变换使用与振幅无关的窗口大小。例如,DCT或FFT可以被应用于输入信号302A-C中的任何一个,而与该信号的振幅无关。可以在不同频率下应用不同窗口大小。

在806,经编码的信号可以被存储。例如,共振增强编码器106(图1)可以存储编码的信号。

图9图示可用于实现本公开的各方面的计算设备900的示例架构,包括本文描述的系统、装置和/或技术中的任何一个,或可以在各种可能的实现例中描述的任何其他系统、装置和/或技术。

图9中图示的计算设备可以被用于执行本文所述的操作系统、应用程序和/或软件模块(包括软件引擎)。

在一些实现例中,计算设备900包括至少一个处理设备902(例如,处理器),诸如中央处理单元(CPU)。可以从各种制造商处获得各种处理设备,例如Intel或高级微设备(Advanced Micro Devices)。在该示例中,计算设备900还包括系统存储器904和系统总线906,该系统总线906将包括系统存储器904的各种系统组件耦合到处理设备902。系统总线906是多种类型的总线结构中的一种,其可以被使用,包括但不限于存储器总线或存储器控制器;外围总线;以及使用多种总线架构中的任何一种的本地总线。

可以使用计算设备900实现的计算设备的示例包括台式计算机、膝上型计算机、平板计算机、移动计算设备(诸如智能电话、触摸板移动数字设备或其他移动设备)或其他配置成处理数字指令的设备。

系统存储器904包括只读存储器908和随机存取存储器910。基本输入/输出系统912包含诸如在启动期间在计算设备900内传输信息的基本例程,可以被存储在只读存储器908中。

在一些实现例中,计算设备900还包括辅助存储设备914,诸如硬盘驱动器,用于存储数字数据。辅助存储设备914通过辅助存储接口916连接到系统总线906。辅助存储设备914及其关联的计算机可读介质提供计算机可读指令(包括应用程序和程序模块)、数据结构以及计算设备900的其他数据的非易失性和非暂时性存储。

尽管本文描述的示例环境采用硬盘驱动器作为辅助存储设备,但是在其他实现例中使用其他类型的计算机可读存储介质。这些其他类型的计算机可读存储介质的示例包括盒式磁带、闪存卡、数字视频磁盘、伯努利盒式磁带、光盘只读存储器、数字多功能盘只读存储器、随机存取存储器或只读存储器。一些实现例包括非暂时性介质。例如,计算机程序产品可以有形地体现在非暂时性存储介质中。另外,这样的计算机可读存储介质可以包括本地存储或基于云的存储。

多个程序模块可以存储在辅助存储设备914和/或系统存储器904中,包括操作系统918、一个或多个应用程序920、其他程序模块922(诸如本文所述的软件引擎)以及程序数据924。计算设备900可以使用任何合适的操作系统,例如Microsoft Windows

在一些实现例中,用户通过一个或多个输入设备926向计算设备900提供输入。输入设备926的示例包括键盘928、鼠标930、麦克风932(例如,用于语音和/或其他音频输入)、触摸传感器934(诸如触摸板或触摸敏感显示器)和手势传感器935(例如,用于手势输入)。在一些实现方式中,输入设备926基于存在,接近和/或运动来提供检测。在一些实现方式中,用户可以走进他们的家,这可以触发到处理设备中的输入。例如,输入设备926可以然后促进用户的自动化体验。其它实现例包括其它输入设备926。输入设备可以通过耦合到系统总线906的输入/输出接口936连接到处理设备902。这些输入设备926可以通过任意数量的输入/输出接口(诸如并行端口、串行端口、游戏端口或通用串行总线)被连接。输入设备926和输入/输出接口936之间的无线通信也是可能的,并且在一些可能的实现例中包括红外、

在该示例实现例中,诸如监视器、液晶显示设备、投影仪或触敏显示设备之类的显示设备938也经由诸如视频适配器940之类的接口连接至系统总线906。除了显示设备938之外,计算设备900可以包括各种其他外围设备(未示出),诸如扬声器或打印机。

计算设备900可以通过网络接口942连接到一个或多个网络。网络接口942可以提供有线和/或无线通信。在一些实现方式中,网络接口942可以包括一个或多个用于发送和/或接收无线信号的天线。当在局域网环境或广域网环境(诸如因特网)中使用时,网络接口942可以包括以太网接口。其他可能的实现例使用其他通信设备。例如,计算设备900的一些实现例包括用于通过网络进行通信的调制解调器。

计算设备900可以包括至少一些形式的计算机可读介质。计算机可读介质包括计算设备900可以访问的任何可用介质。作为示例,计算机可读介质包括计算机可读存储介质和计算机可读通信介质。

计算机可读存储介质包括在配置成存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何设备中实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质包括但不限于随机存取存储器、只读存储器、电可擦除可编程只读存储器、闪存或其他存储器技术、光盘只读存储器、数字多功能盘或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备,或可用于存储所需信息并可由计算设备900访问的任何其他介质。

计算机可读通信介质通常在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据,并且包括任何信息传递介质。术语“调制数据信号”指代具有以将信息编码为信号的方式来设置或改变其的一个或多个特性的信号。举例来说,计算机可读通信介质包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、射频、红外和其他无线介质之类的无线介质。上述的任何组合也包括在计算机可读介质的范围内。

图9中所图示的计算设备还是可编程电子设备的示例,其可以包括一个或多个这样的计算设备,并且当包括多个计算设备时,这样的计算设备可以与合适的数据通信网络耦合在一起,以共同执行此处公开的各种功能、方法、或操作。

已经描述了多个实现例。然而,将理解的是,在不脱离本发明的精神和范围的情况下可以做出各种修改。

另外,附图中描绘的逻辑流程不需要所示的特定顺序或相继次序来实现期望的结果。另外,可以从所描述的流程中提供其他步骤,或者可以除去步骤,并且可以向所描述的系统添加其他组件或从所描述的系统中去除其他组件。因此,其他实现例在所附权利要求的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号