首页> 中国专利> 梯度频率非线性振荡器网络中的学习和听觉场景分析

梯度频率非线性振荡器网络中的学习和听觉场景分析

摘要

一种用于学习神经网络中的非线性振荡器之间的连接的方法包括:提供多个非线性振荡器,响应于输入,每个非线性振荡器产生不同于其他振荡器的振荡;以及检测所述多个非线性振荡器中的至少第一振荡器处的输入。检测所述多个非线性振荡器中的至少第二振荡器处的输入,对一时间点处的所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡进行比较,以及确定所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间是否存在相关性。根据所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振荡之间的所述相关性来改变所述至少第一振荡器和所述至少第二振荡器之间的连接的振幅和相位中的至少一个。

著录项

  • 公开/公告号CN102934158A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利号CN201180011181.2

  • 发明设计人 爱德华·W·拉奇;

    申请日2011-01-28

  • 分类号G10L10/08;

  • 代理机构北京派特恩知识产权代理事务所(普通合伙);

  • 代理人张颖玲

  • 地址 美国佛罗里达州

  • 入库时间 2024-02-19 18:28:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-03-22

    未缴年费专利权终止 IPC(主分类):G10L25/30 授权公告日:20150520 终止日期:20160128 申请日:20110128

    专利权的终止

  • 2015-05-20

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G10L10/08 申请日:20110128

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

根据空军科学研究办公室和循环逻辑有限责任公司(Circular Logic,LLC) 之间的合约No.FA9550-07-C0095以及空军科学研究办公室和循环逻辑有限责 任公司之间的合约No.FA9550-07-C0017,美国政府享有本申请的权利。

相关申请的交叉引用

本申请要求享有2010年1月29日提交的美国临时专利申请No.61/299,768 的优先权,该临时申请以全文引用的方式并入本文。

技术领域

本申请通常涉及音频信号输入的感知和识别,更具体地,涉及一种用于以 更接近地模拟人耳和大脑的操作的方式提供结构化信号的非线性频率分析的信 号处理方法和装置。

背景技术

根据授权给Edward W.Large(Large)的美国专利No.7,376,562,利用非线 性振荡器阵列处理输入语音信号在现有技术中是已知的。

人耳已经被建模成调谐到多个不同频率的振荡器。根据解释声音输入的需 要,人脑通过连接振荡器对来对来自这些振荡器的信号进行处理。世界上自然 存在的音频声音是复杂的信号,因此,发达的人耳是利用振荡器之间的这些连 接的复杂处理器。事实上,振荡器之间的连接是不断变化的并且连接模式是对 反复输入的学习的反应。这导致触突前细胞和触突后细胞之间的触突效率的提 高。从现有建模技术还知道,两个振荡器之间的连接具有强度(振幅)和固有 相位(natural phase)。

从Large通常了解到利用非线性振荡器网络来对信号进行处理。非线性共 振提供了在线性共振中无法观察到的各种行为(例如,神经振荡)。此外,事实 上,振荡器能够被连成复杂的网络。图1示出了用于对声信号进行处理的典型 架构。它由一维阵列的非线性振荡器(称为梯度(gradient)频率非线性振荡器 网络(GFNNs))组成。在图1中,GFNNs被布置成处理层,以模拟层1(输 入层)处的耳蜗(102)、层2处的背侧耳蜗核(DCN)(104)以及层3处的下 丘(ICC)(106)进行的听觉处理。从生理学的角度来看,非线性共振模拟耳 蜗内的外毛细胞以及在DCN和ICC上的锁相神经响应。从信号处理的角度来 看,由多个GFNN层进行处理不是多余的;由于非线性的缘故,信息在每一层 处都增加。

更具体地,如图2所示,示例的非线性振荡器系统由包括非线性振荡器 4051、4052、4053、...、405N的网络402组成。输入激励层401可以通过一组激 励连接403将输入信号传输到网络402。就这一点而言,输入激励层401可以 包括一个或多个输入通道(channels)4061、4062、4063、...、406C。输入通道 可以包括多频率输入的单通道、多频率输入的两个或多个通道、或单频率输入 的多通道,如通过事先频率分析来提供。事先频率分析可包括线性方法(傅里 叶变换、小波变换、或线性滤波器组、现有技术中已知的方法)或者另一非线 性网络,例如相同类型的另一网络。

假设如图2中所示的C输入通道,那么在t时刻,通道406C上的激励表示 为xC(t),并且对于特定的共振,激励连接403的矩阵可以作为从输入通道406C到振荡器405N的连接的强度来进行分析,正如从Large所了解到的。尤其,可 以对连接矩阵进行选择,以使得这些激励连接中的一个或多个的强度等于零。

再次参见图2,内部网络连接404确定网络402中每个振荡器405N如何连 接到另一个振荡器405N。根据Large可知,这些内部连接可被表示为复值参数 的矩阵,每个复值参数描述了对于特定共振从一个振荡器405M到另一个振荡器 405N的连接的强度,正如下面所解释的。

从Large可以知道,可以执行由非线性振荡器网络进行的信号处理,以概 括地模拟耳朵响应。这类似于通过线性滤波器组来进行的信号处理,但是重要 的区别是,处理单元是非线性的,而不是线性振荡器。在这部分中,该方法通 过将其与线性时频分析进行比较来说明。

常见的信号处理操作是对复杂输入信号进行频率分解,例如通过傅里叶变 换。通常,该操作是通过对输入信号x(t)进行处理的一组线性带通滤波器来实 现的。例如,广泛使用的耳蜗的模型是gammatone滤波器组(Patterson等,1992)。 为了与我们的模型相比较,泛化形式(generalization)可以写成微分方程

z·=z(α+)+x(t)---(1)

其中,上点(overdot)表示相对于时间的微分(例如,dz/dt),z是复值状态变 量,ω是角频率(ω=2πf,f以Hz为单位),α<0为线性阻尼参数。项x(t)表示 由时变外部信号的线性强制(linear forcing)。因为z在每个时间t处都是复数, 因此其可重写成极坐标形式,以振幅r和相位φ来揭示系统行为。线性系统中 的共振是指该系统在激励频率下进行振荡,振幅和相位是系统参数确定的。当 激励频率ω0接近振荡器频率ω时,振荡器振幅r增加,以提供带通滤波行为。

最近,耳蜗的非线性模型已经被提,以对外毛细胞的非线性响应进行模拟。 值得注意的是,外毛细胞被认为是负责耳蜗对柔和声音的极度敏感、良好的频 率选择性和振幅压缩(例如,Egulluz,Ospeck,Choe,Hudspeth,& Magnasco, 2000)。解释这些特性的非线性共振模型已经以针对非线性振动的霍普夫标准型 (Hopf normal form)为基础,并且是通用的。标准型(截取式)模型具有形式

z·=z(α++β|z|2)+s(t)+h.o.t.---(2)

注意这种形式和等式1的线性振荡器之间的表面相似性。再次,ω是角频 率,并且α仍然为线性阻尼参数。然而在该非线性公式中,α变成了分岔参数 (bifurcation parameter),其可假设为正值或负值以及α=0。值α=0被称为分岔 点。β<0为非线性阻尼参数,其在α>0时阻止振幅放大(blow up)。再次,x(t) 是指由外部信号的线性强制。项h.o.t.是指非线性展开式的高阶项,在标准型模 型中,这些高阶项被截去(即,忽略)。类似于线性振荡器,非线性振荡器随着 听觉激励的频率开始共振;结果,它们提供了一种滤波行为,其中它们最大程 度地响应于接近它们自己的频率的激励。然而,重要的不同点在于,非线性模 型解决了线性模型没有解决的行为,例如对微弱信号的极度敏感性、振幅压缩 和较高的频率选择性。压缩的gammachirp滤波器组表现出类似于等式2的非线 性行为,但是明确地表达在信号处理框架(Irino & Patterson,2006)中。

Large教导对等式2的高阶项进行扩展以实现不同频率的振荡器之间的耦 合。这实现了非线性振荡器的梯度频率网络的有效计算,代表该项技术的根本 改善。从发明人的同时待审的申请No._____可知,标准模型(等式3)与标 准型(等式2;参见例如Hoppensteadt & Izhikevich,1997)有关,但是它的特性 超越Hopf标准型的特性,因为基本的、更为现实可行的振荡器模型被充分展开, 而不是被截取。高阶项的完全扩展(complete expansion)产生如下形式的模型:

等式3描述了n个非线性振荡器的网络。其与之前的模型存在表面相似性。 参数ω、α和β1对应截取模型的参数。β2为额外的振幅压缩参数,c代表与外 部激励的耦合的强度。两个频率失谐参数δ1和δ2是新出现在这个公式中的,并 且使谐振器频率依赖于振幅(参见图3C)。参数ε控制该系统中非线性的量。 更重要的是,与激励的耦合是非线性的并且具有无源部分和有源部分 从而产生非线性共振。

上面的等式3通常是根据时变输入信号x(t)来阐述的。这里,x(t)可以是输 入音频源信号,或者其可以是来自同一网络的其他振荡器或其他网络的振荡器 的输入。后者的几种实例示于图1中,标记为“内部耦合”、“传入耦合”和“传 出耦合”。在这些实例中,x(t)由连接值的矩阵与振荡器状态变量的乘积产生, 代表梯度频率神经网络。等式3考虑了这些不同的输入,但为了便于解释,包 括单个泛型(single generic)输入源x(t)。该系统(特别是非线性耦合表达式的 构造)在同时待审的专利申请_____中进行了详细描述。

与现有技术的线性模型相比,针对非线性振荡器网络的Large方法和系统 更好地模拟耳朵响应于复杂语音信号的复杂性。然而,Large方法和系统仍有缺 点,不同于听觉系统,Large方法和系统无法学习振荡器对之间的连接,相反, 必须提前知道有关输入音频信号的信息以确定振荡器之间的哪些连接是最重要 的。如图1所示,Large实现了梯度频率非线性振荡器网络内和之间的振荡器的 连接成。然而,它需要手动设计连接以提供所需的网络行为。简言之,就其连 接模式而言,Large系统是静态的,而不是动态的。

发明内容

提供了一种方法,经由这种方法,不同振荡器阵列的非线性振荡器之内以 及不同振荡器阵列的非线性振荡器之间的连接通过被动暴露(passive exposure) 于音频信号输入下得以学习。提供了多个振荡器,响应于输入,每个非线性振 荡器产生不同于其他振荡器的振荡。每个振荡器能够连接到至少一个其他振荡 器。检测到至少第一振荡器处的输入。检测到至少第二振荡器处的输入。对一 个时间点处的所述至少第一振荡器的所述振荡和所述至少第二振荡器的所述振 荡进行比较。如果所述至少第一振荡器的所述振荡和所述至少第二振荡器的所 述振荡之间存在相关性,那么增大所述至少第一振荡器和所述至少第二振荡器 之间的连接的振幅并且调节相位以反映所述至少第一振荡器和所述第二振荡器 之间的当前相位关系。如果所述至少第一振荡器的所述振荡和所述至少第二振 荡器的所述振荡之间不存在相关性,那么减小所述至少第一振荡器和所述至少 第二振荡器之间的所述连接的所述振幅并且可以对相位进行调节。

附图说明

根据说明书和附图,本申请的其他目的、特征和优势是将变得明显,其中:

图1是示出了非线性神经网络的基本结构的示图;

图1A是针对非线性振荡器的模拟神经振荡器响应的示意图;

图2是示出了根据本申请的非线性神经网络的基本结构以及它与输入信号 的关系的另一示意图;

图3A和图3B是根据本申请的复音和振荡器网络的响应的图示;

图4A至图4D为根据本申请的学习过程的输出的图示;以及

图5为根据本申请的用于操作非线性振荡器网络的学习算法的流程图。

具体实施方式

本申请提供了一种方法,经由这种方法,通过暴露在信号下,可以自动地 学习一个网络的振荡器之间以及不同网络之间的振荡器之间的连接。

在大脑中,神经元之间的连接可通过Hebbian学习(Hoppensteadt & Izhikevich,1996b)来进行修改,以提供突触可塑性的机制,其中,触突前神经 元的反复和持久的共同激活(co-activation)导致它们之间的触突效力增大。神 经系统中学习的先前分析揭示了两个振荡器之间的连接具有强度和固有相位 (Hoppensteadt & Izhikevich,1996a,1997)。Hebbian学习规则已经被提议用于神 经振荡器并且已经相当详细地研究了单频率实例。如果在它们的固有频率之间 存在近共振(near-resonant)关系,那么可以通过Hebbian机制来学习连接强度 和相位(Hoppensteadt & Izhikevich,1996b)。但是,当前的算法仅学习其固有频 率比接近1∶1的振荡器之间的连接。对于1∶1的情况,Hebbian学习规则的标准 版本可以被写成(Hoppensteadt & Izhikevich,1996b):

c·ij=-δcij+kijzizj---(4)

其中,cij为复数,表示在某时间点处任意两个非线性振荡器之间的连接的 振幅和相位,并且δij和kij为表示所述连接变化速度的参数。从上面可知变量zi 和zj为通过cij所连接的两个振荡器的复值状态变量。

通过这个实施例中的示例的方式,以上模型可以学习具有频率比接近1∶1 的两个振荡器的振幅(强度)与相位信息。对于在本申请中不同频率的振荡器 通信,有必要规定一种用于学习不同频率的振荡器之间的连接的方法。

本申请描述了能够学习不同频率的振荡器之间的连接的Hebbian学习机制。 学习算法的修改提供了能够实现听觉场景分析(auditory scene analysis)的多频 率相位相关性测量。

多频率网络表现出高阶共振,我们的算法基于这些高阶共振。下面的学习 规则实现了我们的标准网络中高阶共振关系的学习:

c·ij=-δijcij+kij(zi+zi2+zi3+...)·(zj+zj2+zj3+...)---(5)

其中,无穷级数可被累加以得出

c·ij=-δijcij+kijzi1-zi·zj1-zj---(6)

为了阐述该学习算法的行为,生成包括两个复合的、稳态的音调(tones) 所组成的激励,如图3A中所示。音调1是由频率500、1000、1500、2000和 2500Hz组成的和声复合体(harmonic complex)。作为非限定性的示例,音调2 是由频率600、1200、1800、2400和3000Hz组成的和声复合体。非线性振荡 器的三层网络处理声音混合体(sound mixture)。振荡器网络的层1和层2工作 在临界参数区(critical parameter regime)(即,α=0),层3工作在活动(active) 参数区(即,α>0)。对于层1,参数β1被设置为β1=-100,对于层2,β1=-10, 对于层3,β1=-1。通过非限制示例的方式,其他参数根据控制为β1=-1,δ1=δ2=0, ε=1。层3网络对该激励的响应(振荡器振幅,|z|,作为时间的函数)如图3B 中所示。

现在参见图5,图中提供了学习方法的流程图。在第一步骤502中,提供 多个非线性振荡器(在网络400中以示例的方式示出),每一个振荡器产生不同 于其他振荡器的振荡。每个振荡器4051-406c能够在它自己的层401、402或下 一最高位的相邻层中与任何其他振荡器形成连接。但是,为了说明的简单,这 里使用的网络仅对应振荡器的单个线性阵列,例如层102或402。

在步骤504中,在多个非线性振荡器402中的至少一个振荡器405M处检测 到使得在振荡器405M处产生振荡的输入。在步骤506中,以引起第二振荡器 405N的振荡的多个振荡器402为例,在第二振荡器405N处检测到输入。应当明 白的是,输入和/或振荡的值可以为零或可以为各自振荡器的固有振荡频率。在 步骤508中,振荡器405M的振荡在某时间点与第二振荡器405N的振荡相比较。 该比较可以为振荡器频率的比较。在步骤510中,确定振荡器405M的振荡与第 二振荡器405N的振荡是否是相关的。

如果所述振荡是相关的,那么在步骤512中,增大至少一个振荡器和第二 振荡器之间的连接的振幅,并且调节相位以反映两个振荡器405M和405N之间 的当前相位关系。如果在步骤510中确定振荡器405M和振荡器405N是不相关 的,那么所述连接的振幅减小,迫使连接朝向零并且可以对相位进行调节。在 步骤516,重复该过程,并且只要存在对系统400的输入就返回步骤504。

上文结合图5所讨论的学习算法是异步实施的(即,网络已经运行之后), 以非限制性示例的方式处理由PCN振荡器阵列所产生的网络神经层输出的最 后10ms。学习的结果示于图4中。面板(Panel)A示出了在最后10ms求平均 得到的振荡器网络的振幅响应。逆时针读取,面板B和面板C示出了连接矩阵 的振幅和相位。在振幅矩阵(面板B)中,对应于500Hz和600Hz振荡器的行 中的峰值是不同的。这些峰值鉴别这些振荡器,这些振荡器的行动(activity) 在有关的时间尺度(time scale)上与感兴趣的振荡器(500Hz和600Hz)是相 位相关的。面板D关注于振幅矩阵(面板B)的两行,振幅矩阵示出了作为频 率的函数的振幅。与500Hz的振荡器(它们具有接近于500、1000、1500、2000 和2500的频率)相关联的振荡器不同于与600Hz的振荡器(它们具有接近于 600、1200、1800、2400和3000的频率)相关联的振荡器。面板D的顶部和底 部揭示了两个不同的源(音调1和音调2)的分量。因此,即使当两个不同的 源是同时出现,该学习方法也能产生适当的结果。

听觉场景分析是人脑通过其将声音组织成感知的有意义的元素这样一个过 程。听觉场景分析可以基于与该学习算法根本上相同的算法,但在不同的时间 尺度上操作。该学习算法操作较慢,在小时、天甚至更长的时间尺度上调节振 荡器之间的连通性。听觉场景分析算法操作较快,在几十毫秒至几秒的时间尺 度上操作。时间尺度是通过调节等式5和等式6的参数δij和kij来调节的。

图4还可以被解释成听觉场景分析过程的结果。如之前,面板A示出了在 最后12.5ms求平均得到的振荡器网络的振幅响应。但是在该解释下,面板B 和面板C示出了听觉场景分析矩阵的振幅和相位。在振幅矩阵(面板B)中, 对应于500Hz和600Hz振荡器的行中的峰值是不同的。这些峰值鉴别这些振荡 器,这些振荡器的行动在有关的时间尺度上与感兴趣的振荡器(500Hz和600Hz) 是相位相关的。面板D关注于振幅矩阵(面板B)的两行,振幅矩阵示出了作 为频率的函数的振幅。与500Hz的振荡器(它们具有接近于500、1000、1500、 2000和2500的频率)相关联的振荡器不同于与600Hz的振荡器(它们具有接 近于600、1200、1800、2400和3000的频率)相关联的振荡器。面板D揭示 了两个不同的源(音调1(黑色)和音调2(灰色))的分量。因此,这种通过 检测多频率相关性来计算听觉场景分析矩阵的方法将频率分量分离成不同的 源。该方法能够根据源来分离声音分量,并且能够识别声音分量的相关模式。

通过提供如以上所述运转的非线性振荡器网络,以更接近地模拟人耳和大 脑的操作的方式来进行信号分析是可能的。应当明白的是,本领域技术人员可 对本申请所描述的优选实施例进行修改、变化和改变。因此,上述描述和附图 中所示的所有方式都应被解释为示例性的,而不是限制性的。因此,本申请的 范围由所附权利要求来确定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号