首页> 中国专利> 神经元装置、神经网络装置、反馈控制装置及信息存储介质

神经元装置、神经网络装置、反馈控制装置及信息存储介质

摘要

为了在神经网络中可改变神经元的阈值,扩展赫布规则,进行适当的控制,在模拟神经细胞的神经元装置(101)中,阈值存储单元(102)存储阈值变量θ和两个阈值系数Δθ1、Δθ2;输入接受单元(103)按规定的时间间隔,接受一个或多个输入信号值的输入;输出单元(104),如果输入信号值的总和s为阈值变量θ的值以上,则当成神经元装置(101)在点火而输出“1”作为输出信号值X,如果不是这样,则当成神经元装置(101)在休息而输出“0”作为输出信号值X;阈值更新单元(105)根据输出信号值X和阈值系数Δθ1、Δθ2,计算Δθ1X+Δθ2(X-1),从而更新阈值存储单元(102)所存储的阈值变量θ的值,以使其增加相当于该计算结果的量。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-06-19

    授权

    授权

  • 2010-11-10

    实质审查的生效 IPC(主分类):G06N3/08 申请日:20080930

    实质审查的生效

  • 2010-08-18

    公开

    公开

说明书

技术领域

本发明涉及通过在神经网络中可改变神经元的阈值,扩展赫布规则(Hebbian rule),筹划整数表达,从而适于进行适当控制的神经元装置、神经网络装置、非负整数编码装置、整数簇(cluster)装置、反馈控制装置,以及存储了由计算机实现这些装置的程序的计算机可读取的信息存储介质。

背景技术

以往,提出了以下技术:通过将神经细胞的活动转化成简单的数学模型,以假想的“神经元”为控制单位,用附加权值方式组合神经元之间的输出和输入,并改变其权值,从而进行学习,利用神经网络进行控制。例如,有关此类技术,被公开在后面提到的非专利文献1中。

这里,在非专利文献1中,提出利用突发模型(bursting model),以神经细胞模型的自主性活动的学习方式,学习搬运物体的动作的技术。

非专利文献1:下田真吾,旭岳史,藤本英雄,木村英紀《複合制御論におけるロボツト制御》第11回ロボテイクスシンポジア,2006年

发明内容

发明要解决的课题

但是,不限于非专利文献1中公开的技术,关于应该设定什么样的神经元模型,目前尚处于比较、讨论的阶段,迫切需要有关利用了新模型的神经网络结构的技术。

本发明为了解决以上课题而完成,其目的在于:通过在神经网络中可改变神经元的阈值,扩展赫布规则,筹划整数表达,从而提供适合进行适当控制的神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装置,以及存储了由计算机实现这些装置的程序的计算机可读取的信息存储介质。

用于解决课题的方案

本发明的第1观点的神经元装置,模拟神经细胞,具有阈值存储单元、输入接受单元、输出单元、阈值更新单元,如下那样构成。

即,阈值存储单元,存储阈值变量θ和两个阈值系数Δθ1、Δθ2。

另一方面,输入接受单元按规定的时间间隔,接受一个或多个输入信号值的输入。

还有,输出单元,如果接受了输入的输入信号值的总和s在存储的阈值变量θ的值以上,则当成该神经元装置在点火(firing)而输出“1”作为输出信号值,如果不是这样,则当成该神经元装置在休息而输出“0”作为输出信号值。

而且,阈值更新单元根据输出的输出信号值X和存储的阈值系数Δθ1、Δθ2,计算

Δθ1X+Δθ2(X-1)

,更新阈值存储单元所存储的阈值变量θ的值,以使其增加相当于该计算结果的量。

本发明的另一观点的神经网络装置具有权值存储单元、两个上述神经元装置(以下,将其中一个称为“输入侧神经元装置”,将另一个称为“输出侧神经元装置”)、仲裁(mediation)输入接受单元、权值更新单元,如下那样构成。

即,权值存储单元存储权值w和两个权值系数Δw1、Δw2。

另外,仲裁输入接受单元,在输入侧神经元装置和输出侧神经元装置接受输入信号值的输入和输出输出信号值的时间间隔中,接受仲裁信号值的输入。

进而,输入侧神经元装置的输出信号值u乘以了存储的权值w所得的值wu被提供给输出侧神经元装置作为输入信号值。

然后,权值更新单元根据输入侧神经元装置输出的输出信号值u、输出侧神经元装置输出的输出信号值x、接受的仲裁信号值z、以及存储的权值系数Δw1、Δw2,计算

Δw1xuz+Δw2(xuz-1)

,更新权值存储单元存储的权值w的值,以使其增加相当于该计算结果的量。

本发明的另一观点的非负整数编码装置具有上述N个神经元装置、非负实数接受单元、以及非负整数输出单元,如下构成。

即,非负实数接受单元,在N个神经元装置接受输入信号值的输入,将输出信号值输出的时间间隔中,接受一个或多个非负实数信号值的输入,将该非负实数信号值的总和u提供给N个神经元装置,作为输入信号值。

另外,非负整数输出单元,输出由N个神经元装置输出的输出信号值的总和作为非负整数信号值。

而且,N个神经元装置,将1,2,...,N作为该阈值变量θ的初始值,分别存储在该阈值存储单元中,在N个神经元装置的各自中,将0作为该阈值系数Δθ1、Δθ2的值存储在该阈值存储单元中。

本发明的整数簇装置,具有上述两个非负整数编码装置(以下,将其中一个称为“正侧编码装置”,将另一个称为“负侧编码装置”)、实数接受单元、正侧神经网络、负侧神经网络、整数运算输出单元,如下那样构成。

即,在实数接受单元,在两个非负整数编码装置接受非负实数信号值的输入,输出非负整数信号值的时间间隔中,接受一个或多个实数信号值的输入,该实数信号值的总和v

(a)如果不为负,则将实数值v提供给正侧编码装置作为非负实数信号值,将“0”提供给负侧编码装置作为非负实数信号值,

(b)如果为负,则将“0”提供给正侧编码装置作为非负实数信号值,将实数值-v提供给负侧编码装置作为非负实数信号值。

而且,正侧神经网络,被提供从正侧编码装置输出的非负整数信号值作为输入,进行对该非负整数的运算。

进而,负侧神经网络,被提供从负侧编码装置输出的非负整数信号值作为输入,具有与正侧神经网络相同的网路(circuitry)结构。

另一方面,整数运算输出单元,输出从正侧神经网络输出的信号值中减去从负侧神经网络输出的信号值所得的值,作为整数运算结果信号。

此外,本发明的反馈控制装置,具有控制输入接受单元、正侧反馈装置、负侧反馈装置、操作输出单元,如下那样构成。

即,控制输入接受单元接受控制对象位移的目标值、该位移的观测值及该位移的微分观测值的输入。

另外,该正侧反馈装置和负侧反馈装置均具有:

(a)所述非负整数编码装置A1;

(b)所述非负整数编码装置A2;

(c)所述非负整数编码装置A3;

(d)存储权值p、k1、k2、v1、v2和权值系数Δq1、Δq2的控制存储单元;

(e)所述非负整数编码装置B1,被提供将存储的权值p乘以了从非负整数编码装置A1输出的非负整数信号值u所得的信号值pu,作为实数信号值的输入;

(f)所述非负整数编码装置B2,被提供将存储的权值k1乘以了从非负整数编码装置A1输出的非负整数信号值所得的信号值,以及将存储的权值k2乘以了从非负整数编码装置A2输出的非负整数信号值所得的信号值,作为实数信号值的输入;

(g)所述非负整数编码装置C,被提供将存储的权值v1乘以了从非负整数编码装置B1输出的非负整数信号值所得的信号值,以及将存储的权值v2乘以了从非负整数编码装置B2输出的非负整数信号值所得的信号值,作为实数信号值的输入;

(h)单侧操作输出单元,输出从非负整数编码装置C输出的非负整数信号值x作为操作值;以及

(j)控制更新单元,根据从非负整数编码装置A1输出的非负整数信号值u,以及从非负整数编码装置C输出的非负整数信号值x,计算

Δq1x2u+Δq2(x2u-1)

,并更新控制存储单元所存储的权值p,以使其增加相当于该计算结果的量。

而且,控制输入接受单元

(1)如果控制对象的位移目标值不为负,则将该值提供给该正侧反馈装置的非负整数编码装置A1作为实数信号值的输入,将“0”提供给该负侧反馈装置的非负整数编码装置A1作为实数信号值的输入,

(2)如果控制对象的位移目标值为负,则将“0”提供给该正侧反馈装置的非负整数编码装置A1作为实数信号值的输入,将该值提供给该负侧反馈装置的非负整数编码装置A1作为实数信号值的输入,

(3)如果控制对象的位移观测值不为负,则将该值提供给该正侧反馈装置的非负整数编码装置A2作为实数信号值的输入,将“0”提供给该负侧反馈装置的非负整数编码装置A2作为实数信号值的输入,

(4)如果控制对象的位移观测值为负,则将“0”提供给该正侧反馈装置的非负整数编码装置A2作为实数信号值的输入,将该值提供给该负侧反馈装置的非负整数编码装置A2作为实数信号值的输入,

(5)如果控制对象的位移微分观测值不为负,则将该值提供给该正侧反馈装置的非负整数编码装置A3作为实数信号值的输入,将“0”提供给该负侧反馈装置的非负整数编码装置A3作为实数信号值的输入,

(6)如果控制对象的位移微分观测值为负,则将“0”提供给该正侧反馈装置的非负整数编码装置A3作为实数信号值的输入,将该值提供给该负侧反馈装置的非负整数编码装置A3作为实数信号值的输入。

而且,操作输出单元,将从该正侧反馈装置输出的操作值中减去从该负侧反馈装置(704)输出的操作值所得的值提供给控制对象作为操作输出。

此外,本发明的反馈控制装置可以如下构成:在各自的非负整数编码装置B1、B2、C中,作为该两个阈值系数Δθ1、Δθ2,取代存储“0”,而存储满足

Δθ1>0>Δθ2,且

|Δθ1|>|Δθ2|

关系的常数值。

此外,在本发明的反馈装置中,该观测对象有K种目标状态,在该K种目标状态的各个状态中,对应关联目标值,还具有K个所述神经元装置,可以如下那样构成。

即,在K个神经元装置和正侧反馈装置及负侧反馈装置的组合中,观测对象的目标状态为第i目标状态时,第i神经元装置被提供正的输入信号值,除此之外的神经元装置被提供“0”的输入信号值。

而且,对于K个神经元装置的各自来说,具有:

(1)切换权值存储单元,存储对该神经元装置(101)的切换权值r1、r2、r3、r4和切换权值系数Δs1、Δs2;

(2)所述非负整数编码装置D1,被提供将存储的权值r1乘以了从该神经元装置输出的输出信号值y所得的信号值,作为实数信号值的输入;以及

(3)所述非负整数编码装置D2,被提供将存储的权值r2乘以了从该神经元装置输出的输出信号值y所得的信号值,作为实数信号值的输入,

(4)对非负整数编码装置C还提供将存储的权值r3乘以了从该非负整数编码装置D1输出的非负整数信号值所得的信号值,以及将存储的权值r4乘以了从该非负整数编码装置D2输出的非负整数信号值所得到的信号值,作为实数信号值的输入,

(5)还具有切换控制更新单元,根据从该神经元装置输出的输出信号值y和从非负整数编码装置C输出的非负整数信号值x,计算

Δs1x2y+Δs2(x2y-1)

,并更新控制存储单元所存储的权值r1,以使其增加相当于该计算结果的量。

即,如果状态有K个,则权值r1、r2、r3、r4、Δs1、Δs2的组(set)也准备K个,单独地被更新。

此外,本发明的反馈控制装置可以如下构成:在各自的所述非负整数编码装置B1、B2、C中,作为该两个阈值系数Δθ1、Δθ2,取代存储“0”,而存储满足

Δθ1>0>Δθ2

关系的常数值。

此外,本发明的反馈控制装置可以如下构成:在各自的非负整数编码装置D1,D2中,作为该两个阈值系数Δθ1、Δθ2,取代存储“0”,而存储满足

Δθ1>0>Δθ2,且

|Δθ1|>|Δθ2|

关系的常数值。

本发明其他观点的程序构成为:使计算机具有上述神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装置的功能。

此外,本发明的程序,可以存储在光盘、软盘、硬盘、磁光盘、DVD、磁带、半导体存储器等计算机可读取的信息存储介质中。

上述程序可以独立于执行程序的计算机和数字信号处理器,通过计算机通信网络发布、销售。另外,上述信息存储介质可以独立于计算机和数字信号处理器来发布、销售。

发明效果

依据本发明,通过在神经网络中可改变神经元的阈值,扩展赫布规则,筹划整数表达,可以提供适于进行适当控制的神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装置,以及存储了由计算机实现这些装置的程序的计算机可读取的信息存储介质。

附图说明

图1是表示神经元装置的概要结构的示意图。

图2是表示神经网络装置的概要结构的示意图。

图3A是表示利用扩展赫布规则的神经元组合情况的说明图。

图3B是表示利用扩展赫布规则的神经元组合情况的说明图。

图4是表示非负整数编码装置的概要结构的示意图。

图5A是表示包含非负整数编码装置的一般神经元的簇组合情况的示意图。

图5B是表示包含非负整数编码装置的一般神经元的簇组合情况的示意图。

图6是表示整数簇装置的概要结构的示意图。

图7是表示反馈控制装置的概要结构的示意图。

图8是表示本实施方式的反馈控制装置应用于伺服电机的控制时的学习仿真结果的曲线图。

图9是表示控制对象的操纵器的概要结构的示意图。

图10A是表示承载了不同的载荷的操纵器姿态的说明图。

图10B是表示承载了不同的载荷的操纵器姿态的说明图。

图11是表示采用表示目标状态是第几个的信号的反馈控制装置的概要结构的示意图。

图12是表示仿真中目标值的提供方法的曲线图。

图13是表示通过图12所示目标值进行了学习的实验结果的曲线图。

图14是表示提供了不同重量的载荷时的姿态的收敛值的曲线图。

标号说明

101神经元装置

102阈值存储单元

103输入接受单元

104输出单元

105阈值更新单元

201神经网络装置

202权值存储单元

203仲裁输入接受单元

204权值更新单元

401非负整数编码装置

402非负实数接受单元

403非负整数输出单元

501簇

601整数簇装置

602实数接受单元

603正侧神经网络

604负侧神经网络

701反馈控制装置

702控制输入接受单元

703正侧反馈装置

704负侧反馈装置

705操作输出单元

801操纵器

811关节

812关节

821载荷

822载荷

具体实施方式

以下说明本发明的实施方式。再有,以下说明的实施方式是用于说明的,而不是限制本发明范围的。因此,如果是本领域技术人员,则可以采用将这些各个要素或全部要素置换成与其均等要素的实施方式,但这些实施方式也包含在本发明的范围内。

特别地,以下实施方式所说明的神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装置,典型地为:都使计算机执行规定的程序,CPU(Central Processing Unit)进行处理的控制和各种计算,利用RAM(Random Access Memory)作为进行各种存储的区域。

但是,基本结构要素所执行的计算主要是限于四则运算和简单的比较,所以可以用很简单的电路构成,可将该电路作为电子元件来实现,也可以应用FPGA(Field Programmable Gate Array;现场可编程门阵列)、DSP(DigitalSignal Processor;数字信号处理器)、ASIC(Application Specific IntegratedCircuit;专用集成电路)等技术来实现。

实施例1

以下,按神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装置的顺序,说明其细节。

(神经元装置)

图1是表示本实施方式的神经元装置概要结构的示意图,以下参照本图进行说明。

神经元装置101是模拟神经细胞的装置,包含有阈值存储单元102、输入接受单元103、输出单元104、阈值更新单元105。

阈值存储单元102存储阈值变量θ和两个阈值系数Δθ1、Δθ2。以下,为了便于理解,在表示某时间点t的变量θ的值时,用θ(t)来标记。阈值存储单元102所存储的是变量θ的最新值。

另外,两个阈值系数Δθ1、Δθ2是用户可以适当调整的常数,但典型的方式是满足以下两组关系中的任意一个。但是,不局限于此。

(1)Δθ1>0>Δθ2

(2)Δθ1=Δθ2=0

输入接受单元103在规定的时间间隔接受一个或多个输入信号值的输入。由于按规定的时间间隔接受,所以时刻可用整数来表示。因此,时刻t的N个输入信号值用s1(t),...,sN(t)来表示。

输出单元104,如果接受了输入的输入信号值的总和s在存储的阈值变量θ的值以上,则当成该神经元装置101在点火而输出“1”作为输出信号值,如果不是这样,则当成该神经元装置101在休息而输出“0”作为输出信号值。

输入信号值的总和s在时刻t的值s(t)可以按

s(t)=∑i=1Nsi(t)

来表现。输入信号值一般取非负实数值,但不限于此。

时刻t的输出信号值X(t),根据

sgm(z)=1(z>0);

sgm(z)=1(z=0);

sgm(z)=0(z<0)

所定义的Sigmoid函数sgm(z),可以按

X(t)=sgm(s(t)-θ(t))

来表示。

于是,阈值更新单元105,根据输出的输出信号值X和存储的阈值系数Δθ1、Δθ2,计算

Δθ1X+Δθ2(X-1)

,更新阈值存储单元102所存储的阈值变量θ的值,以使其增加相当于该计算结果的量。

即,时刻t+1的θ的值θ(t+1),可以用时刻t的θ的值的θ(t)的值,按

θ(t+1)=θ(t)+Δθ1X(t)+Δθ2(X(t)-1)

来表示。

该神经元装置101也称为可变阈值神经元(Variable Threshold Neuron;VTN)。VTN可取两个状态。X(t)为“1”时,VTN为点火状态,X(t)为“0”时,VTN为休息状态。

阈值θ(t)因阈值系数Δθ1,Δθ2而变化。在VTN 101点火时,阈值θ仅增加Δθ1,在VTN 101休息时,阈值θ仅增加Δθ2。

如上所述,在

Δθ1>0>Δθ2

的关系式成立时,点火状态持续时,阈值θ上升而难以点火,休息状态持续时,阈值θ下降而容易点火。而且

|Δθ1|>|Δθ2|

较多。

此外,在

Δθ1=Δθ2=0

的情况下,阈值是固定的。

(神经网络装置)

图2是表示本实施方式的神经网络装置概要结构的示意图,以下参照本图进行说明。

本图所示神经网络装置201,是作为神经网络中加权更新技术而扩展了公知的赫布规则的装置。

神经网络装置201具有权值存储单元202、两个神经元装置101(以下,将其中一个称为“输入侧神经元装置101a”,将另一个称为“输出侧神经元装置101b”)、仲裁输入接受单元203、权值更新单元204。

这里,权值存储单元202存储权值和两个权值系数Δw1,Δw2。

另外,仲裁输入接受单元203在输入侧神经元装置101a和输出侧神经元装置101b接受输入信号值的输入和将输出信号值输出的时间间隔中,接受仲裁信号值z的输入。仲裁输入接受单元203连接到其他神经元装置101是常见的。

而且,存储的权值w乘以输入侧神经元装置101a的输出信号值u所得值wu作为输入信号提供给输出侧神经元装置101b。在本图中,在箭头的旁边标注w表示乘以权值w(以下相同)。

然后,权值更新单元204根据从输入侧神经元装置101a输出的输出信号值u、从输出侧神经元装置101b输出的输出信号值x、接受的仲裁信号值z、存储的权值系数Δw1、Δw2,计算

Δw1xuz+Δw2(xuz-1)

,将权值存储单元202所存储的权值w的值用该计算结果更新。若标记时刻t,则如

w(t+1)=w(t)+Δw1x(t)u(t)z(t)+Δw2(x(t)u(t)z(t)-1)

所示,权值被更新。

关于该权值系数,

Δw1>0>Δw2

特别地

|Δw1|>|Δw2|

较多。

图3A、图3B是表示本实施方式的利用扩展赫布规则的神经元组合状况的说明图。以下参照本图进行说明。

两图中,表示三个神经元装置101(M)、神经元装置101(I)、神经元装置101(O),但分别对应于仲裁、输入、输出,各自的输出值(状态)分别为z、u、x,组合的权值为w。

神经元装置101(I)和神经元装置101(O)的组合,相当于上述的神经网络装置201。

权值系数Δw1、Δw2被设定以使符号相互不同是典型的。另外,如果以

Δw1>0

设定了时,神经元装置101(I)和神经元装置101(O)的组合通过神经元装置101(M)而被增强(potentiation)(图3A)。

另外,如果以

Δw1<0

设定了时,神经元装置101(I)和神经元装置101(O)的组合通过神经元装置101(M)而被抑制(inhibitation)(图3B)。在抑制的情况下,为了使该意旨清楚,依据习惯,在从神经元装置101(M)出来的箭头前面标注竖线。

再有,在使神经元装置101(M)和神经元装置101(I)一致,或者使神经元装置101(M)和神经元装置101(O)一致的情况下,就回归到了传统的赫布规则。

(非负整数编码装置)

图4是表示本实施方式的非负整数编码装置概要结构的示意图,以下参照本图进行说明。

本发明的另一观点的非负整数编码装置401具有上述N个神经元装置101、非负实数接受单元402、非负整数输出单元403。

即,非负实数接受单元402,在N个神经元装置101接受输入信号值的输入和将输出信号值输出的时间间隔中,接受一个或多个非负实数信号值的输入,将该非负实数信号值的总和u作为输入信号提供给N个神经元装置101。

另外,非负整数输出单元403,将N个神经元装置101输出的输出信号值的总和作为非负整数信号值输出。

还有,N个神经元装置101,将1,2,...,N作为该阈值变量θ的初始值,分别存储在该阈值存储单元102中,在N个神经元装置101的各自中,将“0”作为该阈值系数Δθ1、Δθ2的值存储在该阈值存储单元102中。即,N个神经元装置101之中,第i神经元装置101的阈值θ等于常数i。

如果将来自N个神经元装置101的输出全部单纯地组合,则相当于将实数值u的小数部分去掉而取整数所得的值。

和通常的神经元簇之间的组合一样,也可以将神经元之间完全组合(complete connection)。

图5A、图5B是表示包含非负整数编码装置401的一般神经元簇的组合状况的示意图。以下参照本图进行说明。

如图5A所示,两个簇501a(A)、501b(B)分别和非负整数编码装置401同样具有N个神经元装置101,两个簇501a(A)、501b(B)的各神经元装置101互相组合。簇501a(A)的第i神经元装置101(Ai)和簇501b(B)的第j神经元装置101(Bj),以权值w[i,j]相组合。w[i,j]相当于是二维矩阵或二维数组,所有的元素可以具有相同的常数值,也可以像上述那样,基于扩展赫布规则,单独或统一被更新。

图5B是省略表示了图5A的图。为了易于理解,簇501a(A)和簇501b(B),以是否用权值w组合来表示。以下采用适当的标记法。对于本图的组合的状况,使用“簇501a(A)的输出乘以权值w,作为输入提供给簇501b(B)”这样的表述。因此,一般地在称作“乘以w”时,作为w是指上述矩阵/数组,所有权值相同时,则是指标量。

(整数簇装置)

一般来说,神经元装置101输出的值为“0”或“1”,无法直接输出负的值。如果使用所述非负整数编码装置401,则需要应对负的值。下面就实现此类处理的整数簇装置说明如下。

图6是表示本实施方式的整数簇装置概要结构的示意图,以下参照本图进行说明。

整数簇装置601,具有上述两个非负整数编码装置401(以下,将其中一个称为“正侧非负整数编码装置401a”,将另一个称为“负侧非负整数编码装置401b”)、实数接受单元602、正侧神经网络603、负侧神经网络604、整数运算输出单元605。

即,实数接受单元602,在2个非负整数编码装置401接受非负实数信号值的输入、输出非负整数信号值的时间间隔中,接受一个或多个实数信号值的输入。

然后,该实数信号值的总和v

(a)如果不为负,则将实数值v提供给正侧非负整数编码装置401a作为非负实数信号值,将“0”提供给负侧非负整数编码装置401b作为非负实数信号值,

(b)如果为负,则将“0”提供给正侧非负整数编码装置401a作为非负实数信号值,将实数值-v提供给负侧非负整数编码装置401b作为非负实数信号值。

由此,正侧非负整数编码装置401a和负侧非负整数编码装置401b都被提供正的信号值,进行向非负整数的编码。

而且,正侧神经网络603和负侧神经网络604具有相同的网路结构,但有时权值等的设定因如何学习而变化。

而且,正侧神经网络603被提供从正侧非负整数编码装置401a输出的非负整数信号值作为输入,进行对该非负整数的运算。

还有,负侧神经网络604被提供从负侧非负整数编码装置401b输出的非负整数信号值作为输入,进行对该非负整数的运算。

正侧神经网络603和负侧神经网络604都输出正值(绝对值)的信号值,所以整数运算输出单元605将从正侧神经网络603输出的信号值中减去负侧神经网络604输出的信号值所得的值作为整数运算结果信号输出。

这样,对“0”或正值的处理直接进行,对负值的处理在将负值变换成正值后再进行处理,最后求两者结果之差来组合,可进行对一般的实数的处理。

(反馈控制装置)

以下,应用上述神经元装置101、非负整数编码装置401,应用神经网络装置201和整数簇装置601中的原理,说明进行反馈控制的反馈控制装置的实施方式。

图7是表示本实施方式的反馈控制装置概要结构的示意图。以下参照本图进行说明。

反馈控制装置701具有控制输入接受单元702、正侧反馈装置703、负侧反馈装置704、操作输出单元705。

然后,控制输入接受单元702接受控制对象位移的目标值、该位移的观测值及该位移的微分观测值的输入。

作为位移及其微分,可以采用任意的组合。比如“位置与速度”、“角度与角速度”、“速度与加速度”、“角速度与角加速度”等的组合。

该正侧反馈装置703和该负侧反馈装置704为相同的网路结构。因此,在本图中,为了易于理解,省略了图示负侧反馈装置704的细节。

该正侧反馈装置703和该负侧反馈装置704,都有六个非负整数编码装置401(A1,A2,A3,B1,B2,C)、控制存储单元(未图示)、控制更新单元(未图示)。

而且,控制存储单元存储权值p,k1,k2,v1,v2和权值系数Δq1,Δq2。这与上述各个装置相同。

对非负整数编码装置401(B1)提供将存储的权值p乘以了从非负整数编码装置401(A1)输出的非负整数信号值u所得的信号值pu,作为实数信号值的输入。

对非负整数编码装置401(B2)提供将存储的权值k1乘以了从非负整数编码装置401(A1)输出的非负整数信号值所得的信号值,以及将存储的权值k2乘以了从非负整数编码装置401(A2)输出的非负整数信号值所得的信号值,作为实数信号值的输入。

对非负整数编码装置401(C)提供将存储的权值v1乘以了从非负整数编码装置401(B1)输出的非负整数信号值所得的信号值,以及将存储的权值v2乘以了从非负整数编码装置401(B2)输出的非负整数信号值所得的信号值,作为实数信号值的输入。

而且,单侧操作输出单元711将从非负整数编码装置401(C)输出的非负整数信号值x作为操作值输出。

进而,控制更新单元,根据从非负整数编码装置401(A1)输出的非负整数信号值u,和从非负整数编码装置401(C)输出的非负整数信号值x,计算

Δq1X2u+Δq2(X2u-1)

,并将控制存储单元所存储的权值p更新,以使其增加相当于该计算结果的量。这与上述各个装置相同,相当于对非负整数编码装置401(A1,B1)的组合应用上述扩展赫布规则。

对具有这样的结构的该正侧反馈装置703和该负侧反馈装置704,控制输入接受单元702和上述整数簇装置601一样,适当地分配正值和负值。即

(1)控制对象的位移目标值不为负时,将该值提供给该正侧反馈装置703的非负整数编码装置401(A1)作为实数信号值的输入,将“0”提供给该负侧反馈装置704的非负整数编码装置401(A1)作为实数信号值的输入,

(2)控制对象的位移目标值为负时,将“0”提供给该正侧反馈装置703的非负整数编码装置401(A1)作为实数信号值的输入,将该值提供给该负侧反馈装置704的非负整数编码装置401(A1)作为实数信号值的输入,

(3)控制对象的位移观测值不为负时,将该值提供给该正侧反馈装置703的非负整数编码装置401(A2)作为实数信号值的输入,将“0”提供给该负侧反馈装置704的非负整数编码装置401(A2)作为实数信号值的输入,

(4)控制对象的位移观测值为负时,将“0”供给该正侧反馈装置703的非负整数编码装置401(A2)作为实数信号值的输入提,将该值提供给该负侧反馈装置704的非负整数编码装置401(A2)作为实数信号值的输入,

(5)控制对象的位移微分观测值不为负时,将该值提供给该正侧反馈装置703的非负整数编码装置401(A3)作为实数信号值的输入,将“0”提供给该负侧反馈装置704的非负整数编码装置401(A3)作为实数信号值的输入,

(6)控制对象的位移微分观测值为负时,将“0”提供给该正侧反馈装置703的非负整数编码装置401(A3)作为实数信号值的输入,将该值提供给该负侧反馈装置704的非负整数编码装置401(A3)作为实数信号值的输入。

另外,操作输出单元705与所述整数簇装置601同样,由于使用在正侧和负侧获得的值之差,所以将从正侧反馈装置703输出的操作值中减去负侧反馈装置704输出的操作值所得的值,作为操作输出提供给控制对象。

再有,在本实施方式的正侧反馈装置703和负侧反馈装置704中,在非负整数编码装置401(B1,B2,C)的各自中,作为两个阈值系数Δθ1、Δθ2,取代存储“0”,以存储满足

Δθ1>0>Δθ2,且

|Δθ1|>|Δθ2|

关系的常数值来构成是典型的。

另一方面,在非负整数编码装置401(A1,A2,A3)中,由于考虑为进行简单的整数化,所以按

Δθ1=Δθ2=0

进行设定是典型的。

另外,考虑扩展赫布规则的学习,大多利用满足

Δq1>0>Δq2,且

|Δq1|>|Δq2|

关系的常数值。

图8是表示在伺服电机控制上适用了本实施方式的反馈控制装置的情况下的学习仿真结果的曲线图。以下参照本图进行说明。

本仿真将伺服电机的角度提供给目标,观测当前的角度和角速度,将对伺服电机施加的电压作为操作输出。伺服电机可以看成是一个单纯的2元系统,本反馈控制装置用为可变PD控制器。

非负整数编码装置401作为由50个神经元装置101组成的装置,将所要求的角度设为0.5rad。

本图左侧表示学习试验次数(Number of Learning Trials)分别为第1次(1st)、第5次(5th)、第10次(10th)、第15次(15th)、第20次(20th)、第25次(25th)时,0秒~5秒之间的角度(纵轴‘rad’)。如该图所示,可知反复学习试验时,达到目标值为止的振荡变小,控制性能逐渐改善。在非负整数编码装置401(B2)中,控制误差作为目标值和当前的角度之差来计算,学习在该观点下被监管(Supervise)。

但这里需要注意的是,误差不包含网络本身的变化。权值和阈值的更新按照预先制定的规则进行,与误差无关。

另外,如本图右侧所示,点火的VTN的数(纵轴Number of Firing)在每当增加学习试验次数(Number of Learning Trials)时急剧下降,在达到了常数时,系统到达所要求的控制级别(level)。

到达了所要求的控制级别时处于点火状态的神经元装置101的数,可由Δθ1,Δθ2,Δq1,Δq2的值来变化调整。此时,将增加方向的系数Δθ1,Δq1设成比减少方向的系数Δθ2,Δq2的绝对值大得多的数值时,通过实验可知在进行期望的学习。

实施例2

在本实施方式中,除了所述实施方式的结构以外,还考虑所谓的目标状态。

例如,考虑图9所示操纵器(manipulator)的控制。以下,参照本图进行说明。

操纵器801有两个连结手臂的关节811、812,手臂的前端承载了载荷821。对操纵器801而言稳定的姿态是从重心垂直延伸的线通过关节811的姿态。

因此,关节811的角度任意地设定,如图10A、图10B所示,操纵器801的关节812的角度设定为两种。

图10A为支撑第1重量的载荷821的第1姿态,设定了关节812的角度。

图10B为支撑第2个重量的载荷822的第2姿态,设定了关节812的角度。

两个载荷821、822的重量不同,所以一般来说,在第1姿态和第2姿态中关节812的角度不同。关节811的角度从上述那种稳定的条件中会自然地确定,所以没必要明确指定。

这样,在一连串的动作中,在具有某个程度的自由度的情况下指定要通过的多个姿态,在该一连串的动作中,将表示当前将面向第几姿态的控制信号提供给反馈控制装置701。

图11是表示反馈控制装置的概要结构的示意图,该装置使用表示目标状态是第几个的信号。以下参照本图进行说明。

本实施方式的反馈控制装置701与上述的反馈控制装置701具有共同的结构,所以适当省略了图示。另外,在正侧与负侧,结构是对称的,所以对于负侧也适当省略图示。

反馈控制装置701中,该观测对象有K种目标状态,该K种目标状态分别对应各自的目标值。所述操纵器801的姿态有两种,因而K=2。

另外,还准备K个神经元装置101。在这K个神经元装置101中,观测对象的目标状态是第i目标状态时,第i神经元装置101被提供正的输入信号值,其他的神经元装置101被提供“0”的输入信号值。

而且,对于这K个神经元装置的各自来说,如下构成:在正侧反馈装置703和负侧反馈控制装置704双方中,连接

(1)切换权值存储单元(未图示),存储对该神经元装置101的切换权值r1,r2,r3,r4和切换权值系数Δs1,Δs2,

(2)所述非负整数编码装置401(D1),被提供将存储的权值r1乘以从该神经元装置101输出的输出信号值y所得的信号值,作为实数信号值的输入,以及

(3)所述非负整数编码装置401(D2),被提供将存储的权值r2乘以从该神经元装置101输出的输出信号值y所得的信号值,作为实数信号值的输入,

(4)对非负整数编码装置401C还提供将存储的权值r3乘以从该非负整数编码装置401(D1)输出的非负整数信号值所得的信号值,以及将存储的权值r4乘以从该非负整数编码装置401(D2)输出的非负整数信号值所得的信号值,作为实数信号值的输入,

(5)与切换控制更新单元(未图示)形成网路,该切换控制更新单元根据从该神经元装置101输出的输出信号值y和从非负整数编码装置401(C)输出的非负整数信号值x,计算

Δs1x2y+Δs2(x2y-1)

,更新控制存储单元所存储的权值r1,以使其增加相当于该计算结果的量。

这里,在本实施方式中,设Δs1<0,利用抑制(inhibitation)。

此外,在本发明的反馈控制装置701中,与上述同样,在非负整数编码装置401(D1,D2)的各自中,作为两个阈值系数Δθ1、Δθ2,取代存储“0”,以存储满足Δθ1>0>Δθ2,且

|Δθ1|>|Δθ2|

关系的常数值的结构是典型的。

然后,按照目标姿态的顺序,只在面向该姿态的时间间隔中,向该姿态顺序对应的神经元装置101提供非零的输入,向其他神经元装置101提供“0”的输入即可。

对应作为当前目标状态的各个姿态,由于通过扩展赫布规则进行学习,比如在实现机器人的步行动作时,通过将步行动作分为几个相位(phase),将各个相位的边界作为上述“目标姿态”,而被期待可以使步行动作的设计变得容易,并且使各个相位的学习得以进行,减少调整各种参数的时间。

此外,通过分为预先提供目标轨道的关节(相当于上述关节812)和通过学习来确定轨道的关节(相当于所述关节811),可以在短时间获得掌握平衡并步行的神经网络。

再有,如上述图10A、10B的例子,在状态只有两个的情况下,因为不是第1目标状态就是第2目标状态,所以接受目标状态的神经元装置101一个即可。

图12是表示在本例中进行了仿真时的表示目标值的提供方式的曲线图。本图左侧表示对于时间(横轴)的关节811的目标角度(纵轴Desired Angle ofJoint 1),本图右侧表示对于时间(横轴)的关节812的目标角度(纵轴DesiredAngle of Joint 2)。

如本图所示,被指定按一定的间隔,调换将第1姿态作为目标的期间和将第2姿态作为目标的期间。

图13是表示通过图12所示目标值进行了学习的实验结果的曲线图。

本图左侧表示对于时间(横轴)的关节811的角度(纵轴Angle of Joint 1),本图右侧表示对于时间(横轴)的关节812的角度(纵轴Angle of Joint 2)。如本图所示,可知姿态随着时间而逐渐收敛到稳定状态。

图14是表示承载不同重量的载荷时,姿态的收敛值的曲线图。

本图左侧表示对于载荷的重量(横轴Weight)的关节811的角度收敛值(纵轴Angle of Joint 1),本图右侧表示从不同的初始姿态开始动作时,对不同的重量所描绘的重心移动轨迹(Trajectory of COG)。可以看出,关节811的角度各不相同,都收敛到了同一个收敛点,这对机器人来说是最佳的动作。

本申请要求2007年10月1日申请的日本专利申请特願2007-257123的优先权,只要指定国的法律允许,将该基础申请的内容纳入本申请之内。

工业实用性

这样,根据本发明,通过在神经网络中可改变神经元的阈值,扩展赫布规则,筹划整数表达,从而提供适合进行适当控制的神经元装置、神经网络装置、非负整数编码装置、整数簇装置、反馈控制装置,以及存储了由计算机实现这些装置的程序的计算机可读取的信息存储介质。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号