首页> 中国专利> 数据处理系统及数据处理方法

数据处理系统及数据处理方法

摘要

数据处理系统(100)具备:神经网络处理部(130),其执行依照神经网络的处理,该神经网络包括输入层、1个以上的中间层及输出层;以及学习部,其基于输出数据与针对学习数据的理想输出数据的比较,对神经网络的优化对象参数进行优化,其中,该输出数据是通过神经网络处理部(130)对该学习数据执行依照神经网络的处理而输出的数据。神经网络处理部(130)执行如下的扰乱处理:针对如下的N(2以上的整数)个中间数据中的各中间数据,应用使用了从该N个中间数据中选择出的至少1个中间数据的运算,其中,该中间数据是表示向构成第M层(M为1以上的整数)的中间层的中间层要素输入的输入数据或者从中间层要素输出的输出数据的中间数据,并且该N个中间数据是基于学习数据所包含的N个学习样本的集合的中间数据。

著录项

  • 公开/公告号CN112313676A

    专利类型发明专利

  • 公开/公告日2021-02-02

    原文格式PDF

  • 申请/专利权人 奥林巴斯株式会社;

    申请/专利号CN201880094927.2

  • 发明设计人 矢口阳一;

    申请日2018-06-28

  • 分类号G06N3/08(20060101);

  • 代理机构11127 北京三友知识产权代理有限公司;

  • 代理人孙明浩;崔成哲

  • 地址 日本东京都

  • 入库时间 2023-06-19 09:44:49

说明书

技术领域

本发明涉及数据处理系统及数据处理方法。

背景技术

神经网络是包括1个以上的非线性单元的数学模型,是预测与输入对应的输出的机器学习模型。大多数神经网络除了输入层和输出层之外,还具有1个以上的中间层(隐藏层)。各中间层的输出成为下一个层(中间层或输出层)的输入。神经网络的各层根据输入及自身的参数而生成输出。

现有技术文献

非专利文献

非专利文献1:Alex Krizhevsky,Ilya Sutskever,Geoffrey E.Hinton,“ImageNet Classification with Deep Convolutional Neural Networks”,NIPS2012_4824

发明内容

发明要解决的问题

作为神经网络的学习中的问题之一,已知有对学习数据的过拟合。对学习数据的过拟合引起针对未知数据的预测精度的恶化。

本发明是鉴于这样的状况而完成的,其目的在于,提供一种能够抑制对学习数据的过拟合的技术。

用于解决问题的手段

为了解决上述问题,本发明的某个方案的数据处理系统具备:神经网络处理部,其执行依照神经网络的处理,该神经网络包括输入层、1个以上的中间层及输出层;以及学习部,其基于通过神经网络处理部对学习数据执行处理而输出的输出数据、与针对该学习数据的理想输出数据的比较,对神经网络的优化对象参数进行优化,神经网络处理部执行如下的扰乱处理:针对如下的N个中间数据中的各个中间数据,应用使用了从该N个中间数据中选择出的至少1个中间数据的运算,其中,该中间数据是表示向构成第M层的中间层的中间层要素输入的输入数据或者从中间层要素输出的输出数据的中间数据,并且该N个中间数据是基于学习数据所包含的N个学习样本的集合的中间数据,N为2以上的整数,M为1以上的整数。

另外,将以上的结构要素的任意的组合、本发明的表现在方法、装置、系统、记录介质、计算机程序等之间转换后的方案作为本发明的方案也是有效的。

发明的效果

根据本发明,能够抑制对学习数据的过拟合。

附图说明

图1是示出实施方式的数据处理系统的功能及结构的框图。

图2是示意性示出神经网络的结构的一例的图。

图3是示出由数据处理系统进行的学习处理的流程图的图。

图4是示出由数据处理系统进行的应用处理的流程图的图。

图5是示意性示出神经网络的结构的另一例的图。

具体实施方式

以下,基于优选的实施方式,参照附图对本发明进行说明。

在说明实施方式之前,对基础知识进行说明。

当在神经网络的学习中仅学习学习数据本身时,由于神经网络具有非常多的优化对象参数,因此,会得到对学习数据过拟合的复杂的映射。在通常的数据放大中,通过对学习数据的几何形状、值等施加扰动而能够缓和过拟合。但是,由于仅在各学习数据的附近填充扰动数据,因此,其效果有限。在Between Class Learning(类间学习)中,通过将2个学习数据及各自所对应的理想的输出数据以适当的比率混合而放大数据。由此,在学习数据的空间和输出数据的空间密集地填充模拟数据,能够进一步抑制过拟合。另一方面,在学习时,以网络的中间部的表现空间能够在较宽的分布中表现学习的数据的方式进行学习。因此,在本发明中,提出如下方法:在从接近输入的层到接近输出的层的较多的中间层中混合数据,由此改善中间部的表现空间,抑制网络整体上的对学习数据的过拟合。以下,具体进行说明。

以下,以将数据处理装置应用于图像处理的情况为例进行说明,但如果是本领域技术人员,则应理解也能够将数据处理装置应用于声音识别处理、自然语言处理、其他的处理。

图1是示出实施方式的数据处理系统100的功能及结构的框图。这里所示的各块在硬件方面能够由以计算机的CPU(central processing unit:中央处理单元)为代表的元件或机械装置实现,在软件方面由计算机程序等实现,但这里,描绘出通过它们的合作而实现的功能块。因此,本领域技术人员应理解这些功能块能够通过硬件、软件的组合而以各种形式实现。

数据处理系统100执行“学习处理”和“应用处理”,该“学习处理”基于学习用的图像(学习数据)和针对该图像的理想的输出数据即正解值而进行神经网络的学习,该“应用处理”将学习完毕的神经网络应用于未知的图像(未知数据),进行图像分类、物体检测或图像分割等图像处理。

在学习处理中,数据处理系统100对学习用的图像执行依照神经网络的处理,输出针对学习用的图像的输出数据。然后,数据处理系统100在输出数据接近正解值的方向上更新神经网络的优化(学习)对象的参数(以下称为“优化对象参数”)。通过重复进行这些处理,使优化对象参数优化。

在应用处理中,数据处理系统100使用在学习处理中被优化的优化对象参数,对图像执行依照神经网络的处理,输出针对该图像的输出数据。数据处理系统100解释输出数据,对图像进行图像分类,或者根据图像而进行物体检测,或者对图像进行图像分割。

数据处理系统100具备取得部110、存储部120、神经网络处理部130、学习部140以及解释部150。主要通过神经网络处理部130和学习部140来实现学习处理的功能,主要通过神经网络处理部130和解释部150来实现应用处理的功能。

取得部110在学习处理中,取得N(2以上的整数)个学习用的图像(学习样本)的集合和与这N个学习用的图像分别对应的N个正解值。此外,取得部110在应用处理中,取得处理对象的图像。另外,图像的通道数没有特别限制,可以是例如RGB图像,也可以是例如灰度图像。

存储部120除了存储取得部110所取得的图像之外,还成为神经网络处理部130、学习部140及解释部150的工作区域、神经网络的参数的存储区域。

神经网络处理部130执行依照神经网络的处理。神经网络处理部130包括执行与神经网络的输入层对应的处理的输入层处理部131、执行与中间层(隐藏层)对应的处理的中间层处理部132、以及执行与输出层对应的处理的输出层处理部133。

图2是示意性示出神经网络的结构的一例的图。在该例中,神经网络包括2个中间层,各中间层构成为包括进行卷积处理的中间层要素和进行池化处理的中间层要素。另外,中间层的数量没有特别限定,例如中间层的数量可以为1,也可以为3以上。在图示的例子的情况下,中间层处理部132执行各中间层的各要素的处理。

此外,在本实施方式中,神经网络包括至少1个扰乱要素。在图示的例子中,神经网络在各中间层的前后包括扰乱要素。在扰乱要素中,中间层处理部132也执行与该扰乱要素对应的处理。

中间层处理部132在学习处理时,执行扰乱处理作为与扰乱要素对应的处理。扰乱处理是指如下处理:针对如下N个中间数据中的各中间数据,应用使用了从该N个中间数据选择出的至少1个中间数据的运算,其中,该N个中间数据是表示向中间层要素输入的输入数据或者从中间层要素输出的输出数据的中间数据,并且是基于学习用的图像的集合所包含的N个学习用的图像的中间数据。

具体而言,作为一例,扰乱处理通过以下的式(1)而给出。

[数式1]

y=x+r⊙shuffle(x)…(1)

x:入力

y:出力

r:r∈N(μ,σ

⊙:图像单位相乘

shuffle(·):在图像轴随机地排列顺序的操作

在该例中,学习用的图像的集合所包含的全部N个学习用的图像分别用于扰乱该N个学习的图像中的其他图像。此外,在N个学习用的图像分别线性结合有其他图像。

此外,中间层处理部132在应用处理时,代替扰乱处理,即不执行扰乱处理,而是执行由以下的式(2)给出的处理来作为与扰乱要素对应的处理。即,执行将输入直接输出的处理。

[数式2]

y=x…(2)

学习部140对神经网络的优化对象参数进行优化。学习部140通过目标函数(误差函数)来计算误差,其中,该目标函数比较通过向神经网络处理部130输入学习用的图像而得到的输出与和该图像对应的正解值。学习部140基于计算出的误差,通过梯度反向传播法等来计算针对参数的梯度,基于动量法来更新神经网络的优化对象参数。

另外,在反向传播中使用的针对扰乱处理的向量x的偏微分由以下的式(3)给出。

[数式3]

g

g

g

unshuffle(·):shuffle(·)的反向运算

通过反复进行由取得部110进行的学习用图像的取得、由神经网络处理部130针对学习用图像进行的依照神经网络的处理、以及学习部140进行的优化对象参数的更新,从而对优化对象参数进行优化。

此外,学习部140判定是否应该结束学习。应该结束学习的结束条件例如是将学习进行了规定次数、从外部接受到结束的指示、优化对象参数的更新量的平均值达到规定值、或计算出的误差收敛到规定的范围内。学习部140在满足结束条件的情况下,使学习处理结束。学习部140在不满足结束条件的情况下,使处理返回神经网络处理部130。

解释部150解释来自输出层处理部133的输出,实施图像分类、物体检测或图像分割。

对实施方式的数据处理系统100的动作进行说明。

图3示出由数据处理系统100进行的学习处理的流程图。取得部110取得多张学习用的图像(S10)。神经网络处理部130对取得部110取得的多张学习用的图像分别执行依照神经网络的处理,输出针对各个学习用的图像的输出数据(S12)。学习部140基于针对多张学习用的图像的各个学习用的图像的输出数据、以及针对各个学习用的图像的正解值,来更新参数(S14)。学习部140判定是否满足结束条件(S16)。在不满足结束条件的情况下(S16的否),处理返回S10。在满足结束条件的情况下(S16的是),处理结束。

图4示出由数据处理系统100进行的应用处理的流程图。取得部110取得应用处理的对象的图像(S20)。神经网络处理部130对取得部110取得的图像执行依照神经网络的处理,将输出数据输出,其中,该神经网络是对优化对象参数进行优化后的即学习完毕的神经网络(S22)。解释部150解释输出数据,对对象的图像进行图像分类,或者根据对象的图像进行物体检测,或者对对象的图像进行图像分割(S24)。

根据以上说明的实施方式的数据处理系统100,使用从N个中间数据选择出的至少1个中间数据、即同质的数据,对该N个中间数据中的各中间数据进行扰乱,其中,该N个中间数据是基于学习用的图像的集合所包含的N个学习用的图像的N个中间数据。通过基于使用了同质的数据的扰乱而实现的合理的数据分布扩展,抑制了对学习数据的过拟合。

此外,根据数据处理系统100,学习用的图像的集合所包含的全部N个学习用的图像分别用于扰乱该N个学习的图像中的其他图像。因此,能够使全部的数据无偏差地学习。

此外,根据数据处理系统100,在应用处理时不执行扰乱处理,因此,能够在与不利用本发明的情况相同程度的处理时间内执行应用处理。

以上,基于实施方式对本发明进行了说明。该实施方式是例示,本领域技术人员应理解,能够对这些各结构要素和各处理过程的组合进行各种变形,并且这样的变形例也在本发明的范围内。

(变形例1)

在应用处理中,使用从基于学习用的图像的集合所包含的N个学习用的图像的N个中间数据中选择出的至少1个中间数据、即同质的数据,对该N个中间数据中的各个中间数据进行扰乱即可,考虑各种变形例。以下,对几个变形例进行说明。

扰乱处理也可以由以下的式(4)给出。

[数式4]

y=(1-r)⊙x+r⊙shuffle(x)…(4)

1:全部的要素为1的向量(长度与r相同)

在该情况下,在反向传播中使用的针对扰乱处理的向量x的偏微分由以下的式(5)给出。

[数式5]

g

此外,在应用处理时作为与扰乱要素对应的处理而执行的处理、即代替扰乱处理而执行的处理由以下的式(6)给出。通过标度(scale)对齐而提高应用处理中的图像处理的精度。

[数式6]

y=(1-E[r])x…(6)

E[r]:r∈r的期待值

扰乱处理也可以由以下的式(7)给出。

[数式7]

N:扰乱次数

k:各扰乱运算的下标

独立地得到与各k关联的随机数。此外,与实施方式的情况同样地考虑反向传播。

扰乱处理也可以由以下的式(8)给出。

[数式8]

i,j:下标

r(N,i):取0以上的值的随机数

p(ij):由i、j随机决定的下标(1以上且k以下)

在该情况下,随机地选择用于扰乱的数据,因此,能够强化扰乱的随机性。

扰乱处理也可以由以下的式(9)给出。

[数式9]

y=x+F(shuffle(x))…(9)

F(·):能够微分的非线性函数(例如sin函数或平方函数)

扰乱处理也可以由以下的式(10)给出。

[数式10]

y=x+κ⊙shuffle(x)…(10)

κ:预先决定的规定值的向量

(变形例2)

图5是示意性示出神经网络的结构的另一例的图。在该例中,在卷积处理之后包括扰乱要素。即,相当于在作为现有方法的Residual networks(残差网络)或Denselyconnected networks(密集连接网络)的各卷积处理之后包括扰乱要素。在各中间层中,将应该向进行卷积处理的中间层要素输入的中间数据、以及通过针对向该中间层要素输入该中间数据而输出的中间数据执行扰乱处理而得到的中间数据综合。换言之,在各中间层中,执行将输入输出关系为恒等映射的恒等映射路径与在路径中具有所述优化对象参数的优化对象路径综合的运算。根据本变形例,通过在维持了恒等映射路径的恒等性的状态下对优化对象路径施加扰乱,能够使学习更加稳定。

(变形例3)

虽然在实施方式中没有特别提及,但在式(1)中,也可以根据学习的重复次数而使σ单调增加。由此,在学习稳定化的学习后期,能够进一步抑制过度学习。

标记说明

100数据处理系统,130神经网络处理部,140学习部。

产业利用性

本发明涉及数据处理系统及数据处理方法。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号