首页> 中国专利> 数据生成装置、预测器学习装置、数据生成方法和学习方法

数据生成装置、预测器学习装置、数据生成方法和学习方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明提供一种生成数据集合的数据生成装置，其包括：扰动生成部，其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者，来生成用于使所述元素变形的扰动集合；伪数据合成部，其根据所述训练数据集合和所述扰动集合，来生成与所述训练数据集合不同的新的伪数据集合；评价部，其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量，以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小；和参数更新部，其更新所述扰动生成部生成所述扰动集合时所使用的参数，以使所述训练数据集合与所述伪数据集合的分布间距离相接近，使扰动的大小或期待值成为预定的目标值。

著录项

公开/公告号CN113168589A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人株式会社日立制作所;
展开▼

申请/专利号CN201980078575.6
发明设计人但马庆行;河野洋平;
展开▼

申请日2019-12-13
分类号G06N20/00(20060101);
代理机构11322 北京尚诚知识产权代理有限公司;
代理人龙淳;徐飞跃
地址日本东京都
入库时间 2023-06-19 11:55:48

说明书

本申请主张平成31年(2019年)1月10日申请的日本申请即特愿2019-2436的优先权，通过参照其内容，编入本申请。

技术领域

本发明涉及生成机器学习中使用的数据的数据生成装置。

背景技术

目前，应用了机器学习的系统、服务正在普及。例如，许多企业通过运用装置、设备、车辆等多种多样的物理的资产(asset)，来进行经济活动。这些资产由于电气的或机械的原因而有时不正常或发生故障。因此，适当通过预测的或应对措施即零件及消耗品的更换、单元的更换及修缮等而在运用上不会产生大的故障是重要的。但是，由于资产的复杂化、以及熟练的保养员或修理工的短缺等，有时无法采取适当的措施。因此，正在研究一种系统，其通过基于过去的运转实绩及修理历史等信息来推荐适当的措施，补充保养员或操作员的作业，能够实现资产稳定地运转。

在上述的应用了机器学习的系统及服务中，预测器是根据关于输入及输出的训练数据集合，基于学习其输入输出的关系性的被称为监督学习或半监督学习的框架来构建的。该预测器对于训练数据集合中未包含的数据要求高的预测性能(通用性能)。因此，目前提出了以神经网络为代表的预测器的各种模型。

另一方面，作为另一种方法，有通过使将训练数据集合适当地变形或变换而得到的伪数据集合与原始的训练数据集合一起用于学习，以实现通用性能提高的方法。将这种伪数据生成称为数据扩充。例如，通常来说，如果为图像，则可以通过对训练数据集合进行旋转、扩大、缩小、移动等变形来扩充数据。然而，就上述的运转实绩及修理历史等在产业上处理的大多数据而言，如图像那种有效起作用的启发式的数据扩充方法不清楚的情况也有很多。因此，采用通过将根据参数的分布的标本和原始的训练数据集合混合来扩充数据的方法。例如，通过将遵循小的标准偏差的正态分布的标本的元素添加到原始数据的元素中，能够进行数据扩充。然而，在数据扩充后的训练数据集合的分布与原始的训练数据集合的分布大不相同的情况下，性能有时降低。

作为本技术领域的背景技术，有以下的现有技术。在日本特开2006-343124号中，作为根据传感器响应来推算化学物质浓度的技术，公开了以下技术，即：“掌握化学数据的插值误差作为随机变量，推算插值误差的概率密度函数。通过反复多次生成遵循插值误差的推算概率密度函数的伪随机数矢量，并将伪插值误差矢量与从插值曲面上的矢量随机选出的矢量相加而生成新的数据矢量，生成反映了插值曲面及插值误差的特征的多个数据矢量即伪数据。使神经网络学习伪数据。将传感器应用于未知的受验试样，测定传感器响应。在学习完成后的神经网络中输入传感器响应，根据神经网络的输出来推算多个化学物质的未知浓度。”。

发明内容

发明要解决的问题

但是，在日本特开2006-343124号中记载的技术中，对输入数据集合相对于输出数据集合的回归模型，进行通过核密度推算法来推算关于误差的分布，并将遵循所推算出的误差分布的标本的元素添加到推算量的操作，因此，与单纯地在输入数据集合的元素中添加从正态分布得到的集合的元素的方法相比，虽然实现了复杂的数据扩充，但是有时生成与原始的输入数据集合的分布大不相同的伪数据集合。特别是，在存在输入数据相对于输出数据成为一对一的部位(单峰的部位)和成为一对多的部位(多峰的部位)的情况下，在上述技术中，基于相同的分布进行变形，因此，在一对一的部位，在应施加小的变形的部位进行较大的变形，在一对多的部位，在应施加大的变形的部位，进行较小的变形，从而有可能成为与原始的分布大不相同的伪数据集合。另外，核密度推算法存在相对于训练数据需要选择多种核和核参数(如果为高斯核，则为带宽)等的应选择的要素多的这一问题。

本发明是鉴于上述问题而开发的，其目的在于，提供一种生成与原始的分布没有大的差异且与训练数据不同的伪数据集合的方法。

用于解决问题的技术方案

本申请中公开的发明的代表的一例如下述。即，一种数据生成装置，其生成数据集合，其特征在于，包括：扰动生成部，其基于训练数据集合的各元素的输入和关于所述训练数据集合的信息这两者中的至少一者，来生成用于使所述元素变形的扰动集合；伪数据合成部，其根据所述训练数据集合和所述扰动集合，来生成与所述训练数据集合不同的新的伪数据集合；评价部，其计算所述训练数据集合和所述伪数据集合的分布间距离或关于其的推算量，以及从所述扰动集合得到的伪数据相对于训练数据的扰动的大小；和参数更新部，其更新所述扰动生成部生成所述扰动集合时所使用的参数，以使所述训练数据集合与所述伪数据集合的分布间距离相接近，使扰动的大小或期待值成为预定的目标值。

发明效果

根据本发明的一方式，能够生成可取得分布间距离和扰动大小的平衡的、在目标扰动量以上不会与训练数据的分布不同的伪数据。通过以下的实施例的说明来明确上述以外的问题、结构及效果。

附图说明

图1是表示本实施例的推荐系统的结构的图。

图2是表示本实施例的数据生成及预测器学习部的操作的图。

图3是表示构成本实施例的推荐系统的计算机的硬件结构的图。

图4是表示本实施例的实绩数据的一例的图。

图5是表示本实施例的修理作业数据的一例的图。

图6是表示本实施例的训练数据集合的一例的图。

图7是本实施例中的建模阶段的处理的流程图。

图8是本实施例中的建模阶段的学习处理的流程图。

图9是本实施例中的推荐处理的流程图。

图10是表示本实施例的训练数据选择画面的图。

图11是表示本实施例的伪数据确认画面的图。

具体实施方式

以下，适当参照附图，对用于实施本发明的代表的方式进行说明。

＜概述＞

本发明涉及基于数据的机器学习装置，特别是涉及基于已知的数据生成其他伪数据，并运用其学习保持高的通用性能的预测器的装置。在本实施例中，对在上述的资产不正常或成为故障的情况下，基于资产的运转实绩、修理历史等信息来推荐适当的措施的推荐系统中所使用的与预测器的学习相关的数据生成及预测器学习装置的概略进行说明。

首先，参照图1对推荐系统整体的处理的流程进行说明。首先，说明从运转实绩、修理历史的收集到预测器学习的流程(称为建模阶段)。推荐系统11从资产13、且经由资产13从操作员16、并且经由修理工终端14从修理工17，收集运转实绩、不良情况状况、修理历史等，并且对将收集到的信息结合而得的实绩数据进行收集。在此，实绩数据是例如资产13的运转时间、来自安装于资产13的传感器的信息、操作员16输入的不良情况状况(例如，杂音的产生)、对资产13实施的修理作业的信息等。接着，管理者15经由管理终端12选择推荐系统11收集的实绩数据中的用于数据生成及预测器的学习的数据。推荐系统11根据该选择提取数据，并将提取的数据作为训练数据向数据生成及预测器学习装置10发送。数据生成及预测器学习装置10使用接收到的训练数据生成数据，制作学习完成后的模型。而且，数据生成及预测器学习装置10将学习后的模型(学习完成后的模型)送回推荐系统。

接着，对修理内容的推荐的流程(称为推荐阶段)进行说明。推荐系统11从资产13、且经由资产13从操作员16、并且经由修理工终端14从修理工17收集除修理作业的信息以外的实绩数据。接着，推荐系统11根据上述的学习完成后的模型和除上述修理作业的信息以外的实绩数据，计算所推荐的一个或多个修理作业。然后，将其结果经由修理工终端14提示给修理工17。

接着，对数据生成及预测器学习装置10的处理的概略进行说明。数据生成及预测器学习装置10接收训练数据，制作学习完成后的模型。在该过程中，为了构建拥有高的通用性能的预测器，基于深度学习(Deep Learning)的一种，即GAN(Generative AdversarialNetworks，生成式对抗网络)的框架，学习数据生成、数据评价、预测器的三个构成要素。此时，通常的GAN中直接生成伪数据，但在本实施例中，暂且生成扰动，并将所生成的扰动添加到原始的训练数据中，来生成伪数据。

其结果，能够追加相对于扰动的目标函数并学习，制作学习完成后的模型。特别是，在本实施例中，以小批量学习为前提，给予与数据生成相关的限制，以使在其小批量内的扰动的总和成为恒定。由此，能够实现使伪数据在分布间距离的观点上接近训练数据和伪数据从训练数据变形的平衡。其结果，伪数据与以正态分布等扰动的情况不同，例如当稍微移动时，训练数据不会成为不可能的变数，并且，几乎不会使训练数据的元素变形，因此，能够抑制数据扩充导致的性能劣化。此时，数据扩充的程度能够通过改变上述的常数来控制。

另一方面，预测器的简单的学习方法是指，将在训练数据中混合了伪数据的数据作为新的训练数据集来学习。除此以外，因为获得对训练数据的某个元素给予扰动的伪数据，所以如果将它们看作无标签的数据，则可以应用半监督学习的各种手法。例如，通过添加使输入于神经网络时的中间层的输出一致的处理(本说明书中参考ImprovedTechniques for Training GANs(训练GANs的改进技术)中的表达，称为特征匹配)，能够获得通用性能更高的预测器。

另外，通过使用上述的特征匹配、共用数据评价和预测器的一部分或全部的神经网络的Tiple GAN等方法来使预测器参加GAN的敌对的学习等方法，能够有效利用无标签的训练数据。此外，在本实施例中，以始终使用GAN的数据生成为前提进行说明，但也可以使用其他方法。

＜系统构成＞

参照图1对本实施例的系统构成进行说明。本实施例的系统具有数据生成及预测器学习装置10、推荐系统11、管理者15所操作的管理终端12、操作员16所操作的资产13、修理工17所操作的修理工终端14。这些系统的构成要素通过网络18相互连接。网络18本身可以由LAN(Local Area Network)或WAN(Wide Area Network)等构成。此外，上述的系统构成为一例，构成要素不限于图示。例如，数据生成及预测器学习装置10和推荐系统11可以构成为一个装置，也可以将用于分散处理的预测器学习装置10划分成多个而构成。

接着，参照图2对数据生成及预测器学习部101的详情进行说明。数据生成及预测器学习部101包括扰动生成部1011、伪数据合成部1012、评价部1013、预测部1014和参数更新部1015。

此外，由数据生成及预测器学习部101中的扰动生成部1011、伪数据合成部1012、评价部1013、参数更新部1015构成数据生成装置，由预测部1014和参数更新部1015构成预测器学习装置。

＜功能和硬件＞

接着，参照图1和图3对功能和硬件的对应进行说明。

数据生成及预测器学习装置10所具有的数据生成及预测器学习部101、前处理部102、学习用数据管理部103通过CPU(Central Processing Unit)1H101在RAM(Read AccessMemory)1H103中读入存储于ROM(Read Only Memory)1H102或外部存储装置1H104中的程序，并控制通信I/F(Interface)1H105、鼠标及键盘等输入装置1H106、可视数据终端等输出装置1H107来实现。

推荐系统11所具有的推荐部111、数据管理部112、集散部113通过CPU(CentralProcessing Unit)1H101在RAM(Read Access Memory)1H103中读入存储于ROM(Read OnlyMemory)1H102或外部存储装置1H104中的程序，并控制通信I/F(Interface)1H105、鼠标及键盘等输入装置1H106、可视数据终端等输出装置1H107来实现。

管理终端12所具有的操作部121通过CPU(Central Processing Unit)1H101在RAM(Read Access Memory)1H103中读入存储于ROM(Read Only Memory)1H102或外部存储装置1H104中的程序，并控制通信I/F(Interface)1H105、鼠标及键盘等输入装置1H106、可视数据终端等输出装置1H107来实现。

也可以通过由硬件构成的运算装置(ASIC、FPGA等)执行CPU1H101执行的处理的一部分或全部。

CPU1H101执行的程序经由可移动介质(CD－ROM、闪光存储器等)或网络提供给数据生成及预测器学习装置10、推荐系统11及管理终端12，并存储于作为非临时性存储介质的非易失性的存储装置。因此，计算机系统也可以具有从可移动介质读入数据的接口。

数据生成及预测器学习装置10、推荐系统11及管理终端12各自为物理上在一个计算机上、或者在逻辑或物理上构成的多个计算机上构成的计算机系统，也可以在构建于多个物理的计算机资源上的虚拟计算机上动作。

＜数据构造＞

接着，参照图4，对推荐系统11的数据管理部112所管理的实绩数据1D1进行说明。实绩数据1D1是指：从资产13、且经由资产13从操作员16、并且经由修理工终端14从修理工17，收集运转实绩、不良情况和修理历史等，使所收集的数据结合，在资产的每次修理时汇总而得的数据。实绩数据1D1包含：用于特定修理单位的修理ID 1D101、实施修理的日期和时间1D102、自资产的设置及检修起的运转时间1D103、运转时的平均温度1D104、运转时的振动等级1D105、不良情况状况1D106、用于特定所实施的修理作业的修理作业ID 1D107。修理作业ID如后述，与实施了的作业内容及更换零件等相关联。

此外，在本实施例中，实绩数据1D1包含上述的项目，但也可以包含与资产相关的其他数据，还可以包含上述项目中的一部分的项目。

接着，参照图5对推荐系统11的数据管理部112所管理的修理作业数据1D2进行说明。修理作业数据1D2包含：特定修理作业的修理作业ID 1D201、作业内容1D202、更换零件1D203～1D205。此外，在图5所示的例中，更换零件记录至最大三个，但更换零件的记录数可以比3大也可以比其小。另外，修理作业数据1D2除作业内容及更换零件以外，也可以包含与修理作业相关的信息，例如所使用的工具及消耗品等的信息。

接着，参照图6对数据生成及预测器学习装置10的学习用数据管理部103所管理的训练数据集合1D3进行说明。训练数据集合1D3是前处理部102对基于管理者15的指定而选定的实绩数据1D1的日期时间1D102及运转时间1D103等实施前处理而得的数据，包含：用于识别数据的编号1D301、实绩数据被数值化后的成为预测器的输入的输入1～输入1000(1D302-1～1D302-1000)；和与修理作业ID对应的成为预测器的输出的输出y1D303。此外，在本实施例中，输入为1000个，但输入数据的数量可以比1000多也可以比其少。

＜处理流程＞

接着，参照图7、图8，对本实施例中的建模阶段的处理进行说明。

参照图7对整体的流程进行说明。首先，推荐系统11的集散部113从资产13及修理工终端14收集实绩数据1D1，并蓄积于数据管理部112(步骤1F101)。

接着，管理终端12的操作部121从管理者15接收从实绩数据1D1用于数据生成及预测器学习的数据的条件(期间)和扰动参数探索范围。而且，集散部113根据所接收的探索条件，从数据管理部112选择符合条件的实绩数据1D1，并与扰动参数探索范围一起存储于数据生成及预测器学习装置10的学习用数据管理部103(步骤1F102)。此外，扰动参数探索范围为后述的式(5)的γ的范围。

接着，数据生成及预测器学习装置10的前处理部102对存储于学习用数据管理部103中的完成选择的实绩数据1D1实施字符串、分类变量的数值化、量的变量的标准化、正规化等前处理，生成训练数据集合1D3，并存储于学习用数据管理部103(步骤1F103)。

接着，数据生成及预测器学习装置10的数据生成及预测器学习部101基于训练数据集合1D3执行与数据生成及预测相关的学习处理，并将所制作的模型(称为学习完成后的模型)存储于学习用数据管理部103(步骤1F104)。此外，参照图8对学习处理进行详细叙述。

接着，数据生成及预测器学习装置10的学习用数据管理部103将所制作的模型分发(存储复制)到推荐系统11的数据管理部112(步骤1F105)。

最后，管理终端12的操作部121将通过学习完成后的模型而生成的伪数据集合、训练数据集合与伪数据集合的分布间距离等提示给管理者15，从而结束处理。管理者15根据这种提示信息变更后述的学习参数，或能够判断是采用新学习的学习完成后的模型还是继续利用现有的模型。

接着，参照图8，对本实施例中的学习处理进行详细说明。此外，在本实施例中，表示使用作为GAN之一的Wasserstein GAN(Generative Adversarial Networks)的方式。首先，对记号和与其相关的条件进行说明。此外，也可以不使用Wasserstein GAN，而使用Triple GAN等其他的GAN的方法，也可以对分布间距离及与其相关的量使用MMD(MaximumMean Discrepancy)等其他方法。另外，对于实际上指定的扰动参数探索范围，可以通过对γ的指定范围进行10等分来进行线性搜索等，从而进行囊括性探索，并选择通用性能最高的学习完成后的模型作为最终的学习完成后的模型，以下，为了便于说明，对γ为0.2时的处理的流程进行说明。此外，后述的其他参数也可以与γ同样地探索。

将与训练数据集合1D3的输入相关的集合记为X，将该集合的元素x所模仿的分布记为Pr。另外，将伪数据集合记为Xg，将该集合的元素xg所模仿的分布记为Pg。将Pr和Pg的Wasserstein距离记为W(Pr、Pg)。此时，W(Pr、Pg)由式(1)来表示。

式(1)中，||fw||≤1表示函数fw为利普希茨连续(Lipschitz continuity)。另外，E[·]表示期待值。另外，函数fw由神经网络构成，w为其神经网络的参数。

xg是对x加上扰动Δx而得到的，满足以下关系。

xg＝x+Δx＝x+g

该扰动Δx遵循带x和噪声z的条件的概率分布Pp(Δx|x、z)。在此，噪声z遵循正态分布及均匀分布。另外，g

接着，将相对于输入x计算输出的推算值y

首先，数据生成及预测器学习部101的扰动生成部1011从训练数据集合中提取采样的部分集合X＝{xm：m＝1、2、3、……M}(小批量集合，在本实施例中设为M＝100，但也可以为其他值)，从正态分布中采样尺寸M的集合Z，将函数g

接着，伪数据合成部1012通过获取上述X和ΔX的各元素之和，生成伪数据集合Xg＝{xgm：m＝1、2、3、……M}(步骤1F202)。

接着，评价部1013将函数fw应用于上述Xg，通过下式，获得作为分布间距离的一种的Wasserstein距离的推算量Wasserstein～作为评价数据之一(步骤1F203)。

接着，数据生成及预测器学习部101的预测部1014将函数

接着，数据生成及预测器学习部101的参数更新部1015在将由数式(3)表示的推算量Wasserstein～进行最大化的方向上通过逆误差传播法更新参数w。同样，在将由数式(4)表示的函数Cross Entorpy Loss进行最小化的方向上通过逆误差传播法更新参数

接着，数据生成及预测器学习部101的扰动生成部1011按与步骤1F201相同的步骤，生成扰动集合(步骤1F206)。

接着，数据生成及预测器学习部101的伪数据合成部1012按与步骤1F202相同的步骤，生成伪数据集合(步骤1F207)。

接着，数据生成及预测器学习部101的评价部1013将函数fw应用于上述Xg，通过数式(5)得到与函数g

接着，数据生成及预测器学习部101的参数更新部1015在将由数式(5)表示的Generator Loss进行最小化的方向上通过逆误差传播法更新参数θ(步骤1F209)。

接着，数据生成及预测器学习部101的参数更新部1015确认是否满足结束条件。在本实施例中，在将参数更新了规定次数(例如10000次)时，满足结束条件。在不满足结束条件的情况下，返回步骤1F201，继续处理。另一方面，在满足结束条件的情况下，结束模型的学习的处理(步骤1F210)。此外，作为结束条件，也可以在由数式(4)表示的所谓的损失函数的大小没有减少的时刻判定为结束。

另外，扰动生成部1011使用与训练数据集合的输入相关的部分集合X和从正态分布采样的集合Z，生成扰动集合ΔX，但也可以将与训练数据集合的输出相关的部分集合添加到输入中。由此，由于考虑了输出的分布，因此，能够生成更妥当的伪数据作为输入和输出的结合分布。

另外，也可以将与训练数据集合的输入相关的k近邻密度推算等概率密度函数的推算量添加到输入中。由此，能够使扰动生成部1011的学习高速化且稳定化。

另外，在以上记载中，对不假设特定的分布构造而生成扰动的方法进行了说明，但也可以在扰动中假设特定的分布构造(例如，表示扰动集合的事后分布的正态分布构造等参数的分布的参量)。该情况下。如果该分布的参数，例如平均为0的正态分布，则能够将分散设为数据生成的对象。通过低密度的部分处的扰动，能够提高预测性能，能够使扰动生成部1011的学习高速化且稳定化。

另外，在将目标扰动量从小的值变更成大的值的情况下，能够通过与目标扰动量的变化相应地在通用性能开始下降之前停止的线形探索，来获得良好的扰动量。

另外，在本实施例中，在伪数据和扰动前的数据中能够共用标签，因此，能够使将两个数据输入于预测器时的中间层的输出接近，能够进行利用上述特征匹配的学习。

另外，本实施例的训练数据集合带标签，但在包含一部分没有标签的数据的情况下，即使关于没有标签的数据，也能够通过与有标签的数据相同的步骤来学习利用参数θ(扰动生成部1011)、参数w(评价部1013)，并且，关于数式(4)的第三项，通过与有标签的数据相同的步骤的学习，通过利用参数θ(预测部1014)，能够进行半监督学习。此外，如上述的Tripe GAN，也可以定义目标函数来进行半监督学习，以使预测器参加到敌对的学习中。

接着，参照图9对推荐处理的流程进行说明。

首先，推荐系统11的集散部113对于修理前(将来成为修理对象)的资产13，从资产13及修理工终端14收集修理作业ID未记载(None)的实绩数据1D1(步骤1F301)。

接着，推荐系统11的推荐部111在实施了与数据生成及预测器学习装置10的前处理部102同样的前处理之后，使用学习完成后的模型，生成修理作业ID的预测值(称为推荐)(步骤1F302)。

接着，推荐系统11的推荐部111及集散部113将推荐发送到资产13及修理工终端14(步骤1F203)。

最后，资产13将推荐提示给操作员16，修理工终端14将推荐提示给修理工17，从而结束处理(步骤1F204)。

如以上所说明，推荐系统11通过从资产13及修理工终端14收集适当信息，并提示修理的推荐，能够快速应对不合适及故障。此外，在本实施例中，示出了推荐系统11能动地生成推荐并进行提示的方式，但也可以执行根据操作员16及修理工17的要求生成推荐并进行提示的处理。

＜用户接口＞

接着，参照图10，说明管理者15为了选择数据生成及预测器学习中所使用的实绩数据1D1而使用的训练数据选择画面1G1。训练数据选择画面1G1显示在管理终端12的操作部121上。

训练数据选择画面1G1包含期间开始日设定框1G101、期间结束日设定框1G102、扰动参数探索范围下限设定框1G103、扰动参数探索范围上限设定框1G104、设定按钮1G105。

通过在期间开始日设定框1G101指定开始日，在期间结束日设定框1G102指定结束日，选择从开始日到结束日的期间的实绩数据1D1作为训练数据。

通过在扰动参数探索范围下限设定框1G103设定扰动参数探索范围的下限，在扰动参数探索范围上限设定框1G104设定扰动参数探索范围的上限，可以改变扰动的总量，学习最好的模型。此外，如图示，也可以设置用于设定扰动参数的设定框，而不是设定扰动参数探索范围的下限及上限。

如果操作(例如，单击)设定按钮1G105，则上述的学习所使用的实绩数据1D1的期间和扰动参数探索范围存储于数据生成及预测器学习装置10的学习用数据管理部103。

接着，参照图11，说明管理者15为了目视确认通过学习完成后的模型生成的伪数据而使用的伪数据确认画面1G2。伪数据确认画面1G2显示在管理终端12的操作部121上。

伪数据确认画面1G2包含X轴分量指定表格框1G201、Y轴分量指定表格框1G202、比较视图1G203、分布间距离框1G204。

在X轴分量指定表格框1G201设定分配至比较视图1G203的X轴的预处理结束的训练数据1D3的输入(例如输入1)。同样，在Y轴分量指定表格框1G202设定分配至比较视图1G203的Y轴的预处理结束的训练数据1D3的输入(例如输入3)。其结果，与所设定的两个输入相关的预处理结束的训练数据1D3(图中原始数据)和所生成的伪数据作为散点图显示在比较视图1G203上。管理者15通过观察比较视图1G203，能够通过目视确认出所输入的数据以何种方式扩充。这能够用来判断例如在少数的数据较分散的部位是否应追加收集数据。

另一方面，在分布间距离框1G204上显示通过MMD算出的与全输入相关的分布间距离。这为了确认伪数据与原始的预处理结束的训练数据1D3不同的程度而使用。在此，也可以使用评价部1013的评价结果，但由于通过学习条件学习的Wasserstein距离的推算量不同，因此，在本实施例中使用MMD。

如以上说明，根据本发明的实施例，参数更新部1015更新扰动生成部1011生成扰动集合时所使用的参数，以使训练数据集合和伪数据集合的分布间距离接近，且使扰动的大小或期待值成为预定的目标值，因此，能够在考虑了所给予的训练数据集合的各元素的特征的基础上，作为伪数据整体，对训练数据集合加入使分布间距离或关于该分布间距离的推算量变小的扰动，从而能够生成不会在目标扰动量以上与训练数据的分布不同的伪数据。

另外，扰动生成部1011基于与训练数据集合的各元素的输入或训练数据集合相关的信息、以及训练数据集合的各元素的输出或关于该输出的信息，来生成扰动集合，因此，在分布间距离和扰动的大小的平衡的观点上，作为考虑了输出的分布的输入和输出的结合分布，能够生成更妥当的伪数据。

另外，扰动生成部1011除与上述训练数据集合的各元素的输入或关于上述训练数据集合的信息之外，还基于与上述训练数据集合的输入相关的概率密度函数(例如k近邻密度推算)的推算量，来生成扰动集合，因此，能够使扰动生成部1011的学习高速化且稳定化。

另外，扰动生成部1011通过生成表示扰动集合的事后分布的参数的分布(例如正态分布)的参量，来生成扰动集合，因此，通过低密度的部分处的扰动，能够提高预测性能，能够使学习高速化且稳定化。

另外，扰动生成部1011生成可输入所使用的参数值或其范围的接口画面的显示数据(训练数据选择画面1G1)，所以能够改变扰动量来赋予用于学习最好的模型的条件。

另外，因为生成训练数据集合的各元素和伪数据集合的各元素所表示的散点图的显示数据，所以能够确认所输入的数据以何种方式扩充。

另外，预测部1014使用上述数据生成装置所生成的伪数据及训练数据进行学习，因此，能够提高预测性能，能够使学习高速化且稳定化。

另外，预测部1014由神经网络构成，追加可以使在输入训练数据时和输入伪数据时的内部状态之差变小的目标函数(例如数式(4)的第三项)，因此能够获得具有更高的通用性能的模型。此外，也可以为可以使从某个训练数据生成的两个伪数据的内部状态之差变小的目标函数。

此外，本发明不限定于上述的实施例，包含附加的权利要求书的宗旨内的各种变形例及同等的构成。例如，上述实施例是为了容易理解本发明的说明而详细说明的内容，本发明未必限定于具有所说明的全部结构的内容。另外，也可以将某个实施例的结构的一部分替换为其他实施例的结构。另外，也可以在某个实施例的结构中添加其他实施例的结构。另外，也可以对各实施例的结构的一部分进行其他结构的追加、删除、替换。

另外，上述各结构、功能、处理部、处理方法等可以例如通过由集成电路设计等，由硬件实现它们的一部分或全部，也可以通过处理器解释实现各个功能的程序并执行，由软件来实现。

实现各功能的程序、目录、文件夹等信息能够存储于存储器、硬盘、SSD(SolidState Drive)等存储装置、或IC卡、SD卡、DVD等记录介质。

另外，控制线及信息线表示认为在说明上所需要的，不局限于表示在安装上所需的全部的控制线及信息线。实际上，可以认为几乎全部的结构相互连接。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 数据生成装置、预测器学习装置、数据生成方法和学习方法 [P] . 中国专利： CN113168589A . 2021-07-23
2. 通过合成原始数据和标记数据来生成已标记数据的数据嵌入网络的学习方法和测试方法以及用其的学习装置和测试装置 [P] . 中国专利： CN112313645A . 2021-02-02
3. Learning data generating apparatus, learning data generation method, learning data generation program, learning device, learning method, learning program, inference device, inference method, inference program, learning system, and inference system [P] . JPWO2020255326A1 . 2021-09-13

机译：学习数据生成装置，学习数据生成方法，学习数据生成程序，学习设备，学习方法，学习程序，推理设备，推断方法，推理程序，学习系统和推理系统
4. DATA GENERATION DEVICE, PREDICTOR LEARNING DEVICE, DATA GENERATION METHOD, AND LEARNING METHOD [P] . 世界知识产权组织专利： WO2020145039A1 . 2020-07-16

机译：数据生成设备，预测器学习设备，数据生成方法和学习方法
5. ABNORMAL DATA GENERATION DEVICE, ABNORMAL DATA GENERATION MODEL LEARNING DEVICE, ABNORMAL DATA GENERATION METHOD, ABNORMAL DATA GENERATION MODEL LEARNING METHOD, AND PROGRAM [P] . WO2021161405A1 . 2021-08-19

机译：异常数据生成装置，异常数据生成模型学习设备，异常数据生成方法，异常数据生成模型学习方法，以及程序