首页> 中国专利> 操作量决定装置、成型装置系统、成型机、计算机程序、操作量决定方法和状态显示装置

操作量决定装置、成型装置系统、成型机、计算机程序、操作量决定方法和状态显示装置

摘要

本发明提供一种决定涉及成型机的操作量的操作量决定装置,该操作量决定装置包括:观测部,所述观测部取得在成型机进行了成型时观测涉及该成型的物理量得到的观测数据;状态表示部,所述状态表示部根据由观测部取得的所述观测数据,生成表现成型机的状态的状态表示映射图;和操作量输出部,所述操作量输出部根据由状态表示部生成的状态表示映射图输出操作量。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06N20/00 专利申请号:2020800690782 申请日:20200928

    实质审查的生效

  • 2022-08-02

    公开

    国际专利申请公布

说明书

技术领域

本发明涉及操作量决定装置、成型装置系统、成型机、计算机程序、操作量决定方法和状态显示装置。

背景技术

专利文献1公开了由强化学习器决定耗电少的最佳操作条件、并调整操作条件的注射成型装置系统和机械学习器。

专利文献2公开了通过机械学习诊断注射成型机异常的异常诊断装置。

现有技术文献

专利文献

专利文献1:日本发明专利第6346128号公报

专利文献2:日本发明专利第6294268号公报

发明内容

发明要解决的问题

但是,专利文献1的注射成型装置系统是通过无模型强化学习决定成型机的操作量的系统,在环境发生了变化的情况下,有时决定操作量的策略不再通用。在这种情况下,需要从头开始重新对策略进行学习。策略的学习需要庞大的训练数据或训练作业,存在缺乏通用性的问题。

专利文献2的装置虽然能够进行注射成型的异常诊断,但是,不能决定成型机的最佳操作量。

本发明的目的在于,提供对环境变化的鲁棒性优异、能够在短时间内进行用于适应新环境的追加学习的操作量决定装置、成型装置系统、成型机、计算机程序、操作量决定方法和状态显示装置。

用于解决问题的方案

本发明的操作量决定装置,决定涉及成型机的操作量,所述操作量决定装置包括:观测部,所述观测部取得在所述成型机进行了成型时观测涉及该成型的物理量得到的观测数据;状态表示部,所述状态表示部根据由所述观测部取得的所述观测数据,生成表现所述成型机的状态的状态表示映射图;和操作量输出部,所述操作量输出部根据由所述状态表示部生成的状态表示映射图输出所述操作量。

本发明的成型装置系统,包括上述作量决定装置和成型机。

本发明的成型机,包括上述操作量决定装置,根据由该操作量决定装置决定的所述操作量运转。

本发明的计算机程序,使计算机决定涉及成型机的操作量,所述计算机程序使计算机执行下述处理:取得在所述成型机进行了成型时观测涉及该成型的物理量得到的观测数据;根据所取得的所述观测数据生成表示所述成型机的状态的状态表示映射图;和根据所生成的状态表示映射图输出所述操作量。

本发明的操作量决定方法,决定涉及成型机的操作量,取得在所述成型机进行了成型时观测涉及该成型的物理量得到的观测数据;根据所取得的所述观测数据生成表示所述成型机的状态的状态表示映射图;和根据所生成的状态表示映射图输出所述操作量。

本发明的状态显示装置,包括:观测部,所述观测部取得在成型机进行了成型时观测涉及该成型的物理量得到的观测数据;和显示处理部,所述显示处理部将映射图图像和所述成型机的实际的成型结果可比较地显示,所述映射图图像涉及根据由所述观测部所取得的所述观测数据表示了所述成型机的状态的状态表示映射图。

发明效果

如上所述,对环境变化的鲁棒性优异、能够在短时间内进行用于适应新环境的追加学习。

附图说明

图1是表示实施方式1的成型装置系统的结构例的框图。

图2是实施方式1的成型装置系统的功能框图。

图3是表示状态表示部的功能和输入输出数据的框图。

图4是表示操作量输出部的功能和输入输出数据的框图。

图5是表示映射图图像的一例的示意图。

图6是表示映射图图像的其它例子的示意图。

图7是表示映射图图像的其它例子的示意图。

图8是表示映射图图像的其它例子的示意图。

图9是表示映射图图像的其它例子的示意图。

图10是表示映射图图像的其它例子的示意图。

图11是表示学习阶段的操作量决定装置的动作的时序图。

图12是表示应用阶段的操作量决定装置的动作的时序图。

图13是表示实施方式2的成型机的框图。

具体实施方式

以下,参照附图说明本发明实施方式的操作量决定装置、成型装置系统、成型机、计算机程序、操作量决定方法和状态显示装置的具体例子。以下记载的实施方式的至少一部分可以任意组合。此外,本发明不限定为这些例示,而是由权利要求书所示,包含与权利要求书等同的意思和范围内的所有变更。

(实施方式1)

图1是表示实施方式1的成型装置系统的结构例的框图,图2是实施方式1的成型装置系统的功能框图。

实施方式1的成型装置系统包括操作量决定装置1、成型机2和测定部3。操作量决定装置1作为状态显示装置起作用。

成型机2例如是注射成型机、中空成型机、薄膜成型机、挤压机、二轴螺杆挤压机、纺丝挤压机、造粒机、镁注射成型机等。以下,在本实施方式1中说明的成型机2为注射成型机。注射成型机包括注射装置和配置在该注射装置的前方的合模装置。注射装置由加热料筒、在该加热料筒内设置成可在旋转方向和轴向上被驱动的螺杆、将该螺杆在旋转方向上驱动的旋转电机、和将螺杆在轴向上驱动的电机等构成。合模装置包括肘节机构和驱动该肘节机构的电机,肘节机构使模具开闭,在从注射装置射出的熔融树脂被填充到模具中时将模具夹紧,以使模具不会打开。

成型机2被设定规定成型条件的操作量,成型条件为模具内树脂温度、喷嘴温度、料筒温度、料斗温度、合模力、射出速度、射出加速度、射出峰值压力、射出行程、料筒前端树脂压、止回环落座状态、保压切换压力、保压切换速度、保压切换位置、保压结束位置、缓冲位置、计量背压、计量转矩、计量完成位置、螺杆后退速度、循环时间、模具闭合时间、射出时间、保压时间、计量时间、模具打开时间等,成型机2按照该操作量运转。最佳的操作量因成型机2的环境、成型品而异。

测定部3是在成型机2进行了成型时测定涉及该成型的物理量的装置。测定部3将通过测定处理得到的物理量数据向操作量决定装置1输出。物理量有温度、位置、速度、加速度、电流、电压、压力、时间、图像数据、转矩、力、应变、耗电等。

由测定部3测定的信息例如包含成型品信息、成型条件(测定值)、外围设备设定值(测定值)、气氛信息等。该外围设备是构成与成型机2连动的系统的设备,包含合模装置或模具。外围设备例如为成型品取出装置(机器人)、嵌件插入装置、镶件插入装置、模内转印的送膜装置、拉带成型用拉带输送装置、气辅成型用气体注入装置、使用了超临界流体的发泡成型用的气体注入装置和长纤维注入装置、LIM成型用材料混合装置、成型品的去飞边装置、流道切断装置、成型品测重计、成型品强度测试机、成型品的光学检查装置、成型品摄像装置和图像处理装置、成型品搬运用机器人等。

成型品信息包含例如拍摄成型品得到的照相机图像、由激光位移传感器得到的成型品的变形量、由光学测量仪得到的成型品的色度、亮度等光学测量值、由测重计测量出的成型品的重量、由强度测量器测定出的成型品的强度等信息。成型品信息表现了成型品是否正常、缺陷类型、缺陷的程度,也被用于奖励的计算。

成型条件包含用温度计、压力计、速度测定器、加速度测定器、位置传感器、计时器、测重计等测定得到的、模具内树脂温度、喷嘴温度、料筒温度、料斗温度、合模力、射出速度、射出加速度、射出峰值压力、射出行程、料筒前端树脂压、止回环落座状态、保压切换压力、保压切换速度、保压切换位置、保压结束位置、缓冲位置、计量背压、计量转矩、计量完成位置、螺杆后退速度、循环时间、模具闭合时间、射出时间、保压时间、计量时间、模具打开时间等信息。

外围设备设定值包含用温度计、计量器等测定得到的、被设定为固定值的模具温度、被设定为变动值的模具温度、粒供给量等信息。

气氛信息包含用温度计、湿度计、流量计等得到的气氛温度、气氛湿度、有关对流的信息(雷诺数等)等信息。

除此之外,测定部3也可以测定模具打开量、回流量、拉杆变形量、加热器加热率。

操作量决定装置1是计算机,作为硬件结构包括处理器10、存储部11和未图示的输入输出接口等。处理器10具有CPU(Central Processing Unit)、多核CPU、GPU(GraphicsProcessing Unit)、GPGPU(General-purpose computing on graphics processingunits)、TPU(Tensor Processing Unit)、ASIC(Application Specific IntegratedCircuit)、FPGA(Field-Programmable Gate Array)、NPU(Neural Processing Unit)等运算回路、ROM(Read Only Memory)、RAM(Random Access Memory)等内部存储装置、I/O端子等。处理器10通过运行后述的存储部11存储的计算机程序11a,发挥初始信息取得部12、物理量取得部13、控制部14、学习器15、映射图输出部16的功能。此外,操作量决定装置1的各功能部可以以软件方式实现,也可以是其一部分或全部以硬件的方式实现。

此外,操作量决定装置1也可以是连接在未图示的网络上的服务器装置。

存储部11是硬盘、EEPROM(Electrically Erasable Programmable ROM)、闪存等非易失性存储器。存储部11中存储有用于使计算机实施本实施方式1的操作量决定方法的计算机程序11a。另外,存储部11存储由学习器15生成的后述的状态表示映射图11b。

本实施方式的计算机程序11a也可以是计算机可读取地记录在记录介质4中的形式。存储部11存储由未图示的读出装置从记录介质4读出的计算机程序11a。记录介质4是闪存等半导体存储器。另外,记录介质4也可以是CD(Compact Disc)-ROM、DVD(DigitalVersatile Disc)-ROM、BD(Blu-ray(注册商标)Disc)等光盘。记录介质4还可以是软盘、硬盘等磁盘、磁光盘等。另外,还可以从连接在未图示的通信网上的未图示的外部服务器下载本实施方式的计算机程序11a,并存储在存储部11中。

初始信息取得部12取得成为用于决定成型机2的操作量的前提的该成型机2或成型品的初始信息。初始信息例如包含成型机信息、模具信息、树脂信息等。初始信息取得部12将取得的初始信息向学习器15输出。成型机信息包含表示成型机2的机种、合模单元、射出单元、料筒、螺杆、喷嘴的种类或特征的信息。

模具信息包含成型品外形、成型品重量、出模数、流长、成型品厚度、树脂压、树脂温度等信息。

树脂信息包含种类、等级、厂家、粘性、结晶性、玻璃化温度、融点、复合材料等信息。

此外,由于难以将所有初始信息严格数值化而生成状态表示映射图11b、或对各初始信息构筑状态表示映射图11b,所以,优选将所需的初始信息用独热表示定义。

物理量取得部13取得在成型机2进行了成型时由测定部3测定并输出的物理量数据。物理量取得部13将取得的物理量数据向控制部14输出。

如图2所示,控制部14具有观测部14a、奖励算出部14b和操作量修正部14c。观测部14a、奖励算出部14b和操作量修正部14c被输入从测定部3输出的物理量数据。

观测部14a通过分析物理量数据来观测成型机2的状态,并将观测得到的观测数据向学习器15的状态表示部15a输出。因为物理量数据的信息量大,所以,观测部14a可以生成将物理量数据的信息压缩了的观测数据。观测数据是表示成型机2的操作状态、成型品的状态等的信息。

例如,观测部14a根据照相机图像和激光位移传感器的测量值,算出表示成型品的表示外观特征的特征量、成型品的尺寸、面积、体积、光学零件(成型品)的光轴偏移量等的观测数据。另外,观测部14a可以对射出速度、射出压力、保压等时间序列波形数据进行前处理,提取该时间序列波形数据的特征量作为观测数据。此外,也可以将时间序列波形的时间序列数据、表现时间序列波形的图像数据作为观测数据。

奖励算出部14b根据物理量数据算出奖励数据,并将算出的奖励数据向学习器15的状态表示部15a输出,该奖励数据是当前的成型机2的状态下的操作量好坏的基准。

例如,奖励算出部14b通过分析照相机图像、激光位移传感器和测重计的测量值等物理量数据,算出表示成型品是否正常、缺陷程度、缺陷类型等的成型结果。作为缺陷类型,例如有翘曲·变形、熔接痕、飞边、短射、缩痕、空隙、光泽缺陷、颜色不均、黑点·污染、焦化、流痕、银纹、喷射纹、变色等。缺陷程度是缺陷的程度、缺陷的发生率等。而且,奖励算出部14b根据成型品是否正常、缺陷程度算出表示成型机2的环境、对成型机2设定的操作量是否合适的奖励数据。奖励数据例如是将成型品正常的状态设为1、将成型品有缺陷的状态设为小于1的数值数据。

奖励数据也可以是按缺陷类型表现成型品的状态的向量。例如,奖励数据可以是对各缺陷类型设没有该缺陷类型缺陷的状态为1、有该缺陷类型缺陷的状态为小于1的向量。

另外,虽然说明了通过分析物理量数据算出成型结果的例子,但也可以通过具有按钮、触摸面板等的操作面板接受操作者输入的成型结果。

操作量修正部14c根据需要修正从学习器15输出的操作量,并将修正后的操作量向成型机2输出。例如,在对操作量设定了上限值、下限值等的情况下,可以修正操作量使得涉及成型条件的值不超过该上限值或下限值。

在不需要修正的情况下,操作量修正部14c将从学习器15输出的操作量原样向成型机2输出。

学习器15学习表示了成型机2的状态的状态表示映射图11b(环境模型),进行使用该状态表示映射图11b决定操作量的有模型强化学习。如图2所示,学习器15具有状态表示部15a、状态表示学习部15b和操作量输出部15c。已学习的状态表示映射图11b由存储部11存储。

本实施方式1的成型装置系统具有学习状态表示映射图11b的学习阶段、和使用状态表示映射图11b优化操作量进行成型的应用阶段。成型装置系统可以通过未图示的操作面板接受学习阶段和应用阶段的切换。

图3是表示状态表示部15a的功能和输入输出数据的框图。

在处于学习状态表示映射图11b的学习阶段的情况下,如图3所示,状态表示部15a被输入从初始信息取得部12输出的初始信息、从观测部14a输出的观测数据、从奖励算出部14b输出的奖励数据、和从操作量输出部15c输出的操作量。状态表示部15a包括状态表示学习部15b,该状态表示学习部15b根据被输入的初始信息、观测数据、操作量和奖励数据,学习状态表示映射图11b。

状态表示映射图11b例如是在任意的初始信息和观测数据(状态s)以及操作量(行动a)被输入了的情况下输出对在该状态s下设定操作量(行动a)的奖励g和向下一状态s′转移的状态转移概率(置信度)Pt的模型。奖励g可以说是表示在状态s下当设定了某个操作量(行动a)时得到的成型品是否正常的信息。状态表示映射图11b优选以比观测数据的维度低的数据表示成型机2的状态。

此外,也可以按初始信息的种类准备状态表示映射图11b。

状态表示学习部15b根据作为学习用数据的经验数据(状态s、行动a,下一状态s′、奖励g)或历史数据,生成或更新状态表示映射图11b。例如,状态表示学习部15b可以使用最大似然估计法、贝叶斯推断等算出状态转移概率Pt,状态转移概率Pt相当于用对(状态s、行动a,下一状态s′)的访问次数n除以对(状态s,行动a,任意下一状态s′∈S)的访问次数Σn得到的值。另外,状态表示部15a可以使用最大似然估计法、贝叶斯推断等算出奖励g(表示成型品的优劣的信息),奖励g相当于用(状态s,行动a)的奖励和G除以对(状态s,行动a,任意下一状态s′)的访问次数Σn得到的值。

另外,状态表示映射图11b也可以用使用了神经网络的已学习模型构成。神经网络为具有输入层、一个或多个隐藏层和输出层的公知结构。状态表示学习部15b可以使神经网络进行学习,使得在对该神经网络输入了学习用数据的(状态s,行动a)的情况下,从该神经网络输出(下一状态s′,奖励g),也就是(向下一状态s′转移的状态转移概率Pt,奖励g)。

在由初始状态和观测数据表示的状态的数庞大的情况下,可以使用比该状态的自由度小的参数对状态和状态表示映射图进行近似。

在处于使用生成的状态表示映射图11b使成型机2运转的应用阶段的情况下,状态表示部15a被输入初始信息、观测数据、和从操作量输出部15c输出的操作量。状态表示部15a将表示当前状态的初始信息、观测数据和操作量输入状态表示映射图11b,求出状态表示数据,并将该状态表示数据向操作量输出部15c输出,该状态表示数据表示以当前状态为起点向下一状态s′转移的状态转移概率Pt和奖励g。

另外,在学习阶段和应用阶段,状态表示部15a将状态表示映射图11b与初始信息和观测数据一起向映射图输出部16输出。

操作量输出部15c根据从状态表示部15a输出的状态表示数据,决定规定的目标函数为最大的操作量,并将所决定的操作量向操作量修正部14c和状态表示部15a输出。例如,操作量输出部15c使用价值迭代法等动态规划法、线性规划法等公知方法决定操作量。

图4是表示操作量输出部15c的功能和输入输出数据的框图。操作量输出部15c包括切换部15d、第一评价部15e、第二评价部15f和操作量决定部15g。

切换部15d,在处于应用阶段的情况下,将状态表示数据向第一评价部15e输出,在处于学习阶段的情况下,将状态表示数据向第二评价部15f输出。

第一评价部15e具有用于调整操作量以成为能得到正常成型品的状态的第一目标函数。第一评价部15e通过向第一目标函数输入状态表示数据和操作量算出作为预期回报(折扣累积奖励)的评价值。预期回报是将来能得到的奖励和的预期值。

第二评价部15f具有第二目标函数,第二目标函数用于调整操作量使得成型品的状态变化,以探索状态表示映射图11b。第二评价部15f通过向第二目标函数输入状态表示数据和操作量,算出评价值,例如,对成型机2的状态和操作量的成型结果越是未知的、也就是试验次数越少,评价值就越大。此外,第二评价部15f也可使用所谓的ε-greedy法、UCB1等探索方法算出评价值。

操作量决定部15g,在处于应用阶段的情况下,决定由第一评价部15e算出的评价值为最大的操作量,在处于学习阶段的情况下,决定由第二评价部15f算出的评价值为最大的操作量。操作量输出部15c将操作量决定部15g决定的操作量向状态表示部15a和操作量修正部14c输出。

操作量决定部15g可以决定操作量,使得学习阶段中的每一步骤的操作量的变更量比应用阶段中的每一步骤的操作量的变更量大。另外,操作量决定装置1也可以构成为通过未图示的操作面板接受来自操作者的、对每一步骤的操作量的变更量的设定。操作量决定部15g在更新状态表示映射图11b的情况下,用接受的变更量变更操作量,探索状态表示映射图11b,进行更新。在模具、成型机2、外围设备的机种、树脂的物理性质发生了大的变化的情况下,可以将学习阶段中的操作量的变更量设定得大。

映射图输出部16具有映射图图像生成部16a、绘制部16b和显示处理部16c。

映射图图像生成部16a生成使状态表示映射图11b可视化了的映射图图像(参照图5、图6)。例如,映射图图像生成部16a可以根据状态表示映射图11b生成函数f(X,Y)。(X,Y)例如是将成型机2的任意状态(初始信息、观测数据)和操作量近似为二维得到的代表值。也就是说,代表值(X,Y)是表示对成型机2设定的成型条件和环境等的信息。函数f是返回表示在对成型机2设定了某个状态的操作量的情况下得到的成型品是正常的还是有缺陷的值的函数。表示成型品是否正常的值,例如是与对状态表示映射图11b输入了该状态和操作量时被输出的奖励数据相当的值。函数f(X,Y)例如能够以等高线图实现可视化。

绘制部16b执行将实际进行了成型时的状态(X1,Y1)绘制到映射图图像的处理(参照图5、图6)。另外,绘制部16b执行将实际进行了成型时得到的奖励、也就是成型品是否正常以不同的绘制图像可识别地显示的处理(参照图7)。进一步,绘制部16b执行在进行了多次实际成型时将多个状态(X1,Y1)、(X2,Y2)、…绘制在映射图图像上、并且将表示该状态的变化方向的图像显示在映射图图像上的处理(参照图8),例如,将绘制组的重心变化以箭头图像显示。

显示处理部16c执行将映射图图像、绘制有进行了实际成型时的状态的映射图图像等显示在未图示的显示部上的处理。

图5是表示映射图图像的一例的示意图。图中,横轴和纵轴表示上述代表值(X,Y)。图5中,粗线表示能得到正常成型品的成型条件与能得到缺陷成型品的成型条件的边界。以下,将状态(初始信息、观测数据)和操作量简称为成型条件。另外,将映射图图像上表示能得到正常成型品的成型条件与能得到缺陷成型品的成型条件的边界的线段简称为边界线。

例如,映射图图像生成部16a可以将函数f的值在规定的阈值以上、能得到正常成型品的成型条件和函数f的值小于规定的阈值、能得到缺陷品的成型条件以两种颜色区别显示。此外,用两种颜色进行区别是一个例子,只要能以不同的形式显示能得到正常成型品的成型条件和能得到缺陷成型品的成型条件,也可以用任意其它公知的方法进行显示。

图5中,黑点为实际进行了成型的成型条件。

图6是表示映射图图像的其它例子的示意图。横轴和纵轴与图5同样表示代表值(X,Y)。图6中,成型品的正常和缺陷、缺陷的程度以等高线图显示。具体来说,映射图图像生成部16a生成基于奖励g的等高线图。

图7是表示映射图图像的其它例子的示意图。横轴和纵轴与图5同样表示代表值(X,Y)。图7中,右上部分(正常区域)表示能得到正常成型品的成型条件,左下部分(缺陷区域)表示得不到正常成型品的成型条件。

圆圈标记和X标记在映射图图像上的位置上示出过去实际进行了多次成型时的成型条件,在绘制图像上示出成型品是否正常。圆圈标记表示得到了正常成型品,X标记表示没得到正常成型品。

如图7所示,可知:即使在能得到正常成型品的成型条件下,当实际进行成型时,也发生了成型缺陷。

在图7中,圆圈标记绘制和X标记绘制是表示成型品是否正常的绘制图像的一例。只要能表示成型品是否正常、或成型品的缺陷的程度,也可以是其它的图形图像、文字图像。另外,也可以构成为通过颜色区别来表现成型品的状态。

图8是表示映射图图像的其它例子的示意图。横轴和纵轴与图7同样地表示代表值(X,Y)。圆圈标记的绘制表示过去实际进行了多次成型时的成型条件。另外,绘制部16b将成型条件变化的轨迹、换言之为成型条件组的重心变化的历史以箭头图像重叠显示在映射图图像中。更具体地说,可以算出实际成型绘制的映射图图像上的该重心的时间平均速度,将表示该平均速度的箭头图像重叠显示在映射图图像上。

图9是表示映射图图像的其它例子的示意图。映射图图像生成部16a能够显示状态表示映射图11b的学习过程中的成型条件变化的历史、以及映射图图像中的边界线的变化。

在学习状态表示映射图11b时,为了探索环境模型,学习器15探索性地使成型条件变化。绘制部16b使状态表示映射图11b的学习过程中的成型条件重叠显示在映射图图像上。另外,显示表示成型条件的变化的箭头图像。

另外,映射图图像生成部16a在学习过程中边界线的位置变化了的情况下,使学习前的边界线和学习后的边界线在映射图图像上重叠。另外,映射图图像生成部16a将表示边界线的变化方向的箭头图像显示在映射图图像上。

图10是表示映射图图像的其它例子的示意图。粗实线表示映射图图像中的边界线。断续线表示该边界线的置信区间。

不言而喻,置信区间也可以显示在上述图5至图9所示的状态表示映射图11b上。

图5至图10中,说明了显示能得到正常成型品的状态和得到缺陷品的状态的例子,但也可以将处于得到何种缺陷类型的缺陷品的状态可识别地显示。

例如,将奖励数据设为按缺陷类型表示成型品状态的向量,状态表示映射图11b构成为在被输入了状态和操作量的情况下输出作为向量的奖励数据。而且,函数f(X,Y)也可以是返回按缺陷类型表示在对成型机2设定了某种状态的操作量的情况下得到的成型品的状态的值(f1,f2,f3,…fN)的函数。fi(i为表示缺陷类型的1至N的自然数)例如是表示是否处于该缺陷类型i的缺陷能出现在成型品上的状态的数值。fi=1相当于不出现该缺陷类型的缺陷的状态,f1=0表示出现该缺陷类型的缺陷的状态。

映射图图像生成部16a,根据f1,f2,…fN的值,生成映射图图像,该映射图图像将以代表值(X,Y)表示的成型条件以可识别能得到正常成型品的状态和出现各缺陷类型的缺陷的多个状态的方式表现。

在这样构成的情况下,操作者能够从映射图图像中在视觉上识别处于哪种缺陷类型的缺陷能出现的状态。

图11是表示学习阶段的操作量决定装置1的动作的时序图。图11中,左侧的虚线所围的部分表示作为真实世界的环境,也就是成型机2的动作和测定部3的测定动作。中央的断续线所围的部分表示控制部14的处理动作,右侧的断续线所围的部分表示学习器15的处理动作。

在成型机2进行了成型时,测定部3测定涉及该成型机2和成型品的物理量,将测得到的物理量数据向观测部14a输出(步骤S11)。

观测部14a取得从测定部3输出的物理量数据,根据所取得的物理量数据生成观测数据,并将所生成的观测数据向状态表示部15a输出(步骤S12)。

状态表示部15a取得从观测部14a输出的观测数据,通过将观测数据和初始状态等应用到状态表示映射图11b,生成状态表示数据,并将所生成的状态表示数据向操作量输出部15c输出(步骤S13)。

操作量输出部15c根据从状态表示部15a输出的状态表示数据决定成型机2的操作量,并将所决定的操作量向状态表示部15a和操作量修正部14c输出(步骤S14、步骤S15)。例如,操作量输出部15c像上述那样决定从第二目标函数得到的评价值为最大的操作量。

测定部3与步骤S11同样地将测定得到的物理量数据向操作量修正部14c输出(步骤S16)。操作量修正部14c根据物理量数据根据需要修正操作量,并将修正后的操作量向成型机2输出(步骤S17)。成型机2设定操作量,按照该操作量进行成型处理。涉及成型机2的动作和成型品的物理量被输入测定部3(步骤S18)。成型处理也可以反复进行多次。

在成型机2进行了成型时,测定部3测定涉及该成型机2和成型品的物理量,并将测定得到的物理量数据向观测部14a和奖励算出部14b输出(步骤S19、步骤S20)。

观测部14a取得从测定部3输出的物理量数据,根据所取得的物理量数据生成观测数据,并将所生成的观测数据向状态表示部15a输出(步骤S21)。

奖励算出部14b根据测定部3所测定的物理量数据算出按成型品是否正常、缺陷的程度确定的奖励数据,并将算出的奖励数据向状态表示部15a输出(步骤S22)。

状态表示部15a的状态表示学习部15b,根据从观测部14a输出的观测数据、从奖励算出部14b输出的奖励数据、从操作量输出部15c输出的操作量、以及初始信息,更新状态表示的模型(步骤S23)。状态表示学习部15b可以使用例如最大似然估计法、贝叶斯推断等更新状态表示的模型。

图12是表示应用阶段的操作量决定装置1的动作的时序图。在成型机2进行了成型时,测定部3测定涉及该成型机2和成型品的物理量,并将测定得到的物理量数据向观测部14a输出(步骤S31)。

观测部14a取得从测定部3输出的物理量数据,根据所取得的物理量数据生成观测数据,并将所生成的观测数据向状态表示部15a输出(步骤S32)。

状态表示部15a取得从观测部14a输出的观测数据,通过将观测数据和初始状态等应用到状态表示映射图11b,生成状态表示数据,并将生成的状态表示数据向操作量输出部15c输出(步骤S33)。

操作量输出部15c根据从状态表示部15a输出的状态表示数据决定成型机2的操作量,并将决定的操作量向状态表示部15a和操作量修正部14c输出(步骤S34、步骤S35)。例如,操作量输出部15c像上述那样决定由第一目标函数得到的预期回报(折扣累积奖励)为最大的操作量。

测定部3与步骤S31同样地将测定得到的物理量数据向操作量修正部14c输出(步骤S36)。操作量修正部14c根据物理量数据根据需要修正操作量,并将修正后的操作量向成型机2输出(步骤S37)。成型机2设定操作量,按照该操作量进行成型处理。涉及成型机2的动作和成型品的物理量被输入测定部3(步骤S38)。

在运用成型装置系统的环境发生了变化的情况下,操作者可以适宜地将动作模式从应用阶段切换为学习阶段更新状态表示映射图11b。从应用阶段切换为学习阶段的操作量决定装置1能够通过执行图11所示的处理来更新状态表示映射图11b。

即使在环境变化了的情况下,状态表示映射图11b的内容也不会剧烈变化,在多数情况下,只要修正能得到正常成型品的成型条件和能得到缺陷成型品的成型条件的边界部分就足够了。因此,操作量输出部15c通过输出该边界附近的操作量,进行要更新状态表示映射图11b的区域的探索。而且,操作量输出部15c可以使用相当于映射图图像上的边界线附近的操作量开始状态表示映射图11b的探索。然后,状态表示学习部15b根据在该探索过程中得到的经验数据或历史数据更新状态表示映射图11b。

按照实施方式1的成型装置系统、操作量算出装置、操作量算出方法、计算机程序11a,对环境变化的鲁棒性优异、能够在短时间内进行用于适应新环境的追加学习。

按照本实施方式1,操作量决定装置1能够生成考虑了涉及成型机2或成型品的初始信息的状态表示映射图11b。

按照本实施方式1,即使在环境变化了的情况下,也能够更新状态表示映射图11b,应对环境的变化。

按照本实施方式1,在学习阶段中,通过输出成型结果变化那样的操作量,能够有效率地更新状态表示映射图11b。

按照本实施方式1,通过在学习阶段探索状态表示映射图11b时使操作量的变动幅度增加,能够有效率地更新状态表示映射图11b。

按照本实施方式1,能够在学习阶段和应用阶段变更与操作量的决定有关的策略。能够在学习阶段有效率地进行状态表示映射图11b的更新、在应用阶段有效率地向能得到成型品的状态调整操作量。

按照本实施方式1,映射图输出部16能够将状态表示映射图11b作为映射图图像可视化地显示。映射图图像能够将能得到正常成型品的成型条件和能得到缺陷成型品的成型条件可识别地显示。

而且,映射图输出部16能够将实际进行的当前成型条件绘制到状态表示映射图11b上进行显示。

另外,映射图输出部16能够以不同绘制图像显示实际在成型条件下得到的成型品是正常的、还是有缺陷的。操作者能够直观地识别出当前成型条件是否处于能得到正常成型品的状态、当前成型条件处于从能得到正常成型品的状态偏离了何种程度的状态。

此外,映射图输出部16能够显示能得到正常成型品的状态和成型品出现缺陷的状态的边界线,并将由于状态表示映射图11b的学习形成的边界线的变化显示在映射图图像上。操作者能够直观地识别状态表示映射图11b的学习状况。

(实施方式2)

实施方式2的成型机在操作量决定装置设于成型机这一点上与实施方式1不同,因此,以下主要说明上述不同之处。其它的结构和作用效果与实施方式1同样,因此,在对应的部位标注同样的附图标记,省略详细的说明。

图13是表示实施方式2的成型机202的框图。本实施方式2的成型机202包括注射装置221、配置在该注射装置221的前方的合模装置222、和控制成型机202的动作的控制装置220。控制装置220包括本实施方式1中说明的操作量决定装置1。

按照实施方式2的成型机202,成型机202自身能够学习状态表示映射图11b,决定降低缺陷程度的操作量,根据所决定的操作量运转。

附图标记说明:

1:操作量决定装置

2:成型机

3:测定部

4:记录介质

10:处理器

11:存储部

11a:计算机程序

11b:状态表示映射图

12:初始信息取得部

13:物理量取得部

14:控制部

14a:观测部

14b:奖励算出部

14c:操作量修正部

15:学习器

15a:状态表示部

15b:状态表示学习部

15c:操作量输出部

15d:切换部

15e:第一评价部

15f:第二评价部

15g:操作量决定部

16:映射图输出部

16a:映射图图像生成部

16b:绘制部

16c:显示处理部。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号