首页> 中国专利> 用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备

用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备

摘要

本发明涉及用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法和设备。借助至少一个传感器(101)检测(1)技术系统(TS)的初始状态(AZ)和环境(UM)并且因此创建技术系统(TS)的物理仿真模型(SIM)。借助仿真模型(SIM)并且从初始状态(AZ)出发并且参考规定的目标状态(ZZ),仿真技术系统(TS)的操作步骤的不同组合,其中改变技术系统的用于实施操作步骤的调节参数。借助仿真数据并且借助对相应操作步骤的评定来训练机器学习例程并且利用经训练的机器学习例程确定操作步骤的优化组合。输出操作步骤的优化组合的调节参数来控制技术系统(TS)。

著录项

  • 公开/公告号CN112292239A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 西门子股份公司;

    申请/专利号CN201980043512.7

  • 发明设计人 M·比肖夫;M·托基克;

    申请日2019-06-19

  • 分类号B25J9/16(20060101);G05B13/02(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人姬亚东;刘春元

  • 地址 德国慕尼黑

  • 入库时间 2023-06-19 09:41:38

说明书

技术领域

本发明涉及用于计算机辅助地确定用于适宜操作技术系统、特别是自主技术系统、诸如自主机器人的调节参数的方法和设备。

背景技术

借助自主技术系统、诸如自主机器人可以操纵物体。在此作为示例可以提到由机器人的末端执行器来抓住对象。常规控制方法例如基于由传感器识别物体和环境和其中的技术系统并且借助路径规划算法来确定用于抓住对象的合适操作流程或路径。因此,常规方法通常只能观察并且只能困难地预测技术系统的环境的实际状态,如基于物理规律来预测,所述物理规律的行为影响所述环境。

例如可以使用所谓的同时定位与地图创建方法(英文:“SimultaneousLocalization and Mapping”),其也称为SLAM方法,其中借助传感器数据检测或评估自主技术系统的环境。特别是检测自主技术系统本身和必要时其他物体在环境中的位置和定向。借助通常基于数学和/或数值方法的路径规划算法可以确定自主技术系统的允许且适宜的路径或操作步骤的序列。但是,这种方法通常不考虑操作自主技术系统的后果或其他物理效应。

发明内容

因此,本发明的任务是实现以下可能性:在考虑技术系统的环境的情况下确定技术系统的适宜操作步骤。

该任务通过具有专利权利要求1的特征的方法、设备和计算机程序产品来解决。本发明的有利实施方式和扩展方案在从属权利要求中说明。

本发明的第一方面涉及一种用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法,其包括以下方法步骤:

- 借助至少一个传感器检测技术系统的初始状态和环境,

- 生成技术系统和其环境的物理仿真模型,

- 确定技术系统的目标状态,

- 从初始状态出发并且参考目标状态,借助物理仿真模型来仿真技术系统的操作步骤的不同组合,其中改变技术系统的用于实施操作步骤的调节参数,并且输出相应的所产生的仿真数据,

- 借助相应的所产生的仿真数据并且借助对相应操作步骤的评定来训练机器学习例程,

- 借助经训练的机器学习例程来确定操作步骤的优化组合,其中操作步骤的优化组合与适宜的评定相关联,以及

- 输出操作步骤的优化组合的调节参数来控制技术系统。

本发明的优点是借助结合机器学习例程的计算机辅助仿真可以以快速且高效的方式确定技术系统的操作或操作流程或路径,因为特别是物理效应、诸如重力或碰撞,和物理参量可以在确定操作步骤的优化组合时予以考虑。机器学习例程可以确定适宜的操作步骤,这些操作步骤利用物理效应、诸如与环境的相互作用,因为机器学习例程借助仿真数据来训练。特别是可以创建并代替常规SLAM方法来使用物理仿真模型。在机器学习方法的范围内,路径规划尤其可以通过以不同路径重复执行物理仿真来实现,即例如借助不同的调节参数来进行对技术系统的不同控制可能性。调节参数或控制参数尤其包括用于控制技术系统的控制命令或指令。通过例如正面评定路径可以实现优化的路径规划,因为例如可以将物理定律一并考虑到规划中。由此,对适宜的操作流程的确定特别是灵活的,因为例如不是固定不变地规定操作步骤的序列。

技术系统尤其可以是自主技术系统、诸如自主机器人。确定操作步骤的组合尤其可以理解为动作顺序的规划、操作规划或路径规划,其中各个操作步骤借助调节参数来控制。操作步骤尤其可以理解为技术系统的动作或运动。

机器学习例程可以理解为机器学习方法、诸如神经网络。尤其可以使用监督学习方法、诸如强化学习方法(英文:“Reinforcement Learning”)。机器学习例程从技术系统的由至少一个传感器确定的初始状态出发并且参考目标状态来进行训练。换言之,为了训练机器学习例程而规定目标状态并且训练机器学习例程,使得该机器学习例程从初始状态出发来确定导致目标状态的操作步骤的组合。

目标状态例如可以被规定和/或作为数据记录而读入。从初始状态出发,操作步骤的不同组合可以导致目标状态,其中所述不同组合中的一些组合能够是更适宜的。不同操作步骤可以借助仿真模型来进行计算机辅助仿真并且分别输出仿真数据。仿真数据例如可以包括技术系统的调节参数的值、状态、动作和反应以及技术系统的物理效应和参量以及技术系统的环境。

每个操作步骤和/或其效果可以被评定或者每个操作步骤可以分别与评定相关联。机器学习例程尤其可以借助分别与一个操作步骤相关联的评定来训练,诸如借助回报函数(英文:“reward function”)来训练。尤其可以优选适宜的操作步骤,其中术语“适宜”在本发明的上下文中可以理解为有利、有用、合适、合理、有效、高能效、快速、短路程等。确定适宜操作步骤的组合例如可以通过比较操作步骤的不同组合的总评定来实现,其中可以选择具有适宜的总评定的那个组合。

在方法的一种有利的实施方式中,一旦操作步骤的至少一个组合的仿真数据可用,就可以训练机器学习例程。

尤其能够有利的是,并行执行技术系统的计算机辅助仿真以及机器学习例程的训练。尤其可以并行计算多个仿真。例如可以在多于一个的计算单元、诸如图形处理器上执行并行计算。因此,例如可以实现快速且有效确定操作步骤的适宜组合。

在方法的另一有利的实施方式中,可以针对多于一个的目标状态和/或针对多于一个的初始状态执行对技术系统的仿真和对机器学习例程的训练并且分别确定具有适宜评定的操作步骤的组合并且将其存储在存储单元中。

例如可以借助在不同初始状态的仿真数据并且参考不同的目标状态来训练多于一个的机器学习例程并且分别存储操作步骤的与适宜评定相关联的组合。因此,对于技术系统的不同状态可以优选地存储相应的经训练的机器学习例程,使得当例如探测到技术系统的相应初始状态时可以快速访问所述相应的经训练的机器学习例程。也可以仿真相似的动作,训练相应的机器学习例程并且将其用于今后的训练,使得可以缩短计算时间。存储单元尤其可以是数据库。

在方法的另一有利的实施方式中,具有适宜评定的操作步骤的优化组合的调节参数可以根据目标状态而存储在存储单元中。

优选地,可以借助经训练的机器学习例程确定操作步骤的与适宜评定相关联的组合并且技术系统的调节这些操作步骤的相应调节参数可以保存在数据库中。因此,这些调节参数例如可以用于具有相同初始和目标状态的今后动作。

在方法的另一有利的实施方式中,操作步骤的优化组合的调节参数可以传输到技术系统。

调节参数可以为了控制技术系统而传输到技术系统,使得技术系统可以实施操作步骤的组合。优选地,可以仅将用于控制操作步骤的与适宜评定相关联的组合的调节参数传输到技术系统。

在方法的另一有利的实施方式中,目标状态可以根据技术系统的所检测的初始状态和/或所检测的环境来确定。

优选地,可以借助至少一个传感器确定初始状态并且据此确定目标状态。例如,目标状态可以与初始状态相关联或者可以从规定的目标状态的集合中选择目标状态。作为示例可以提到借助摄像机检测物体,其中根据该探测来规定目标状态、例如“抓住物体”。

在方法的另一有利的实施方式中,可以根据操作步骤的结果和/或参考目标状态来评定操作步骤。

可以根据动作的结果或效果来评定技术系统的操作步骤、诸如末端执行器的动作。特别是评定可以与操作步骤相关联。尤其可以根据所确定的目标状态来进行评定。

在方法的另一有利的实施方式中,可以根据技术系统的目标状态和/或环境和/或类型来构建物理仿真模型。

优选地,可以根据技术系统的目标状态和/或环境和/或类型来选择仿真模型和计算机辅助仿真的复杂度和/或维度。

在方法的另一有利的实施方式中,技术系统的初始状态和环境可以持续借助传感器来检测并且物理仿真模型可以借助传感器数据持续更新。

优选地,借助传感器连续地或在规定时间点监视技术系统的当前初始状态和环境,使得可以相应地调整物理仿真模型。

在方法的另一有利的实施方式中,技术系统的环境中的物体的物理特性可以作为参数数据来检测,被存储在存储单元中并且被整合在物理仿真模型中。

除了物体识别之外,在例如数据库中可以查询物体的物理特性或参数。技术系统的环境中的物体的物理参量、诸如重量或材料特性可以事先被检测并且被存储在存储单元中。物理特性尤其可以作为参数数据或作为输入数据被用于仿真模型。因此,例如可以详细仿真物理效应、诸如物体在地球重力场中的下落。

在方法的另一有利的实施方式中,可以时间并行地在多于一个的计算单元上仿真技术系统的操作步骤的不同组合。

优选地,计算机辅助仿真和/或对机器学习例程的训练可以并行地在诸如图形处理器(英文:“graphics processing unit”,简称GPU)上执行。因此,尤其可以快速且有效地计算适宜操作步骤的组合。

本发明的另一方面涉及一种用于计算机辅助地确定用于适宜操作技术系统的调节参数的设备,该设备包括:

- 用于检测技术系统的初始状态和环境的至少一个传感器,

- 用于生成技术系统和其环境的物理仿真模型的生成模块,

- 用于确定技术系统的目标状态的目标模块,

- 用于从初始状态出发并且参考目标状态,借助物理仿真模型来仿真技术系统的操作步骤的不同组合的仿真模块,其中改变技术系统的用于实施操作步骤的调节参数,并且输出相应的所产生的仿真数据,

- 用于根据相应的所产生的仿真数据借助对相应操作步骤的结果的评定来训练机器学习例程的训练模块,

- 用于借助经训练的机器学习例程来确定操作步骤的优化组合的优化模块,其中操作步骤的优化组合与适宜的评定相关联,以及

- 用于输出操作步骤的优化组合的调节参数来控制技术系统的输出模块。

该设备尤其可以集成到技术系统中或与该技术系统耦合。

在一种有利的实施方式中,设备包括用于将调节参数传输到技术系统的传输模块。

在另一有利的实施方式中,设备包括存储单元和/或至少一个计算单元。

存储单元例如可以是数据库。计算单元尤其可以是处理器或图像处理器。

此外,本发明包括一种计算机程序产品,其可以直接加载到可编程计算机中,该计算机程序产品包括适用于执行根据本发明的方法的步骤的程序代码部分。

附图说明

根据本发明的方法和设备的实施例在附图中示例性示出并且根据随后的说明书详细阐述。以示意图:

图1示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法的流程图;

图2示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法的示意图;以及

图3示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的设备的示意图。

彼此相应的对象在所有图中配备有相同的附图标记。

具体实施方式

图1示意性示出根据本发明的用于计算机辅助地确定用于适宜操作技术系统的调节参数的方法的流程图,该方法包括以下方法步骤。

在下文中,技术系统尤其可以是自主技术系统、诸如工业环境中的自主机器人。技术系统可以实施操作的操作步骤,以便从初始情况出发电动所确定的目标状态。借助调节参数规定操作步骤,即借助调节参数控制技术系统。

在根据本发明的方法的步骤1中,借助至少一个传感器检测技术系统和其环境的初始状态的数据。至少一个传感器可以是技术系统的一部分,与该部分耦合或与该部分相关联。例如,技术系统可以是生产设施中的工业机器人,借助摄像机检测该工业机器人的当前位置、定向和环境。该环境例如可以是技术系统的规定的动作半径内的直接环境。环境的特性和/或状态参量尤其可以是处于那里的对象或物理参量、如空间高度或温度。

在步骤2中,借助由至少一个传感器检测的数据来生成技术系统和其环境的物理仿真模型。尤其是,可以已经事先创建了技术系统的物理仿真模型,仅仅借助所检测的数据作为输入数据来调整该仿真模型。仿真模型尤其是物理仿真模型,其中实现自然定律、诸如重力。

可以根据技术系统的目标状态和/或环境和/或类型来选择物理仿真模型的复杂度和/或域和/或维度。例如可设想的是,使用刚体力学的仿真,以便仿真由机器人抓住固体对象。根据技术系统的应用领域,可以进行来自其他物理域的仿真。例如,自主技术系统可以执行化学流体动力学或财政经济过程,使得可以构建相应的域特定的仿真,以便预测技术系统的动作的效果。

在步骤3中确定并且读入目标状态的数据。目标状态例如可以作为参数数据记录或矢量存在并且尤其描述操作的结果状态。尤其是,目标状态可以被规定和/或借助所检测的初始情况来确定。目标状态例如可以说明:应该由技术系统利用末端执行器来抓住物体,其中初始状态例如描述技术系统的环境中的物体。

在步骤4中,例如在一个或多个处理器上执行技术系统的计算机辅助的物理仿真。对此,读入初始状态的数据、环境的数据和目标状态的数据并且从这些数据出发来进行仿真。尤其是仿真技术系统的操作步骤的至少一个组合,其中仿真从初始状态开始并且选择操作步骤,使得由技术系统达到规定的目标状态。

此外,环境中的物体的例如作为参数数据存储在数据库中的物理特性可以被读入并且在仿真模型中予以考虑。例如借助传感器可以检测待抓住的物体的大小。对此,借助对物体的物理特性的收集例如可以确定表面的形态或重量并且将其用在仿真中。

也可能的是,从初始状态出发,操作步骤的不同组合可以达到目标状态。例如,自主机器人可以围绕不同的轴旋转可运动机器人臂并且因此以不同的路径达到目标位置。优选地,操作步骤的不同组合借助物理仿真来进行仿真,其中相应地改变用于控制不同操作步骤的调节参数。随后输出操作步骤的相应组合的仿真数据。仿真数据可以用作训练机器学习方法的训练数据。

仿真数据尤其也可以包含与环境相互作用的信息。例如,在机器人捕捉物体时能够合理的是,在物体被接住或抓住之前首先让物体弹回。与墙壁、即环境的相互作用和由此产生的操作步骤可以借助物理仿真来计算。

在步骤5中,借助相应的仿真数据来训练机器学习例程。学习例程例如可以是神经网络,其借助强化学习来训练。训练可以借助对相应操作步骤的评定来进行。例如可以根据操作步骤的结果和/或参考目标状态来评定操作步骤。评定尤其可以说明操作步骤是否是适宜的。

尤其是,一旦以计算的方式存在操作步骤的组合的第一仿真数据,就可以训练机器学习例程。仿真和对机器学习例程的训练可以优选地几乎并行地计算。

在步骤6中,借助经训练的机器学习例程可以确定与适宜评定相关联的操作步骤的优化组合,其中“优化”也可以理解为“近似最优”。换言之,可以确定操作步骤的例如特别适宜的序列。该确定例如可以借助将操作步骤的组合的总评定与操作步骤的另一组合的总评定进行比较来实现。尤其是,借助经训练的机器学习例程可以确定技术系统的适宜操作,其中对此规定目标状态并且确定技术系统的初始状态和环境的传感器数据。

在步骤7中,与操作步骤的优化组合相关联的调节参数可以被输出用于控制技术系统。调节参数可以传递到技术系统,以便该技术系统可以实施操作步骤的适宜组合。

图2以框图示意性示出根据本发明的设备100。设备100例如可以集成在技术系统中或者与技术系统经由通信连接C来耦合。

设备100包括至少一个传感器101和/或与技术系统的至少一个传感器耦合。设备100还包括用于生成技术系统和其环境的物理仿真模型SIM的生成模块102、目标模块103、仿真模块104、用于训练机器学习例程的训练模块105、用于借助机器学习例程确定操作步骤的优化组合的优化模块106、输出模块107、传输模块108、至少一个存储单元109和至少计算单元110。优选地,模块和/或单元彼此耦合。尤其是,根据本发明的设备100的各个单元可以是单独地构建在不同的系统中的并且彼此耦合,诸如多个传感器,它们安装在技术系统TS的环境中并且与其他单元通信。

借助生成模块102生成技术系统的物理仿真模型SIM,其中可以根据所检测的初始状态和/或环境来选择仿真模型的复杂度、域和维度。借助目标模块103读入技术系统的目标状态。应该从初始状态出发并且根据技术系统的环境,由操作步骤的组合达到目标状态。通过调节参数来控制技术系统,其中至少一个调节参数限定操作步骤。

在仿真模块104中,借助仿真模型SIM,从初始状态出发并且参考目标状态来仿真操作步骤的不同组合。例如也可以在多于一个的计算单元110上并行执行多个仿真。也可以针对不同的初始状态和/或不同的目标状态分别执行至少一个仿真并且输出相应的仿真数据。

在训练模块105中,借助作为训练数据的仿真数据训练机器学习例程,以确定操作步骤的适宜组合。对此,例如根据操作步骤的相应结果来评定操作步骤的组合的各个经仿真的操作步骤。由此得出借助仿真数据训练的机器学习例程,其可以输出具有适宜评定的操作步骤的组合。经训练的机器学习例程可以从训练模块105输出到优化模块106。在优化模块106中确定操作步骤的适宜组合。在优化模块106中,将经训练的机器学习方法例如应用于初始状态和环境的传感器数据,以便确定操作步骤的适宜组合。

通过输出模块107将用于控制操作步骤的所选择的组合的调节参数输出给技术系统并且由传输模块108传输到该技术系统来实施操作步骤。

在存储单元109中可以存储仿真数据和/或调节参数。例如,针对不同的初始状态和/或目标状态可以执行不同仿真。从这些仿真数据出发,可以训练至少一个机器学习例程并且借助经训练的机器学习例程可以确定操作步骤的适宜组合。

至少一个计算单元110例如可以是处理器或图像处理器,在该处理器或图像处理器上,根据本发明的计算机程序产品可以执行根据本发明的方法的步骤。尤其是可以将多个计算单元(未示出)用于并行仿真和/或对机器学习例程的训练。

设备100尤其可以用于控制自主技术系统,其中用于达到规定目标状态的适宜操作步骤借助机器学习例程和物理仿真来确定。

图3示意性示出根据本发明的方法的一个实施例。作为技术系统TS示出自主机器人,其借助根据本发明的设备100来控制,使得该自主机器人可以执行适宜操作步骤的优化组合。自主机器人包括传感器101、诸如摄像机,利用该传感器可以检测自主机器人的位置和定向以及其环境UM。摄像机优选地与设备100耦合。例如,摄像机101只检测机器人TS的环境的规定范围、诸如机器人的动作范围。环境UM和机器人TS的定向的所检测的数据作为输入数据被提供用于计算机辅助仿真。此外,在机器人的环境中可以探测到物体OBJ。初始状态AZ的数据例如包括物体OBJ和机器人臂的位置。

规定目标状态ZZ、诸如由机器人臂摄取并抓住物体OBJ。

在设备100中,从初始状态AZ出发并且参考目标状态ZZ来执行机器人和其环境的计算机辅助的物理仿真,参见步骤4。对此,读入初始状态AZ和环境UM的所检测的数据以及目标状态ZZ的数据并且创建仿真模型。仿真模型尤其包括技术系统TS和其环境UM的物理特性。附加地,对于探测到的物体OBJ可以从数据库中调用物理特性、诸如重量并且将其用于仿真模型。

仿真数据被传送到设备100的训练模块105,以便训练机器学习例程,以确定适宜操作步骤的组合,参见步骤5和6。借助仿真数据作为训练数据来训练机器学习例程。对此,分别评定各个所仿真的操作步骤。例如,操作步骤根据其结果来进行评定。借助经训练的机器学习例程可以确定操作步骤的适宜组合。操作步骤的适宜组合例如可以具有由机器人TS快速且高能效地抓住物体OBJ作为结果。

适宜操作步骤的所确定的组合被传输到机器人臂并且借助相应的调节参数由该机器人臂来实施。机器人臂执行各个操作步骤,使得达到规定的目标状态ZZ。

所有描述的和/或图示的特征可以在本发明的范围内有利地相互组合。本发明不限于所描述的实施例。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号