首页> 中国专利> 用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法

用于以轨迹为中心的基于模型的强化学习的稳健优化的系统及方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

提供了用于优化用于以轨迹为中心的强化学习的系统的局部控制策略的控制器。控制器包括执行以下步骤：使用在使用初始随机控制策略执行的试错实验期间收集的数据的集合，来学习系统的随机预测模型；估计相关联的平均预测和不确定性；在当前时间步骤使用控制输入时，使用经过学习的随机系统模型确定系统与标称系统状态的偏差的局部集合；确定具有最坏情况偏差的系统状态；确定稳健性约束的梯度；使用非线性规划来提供并求解稳健策略优化问题，以获得系统轨迹并且同时稳定局部策略；根据求解的优化问题更新控制数据；以及经由接口输出更新后的控制数据。

著录项

公开/公告号CN114761966A

专利类型发明专利
公开/公告日2022-07-15

原文格式PDF
申请/专利权人三菱电机株式会社;
展开▼

申请/专利号CN202080084431.4
发明设计人 D·贾;P·科拉力克;A·拉格胡娜汉;M·本诺斯曼;D·罗梅雷斯;
展开▼

申请日2020-12-04
分类号G06N3/00;G06N7/00;
代理机构北京三友知识产权代理有限公司;
代理人杨雪玲;孙东喜
地址日本东京都
入库时间 2023-06-19 16:00:13

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-15

公开

国际专利申请公布

相似文献

专利
中文文献
外文文献

1. 一种基于深度强化学习与神经网络的轨迹预测模型方法、系统及装置 [P] . 中国专利： CN113298324A . 2021-08-24
2. 一种基于分布式协同采样中心式优化的强化学习训练系统及方法 [P] . 中国专利： CN112199154A . 2021-01-08
3. 一种复杂工况下自动驾驶车辆决策系统及其轨迹规划方法 [P] . 世界知识产权组织专利： WO2020/143288A1 . 2020.07.16
4. 在虚拟场景中组合模型的方法、系统、设备和介质 [P] . 世界知识产权组织专利： WO2020/143250A1 . 2020.07.16
5. 一种基于集成学习的工业控制系统入侵检测方法 [P] . 世界知识产权组织专利： WO2020/143226A1 . 2020.07.16