首页> 中国专利> 一种空间精细操作的分层任务规划方法及系统

一种空间精细操作的分层任务规划方法及系统

摘要

本发明公开了一种空间精细操作的分层任务规划方法及系统,属于空间技术领域。针对策略网络学习多任务时梯度估计方差大、算法收敛性不佳问题,构建基于动力学估计器和Monte Carlo树搜索的高层策略规划,具体包括如下三个步骤:离线数据采集、异步高/低层策略优化、模型评估。本发明提高算法收敛性,有助于节省在轨服务空间操作的星载计算资源,满足实际工程需求。

著录项

  • 公开/公告号CN114781789A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 北京控制工程研究所;

    申请/专利号CN202210233572.9

  • 申请日2022-03-10

  • 分类号G06Q10/06;G06N3/04;G06N3/08;

  • 代理机构中国航天科技专利中心;

  • 代理人高志瑞

  • 地址 100080 北京市海淀区北京2729信箱

  • 入库时间 2023-06-19 16:04:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本发明属于空间技术领域,尤其涉及一种空间精细操作的分层任务规划方法及系统。

背景技术

空间精细操作需要学习长时、序列多任务的能力。例如,为了实现对非合作目标的在轨加注任务,服务航天器需要首先进行捕获目标航天器、重定位、切割包覆膜、剪线、开盖等,才能执行加注操作。实际上,很难通过强化学习优化的单个策略网络执行上述多种操作任务。此外,对于多任务/多MDP的强化学习,需要采集的样本数量多,也需要相应地提高策略网络的参数维度,造成优化过程的梯度估计方差大、算法收敛性不佳等方面的问题。

发明内容

本发明解决的技术问题是:克服现有技术的不足,提供了一种空间精细操作的分层任务规划方法及系统,有助于降低学习过程的采样复杂度,在算力受限的场景下具有实际意义。

本发明目的通过以下技术方案予以实现:一种空间精细操作的分层任务规划方法,所述方法包括如下步骤:步骤1:离线采集数据集;步骤2:根据数据集进行异步优化高层策略和低层策略;步骤3:对优化后的高层策略和低层策略进行模型评估。

上述空间精细操作的分层任务规划方法中,在步骤1中,离线采集数据集包括如下步骤:利用多刚体动力学仿真平台搭建空间操作环境;根据空间操作环境设计深度神经网络,离线采集数据集。

上述空间精细操作的分层任务规划方法中,数据集为:{

上述空间精细操作的分层任务规划方法中,在步骤2中,根据数据集进行异步优化高层策略和低层策略包括如下步骤:步骤2.1:按照周期T进行高层策略优化;步骤2.2:按照周期N*T进行低层策略优化;步骤2.3:采样N~randint(a,b),其中,randint(a,b)代表在[a,b]区间内随机采样整数。

上述空间精细操作的分层任务规划方法中,在步骤2.1中,按照周期T进行高层策略优化包括如下步骤:步骤2.1.1:基于数据集D回归动力学逼近器P;步骤2.1.2:对预设时间窗口内的状态序列进行预处理编码,将编码后的输出信号定义为MCTS的根节点,子目标状态定义为其他节点,宏动作定义为节点间的连接,运行Monte-Carlo树,计算得到目标信号g并输出至低层策略。

上述空间精细操作的分层任务规划方法中,高层策略包含动力学逼近模型P和Monte Carlo树搜索算法A两部分,低层策略以高层策略的动力学逼近模型P输出的目标信号g为引导,根据当前状态s输出控制a,控制空间操作环境E中的执行结构,进而形成系统闭环。

上述空间精细操作的分层任务规划方法中,在步骤3中,对优化后的高层策略π

上述空间精细操作的分层任务规划方法中,在步骤3.1中,正方形区域的大小满足以下条件:在正方形区域的区域边缘布置相机时,保证相机视线垂直该正方形区域的条件下,相机视场内可拍到操作对象至少30%部分。

一种空间精细操作的分层任务规划系统,包括:第一模块,用于离线采集数据集;第二模块,用于根据数据集进行异步优化高层策略和低层策略;第三模块,用于对优化后的高层策略和低层策略进行模型评估。

上述空间精细操作的分层任务规划系统中,离线采集数据集包括如下步骤:

利用多刚体动力学仿真平台搭建空间操作环境;

根据空间操作环境设计深度神经网络,离线采集数据集。

本发明与现有技术相比具有如下有益效果:

(1)只要涉及到空间机械臂的多任务精细操作,就可利用本发明构建的方法进行策略学习,既可支撑多种类型的在轨服务,如在轨加注、模块更换、协助太阳帆板展开、辅助离轨等,也可支撑在轨装配任务,具有广泛的工程适用性。

(2)本发明创新提出通过分层强化学习方法,解决空间精细操作学习的样本采集与利用低效问题。特别地,针对高、底层策略更新频率设计难问题,本发明创新提出利用随机时间步增加分层策略泛化能力。

(3)本发明构建的方法与系统有助于节省星载计算资源,满足实际工程需求。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1为本发明的方法原理图;

图2为本发明的方法流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明的任务背景是面向在轨服务的空间精细操作学习。在轨服务指:服务航天器与目标航天器完成交会或对接后,利用携带的机械臂对目标航天器进行末段操作的过程。包括:燃料补加、故障修复、模块更换、辅助离轨等。面对复杂的空间环境、操作的强自主性要求、以及操作过程诸多方面的不确定性,传统基于确定性环境和精确动力学模型的操作控制技术难以适应。基于学习的空间精细操作,尤其是基于强化学习的空间精细操作,是一种有效的技术途径。

利用分层的结构,即将单个策略网络分为上、下两层,上层策略网络为下层策略网络提供目标,下层策略网络产生与环境交互的动作信号,在时序上实现一种分层抽象;在优化时,上、下层策略的参数更新频率不同,下层策略更新快,上层策略更新慢,有利于降低单次优化的负担。

针对策略网络学习多任务时梯度估计方差大、算法收敛性不佳问题,通过设计基于动力学估计器和Monte Carlo树搜索的高层策略规划,形成了一种空间精细操作的分层任务规划方法。本发明构建的方法有助于降低学习过程的采样复杂度,在算力受限的场景下具有实际意义。

如图1所示,一种空间精细操作的分层任务规划方法,系统实施对象包括:空间操作环境E,包括机械臂与操作的对象,环境可以是虚拟的也可以是真实的;数据D,从空间操作环境采集的观测数据o的集合;预处理F,主要功能是对数据进行降噪、滤波,并对多路观测o的特征进行融合,输出信号定义为状态s;采样S,功能是进一步降低数据维数,具体可通过截取轨迹信号中的某一段,或者直接选取轨迹信号初始状态实施,输出信号定义为情境c;整体的策略网络设定为分层结构,分为高层策略π

如图2所示,一种空间精细操作的分层任务规划方法,具体包括如下实施步骤:

步骤1,离线数据采集。首先,利用多刚体动力学仿真平台搭建空间操作环境E,具体可通过MuJoCo、Gazebo等仿真平台实施。其次,将低层策略、高层策略分别实例化成深度神经网络,具体实施方式如下:低层策略采用CNN串联LSTM的网络结构,高层策略中动力学逼近模型采用MLP网络结构。进一步,随机初始化各网络参数,运行策略,离线采集数据{

步骤2,根据数据集进行异步优化高层策略π

步骤3,对优化后的高层策略π

步骤2.1,按照周期T进行高层策略优化;

步骤2.2,按照周期N*T进行低层策略优化,优化算法可以采用一般的强化学习算法,如TRPO、PPO、SAC等;

步骤2.3,采样N~randint(a,b),其中randint(a,b)代表在[a,b]区间内随机采样整数。取a=5,b=10进行实施;

作为本发明的进一步限定方案,步骤2.1按照周期T进行高层策略优化的具体步骤包括:

步骤2.1.1,基于数据集D回归动力学逼近器P,回归算法可以采用一般的监督学习算法,如极大似然法、最小二乘法等。

步骤2.1.2,对一定时间窗口内的状态序列(宏状态,macro-states)进行预处理编码,将编码后的信号定义为MCTS的根节点,子目标状态定义为其他节点,宏动作(macro-actions)定义为节点间的连接,运行Monte-Carlo树,计算得到目标信号g并输出至低层策略。

作为本发明的进一步限定方案,步骤3对优化后的高层策略π

步骤3.1,圈定以操作对象为中心的正方形区域,正方形区域的大小由操作对象尺寸决定,且应保证在区域边缘布置相机时、相机视线垂直该正方形区域的条件下,相机视场内可拍到操作对象至少30%部分;

步骤3.2,评估高层策略π

步骤3.3,评估低层策略π

本实施例还提供了一种空间精细操作的分层任务规划系统,包括:第一模块,用于离线采集数据集;第二模块,用于根据数据集进行异步优化高层策略和低层策略;第三模块,用于对优化后的高层策略和低层策略进行模型评估。

只要涉及到空间机械臂的多任务精细操作,就可利用本发明构建的方法进行策略学习,既可支撑多种类型的在轨服务,如在轨加注、模块更换、协助太阳帆板展开、辅助离轨等,也可支撑在轨装配任务,具有广泛的工程适用性。

本发明创新提出通过分层强化学习方法,解决空间精细操作学习的样本采集与利用低效问题。特别地,针对高、底层策略更新频率设计难问题,本发明创新提出利用随机时间步增加分层策略泛化能力。

本发明构建的方法与系统有助于节省星载计算资源,满足实际工程需求。

本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号