首页> 中国专利> 因果关系驱动的分层强化学习框架及分层强化学习方法

因果关系驱动的分层强化学习框架及分层强化学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出一种基于因果关系驱动的分层强化学习框架，包括：因果关系发现模块，用于获取智能体的强化学习环境中各环境变量之间的因果关系，并构建为因果关系图；子目标分层结构构造模块，用于根据该环境变量的变化函数，构建分层强化学习的子目标集合，选取该环境变量中的可控变量，通过该因果关系图从该子目标集合中选出与该可控变量关联的子目标为可达子目标，以所有该可达子目标的逻辑关系为该分层强化学习的分层关系。还提出一种基于因果关系驱动的分层强化学习方法，以及一种数据处理装置。

著录项

公开/公告号CN115271090A

专利类型发明专利
公开/公告日2022-11-01

原文格式PDF
申请/专利权人中国科学院计算技术研究所;
展开▼

申请/专利号CN202210700253.4
发明设计人胡杏;彭少辉;张蕊;郭家明;易琦;张曦珊;杜子东;郭崎;陈天石;
展开▼

申请日2022-06-20
分类号G06N20/00;G06N5/04;
代理机构北京律诚同业知识产权代理有限公司;
代理人祁建国;张燕华
地址 100080 北京市海淀区中关村科学院南路6号
入库时间 2023-06-19 17:24:03

法律信息

法律状态公告日

法律状态信息

法律状态
2022-11-01

公开

发明专利申请公布

相似文献

专利
中文文献
外文文献

1. 基于策略选项的分层强化学习方法和装置 [P] . 中国专利： CN112052947B . 2021-06-25
2. 一种分层决策的完全合作多智能体强化学习方法和系统 [P] . 中国专利： CN113780577A . 2021-12-10
3. Task-oriented Dialogue System with Hierarchical Reinforcement Learning [P] . 美国专利： US2022130546A1 . 2022-04-28

机译：面向任务的分层强化学习对话系统
4. SPATIAL AND TEMPORAL ATTENTION-BASED DEEP REINFORCEMENT LEARNING OF HIERARCHICAL LANE-CHANGE POLICIES FOR CONTROLLING AN AUTONOMOUS VEHICLE [P] . 美国专利： US2020139973A1 . 2020-05-07

机译：基于时空注意的深度强化学习，用于控制自主车辆的分层车道变化策略
5. Hierarchical device placement with reinforcement learning [P] . 美国专利： US10438113B2 . 2019-10-08

机译：通过强化学习进行分层设备放置