首页> 中国专利> 认知行为模型加速的深度Q网络强化学习方法及设备

认知行为模型加速的深度Q网络强化学习方法及设备

页面导航

摘要
著录项
相似文献

摘要

本公开提供一种认知行为模型加速的深度Q网络强化学习方法及设备，利用认知行为模型从环境中获取状态信息并根据状态信息得到认知行为知识，并发送至启发策略网络；利用深度强化学习模型从环境中获取状态信息；利用启发策略网络根据状态信息和认知行为知识得到启发策略值，并发送至深度Q网络；利用深度Q网络根据状态信息和启发策略值得到动作并执行；利用深度强化学习模型从环境中获取回报，并对启发策略网络和深度Q网络进行迭代更新；循环执行上述操作，响应于确定深度Q网络收敛，结束强化学习。本公开通过认知行为模型和启发策略网络加速了深度Q网络的收敛，有效缓解了状态空间巨大和奖励回报稀疏对学习效率的影响。

著录项

公开/公告号CN113554166A

专利类型发明专利
公开/公告日2021-10-26

原文格式PDF
申请/专利权人中国人民解放军国防科技大学;
展开▼

申请/专利号CN202110669282.4
发明设计人黄健;李嘉祥;陈浩;刘权;张中杰;付可;韩润海;
展开▼

申请日2021-06-16
分类号G06N3/08(20060101);G06N3/04(20060101);
代理机构11403 北京风雅颂专利代理有限公司;
代理人曾志鹏
地址 410003 湖南省长沙市开福区德雅路109号
入库时间 2023-06-19 13:00:48

相似文献

专利
中文文献
外文文献

1. 认知行为模型加速的深度Q网络强化学习方法及设备 [P] . 中国专利： CN113554166A . 2021-10-26
2. 基于认知的智能体强化学习方法、装置、系统、计算机设备及存储介质 [P] . 中国专利： CN110826725A . 2020-02-21
3. METHOD AND DEVICE FOR CALIBRATING PHYSICS ENGINE OF VIRTUAL WORLD SIMULATOR TO BE USED FOR LEARNING OF DEEP LEARNING-BASED DEVICE AND A LEARNING METHOD AND LEARNING DEVICE FOR REAL STATE NETWORK USED THEREFOR [P] . 韩国专利： KR20200094639A . 2020-08-07

机译：用于学习基于深度学习的设备的虚拟世界仿真器的物理引擎的校准方法和设备，以及使用该方法的用于真实网络的学习方法和学习设备
4. METHOD AND DEVICE FOR CALIBRATING PHYSICS ENGINE OF VIRTUAL WORLD SIMULATOR TO BE USED FOR LEARNING OF DEEP LEARNING-BASED DEVICE, AND A LEARNING METHOD AND LEARNING DEVICE FOR REAL STATE NETWORK USED THEREFOR [P] . 美国专利： US2020242289A1 . 2020-07-30

机译：用于学习基于深度学习的设备的虚拟世界仿真器的物理引擎的校准方法和设备，以及用于此方法的用于真实网络的学习方法和学习设备
5. METHOD AND DEVICE FOR CALIBRATING PHYSICS ENGINE OF VIRTUAL WORLD SIMULATOR TO BE USED FOR LEARNING OF DEEP LEARNING-BASED DEVICE, AND A LEARNING METHOD AND LEARNING DEVICE FOR REAL STATE NETWORK USED THEREFOR [P] . 欧洲知识产权局专利： EP3690750A1 . 2020-08-05

机译：用于学习基于深度学习的设备的虚拟世界仿真器的物理引擎的校准方法和设备，以及用于此方法的用于真实网络的学习方法和学习设备