首页> 中国专利> 基于多个历史最佳Q网络的深度强化学习方法及设备

基于多个历史最佳Q网络的深度强化学习方法及设备

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提出了用于包括智能体的智能机器人交互系统的基于多个历史最佳Q网络的深度强化学习方法和设备，所述方法包括：定义智能体的属性和规则，明确智能体的状态空间和动作空间,构建或调用智能体运动环境；基于交互评价得分的高低，从所有历史上的Q网络当中选出最佳的多个Q网络；使用最大化的操作去联合这多个历史最佳Q网络与当前Q网络，去指导智能体选择动作的策略，并训练学习模型的参数，根据智能体所处的环境，自主地进行下一步的决策行动。本发明可以根据实际需求构建合理的运动环境，通过利用训练过程中产生的最佳Q网络，来更好地指导智能体进行决策，达到智能策略优化的目的，对我国机器人、无人系统的发展具有积极作用。

著录项

公开/公告号CN109919319A

专利类型发明专利
公开/公告日2019-06-21

原文格式PDF
申请/专利权人中国科学院软件研究所;
展开▼

申请/专利号CN201811650426.6
发明设计人王瑞;俞文武;李瑞英;胡晓惠;
展开▼

申请日2018-12-31
分类号G06N20/00(20190101);
代理机构11215 中国和平利用军工技术协会专利中心;
代理人刘光德;彭霜
地址 100190 北京市海淀区中关村南四街4号
入库时间 2024-02-19 11:37:04

法律信息

法律状态公告日

法律状态信息

法律状态
2019-07-16

实质审查的生效 IPC(主分类):G06N20/00 申请日:20181231

实质审查的生效
2019-06-21

公开

公开

相似文献

专利
中文文献
外文文献

1. 基于多个历史最佳Q网络的深度强化学习方法及设备 [P] . 中国专利： CN109919319A . 2019-06-21
2. 一种基于深度强化学习的智能网络编码方法和设备 [P] . 中国专利： CN112564712A . 2021-03-26
3. METHOD AND APPARATUS FOR MANAGING A CONTENT SERVICE IN A NETWORK BASED ON CONTENT USE HISTORY, PARTICULARLY FOR RECOMMENDING OPTIMAL CONTENT WHICH CAN BE REPRODUCED IN AN OPTIMAL DEVICE [P] . 韩国专利： KR20110047703A . 2011-05-09

机译：基于内容使用历史来管理网络中内容服务的方法和设备，尤其是推荐可在最佳设备中复制的最佳内容的方法和装置
4. Computerized system and associated method for optimally controlling cashing and transfer of computer programs on a computer network (57) Patent: "Computerized system and associated method for optimally controlling cashing and transfer of computer programs computer on a computer network ". a computer system and associated method for optimally controlling the storage and transfer of computer programs between computers on a network and for facilitating the use of an interactive program. According to the method, an application program is stored in nonvolatile memory of a first computer as a plurality of individual and independent machine executable code modules. in response to a request from a second computer transmitted over a network connection, the first computer retrieves a selected module from said machine-executable code modules and only that selected code module from memory and transmits the code module selected by network connection to the second computer. [P] . BR9811593A . 2002-01-22

机译：用于最佳地控制计算机网络上的计算机程序的兑现和转移的计算机系统和相关方法（57）专利：“用于最佳地控制计算机网络上的计算机程序的兑现和转移的计算机系统和相关方法”。一种计算机系统和相关方法，用于最佳地控制网络上计算机之间的计算机程序的存储和传输，并促进交互式程序的使用。根据该方法，应用程序作为多个单独且独立的机器可执行代码模块存储在第一计算机的非易失性存储器中。响应于通过网络连接传输的第二计算机的请求，第一计算机从所述机器可执行代码模块中检索选择的模块，并且仅从存储器中检索该选择的代码模块，并将通过网络连接选择的代码模块传输到第二计算机。
5. NETWORK CONNECTION HISTORY DISPLAY PROGRAM, NETWORK CONNECTION HISTORY REFERENCE SUPPORTING DEVICE, NETWORK CONNECTION HISTORY REFERENCE SUPPORTING SYSTEM, NETWORK CONNECTION HISTORY REFERENCE SUPPORTING METHOD, AND NETWORK CONNECTION HISTORY REFERENCE SUPPORTING PROGRAM [P] . 日本专利： JP2015026893A . 2015-02-05

机译：网络连接历史参考显示程序，网络连接历史参考支持设备，网络连接历史参考支持系统，网络连接历史参考支持方法以及网络连接历史参考支持