首页> 中国专利> 基于状态表示学习的深度强化学习方法及装置

基于状态表示学习的深度强化学习方法及装置

页面导航

摘要
著录项
相似文献

摘要

本发明提供了一种基于状态表示学习的深度强化学习方法及装置，依据当前状态、近状态、以及远状态，计算相邻状态一致性损失函数值，并计算强化学习损失函数值，基于相邻状态一致性损失函数值和强化学习损失函数值，计算联合函数值，基于联合函数值对神经网络模型进行训练，得到新的神经网络模型，并在计数器的计数结果不小于第二阈值时，将当前的神经网络模型作为目标网络模型。可见，相邻状态一致性损失函数值用于指示近状态与当前状态之间的差异小于近状态与状态之间的差异，在强化学习损失函数值的基础上引入相邻状态一致性损失函数值，得到联合函数值，依据联合函数值对神经网络模型进行训练，从而提高神经网络模型的性能和学习效率。

著录项

公开/公告号CN113705805A

专利类型发明专利
公开/公告日2021-11-26

原文格式PDF
申请/专利权人中国科学技术大学;
展开▼

申请/专利号CN202010441544.7
发明设计人李厚强;周文罡;赵鉴;
展开▼

申请日2020-05-22
分类号G06N3/08(20060101);G06N3/04(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人李伟
地址 230026 安徽省合肥市包河区金寨路96号
入库时间 2023-06-19 13:24:42

相似文献

专利
中文文献
外文文献

1. 基于状态表示学习的深度强化学习方法及装置 [P] . 中国专利： CN113705805A . 2021-11-26
2. 基于环境状态预测的深度强化学习方法及装置 [P] . 中国专利： CN108288094B . 2021.06.29
3. AN OPTIMAL LEARNING PATH PRESENTATION SYSTEM AND METHOD BY ANALYZING KNOWLEDGE STATE OF LEARNERS [P] . 韩国专利： KR102163704B1 . 2020-10-08

机译：基于学习者知识状态的最优学习路径表示系统及方法
4. DEVICE AND A METHOD FOR PROVIDING LEARNING INFORMATION BASED ON SLEEP STATUS, CAPABLE OF FINDING AN EFFICIENT LEARNING PERIOD AMONG A SLEEP PERIOD [P] . 韩国专利： KR20100136290A . 2010-12-28

机译：基于睡眠状态的学习信息提供装置和方法，其能够在睡眠时间段内找到有效的学习时间
5. Tile game apparatus and method for learning alphabet-based symbolic notation [P] . 美国专利： US8146920B2 . 2012-04-03

机译：用于学习基于字母的符号表示法的瓦片游戏装置和方法