首页> 中国专利> 一种强化学习中受意愿控制的策略学习方法

一种强化学习中受意愿控制的策略学习方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明涉及一种强化学习中受意愿控制的策略学习方法，其主要技术特点是：在原始的累计期望回报基础上，加入意愿变量与动作的互信息正则约束，使得累积期望回报最大的同时，隐变量与产生动作之间的互信息最大化，在求解最优解的过程中，使用变分的方法来逼近真实的最优解。本发明设计合理，能够实现可受意愿控制功能，其与人类采取行动的模式一致，更加符合智能化的标准，且在特定任务情况下，可以加快学习速度；同时，在实际求解过程中，利用变分方法提供了与原目标函数等价的可以求解的目标函数，使难解的目标函数求解问题可解。

著录项

公开/公告号CN108182476A

专利类型发明专利
公开/公告日2018-06-19

原文格式PDF
申请/专利权人天津科技大学;
展开▼

申请/专利号CN201711407741.1
发明设计人赵婷婷;孔乐;任德华;吴超;胡志强;
展开▼

申请日2017-12-22
分类号
代理机构天津盛理知识产权代理有限公司;
代理人王利文
地址 300222 天津市河西区大沽南路1038号天津科技大学
入库时间 2023-06-19 05:44:06

法律信息

法律状态公告日

法律状态信息

法律状态
2018-11-23

实质审查的生效 IPC(主分类):G06N99/00 申请日:20171222

实质审查的生效
2018-06-19

公开

公开

相似文献

专利
中文文献
外文文献

1. 一种强化学习中受意愿控制的策略学习方法 [P] . 中国专利： CN108182476A . 2018-06-19
2. 一种基于势能场函数逼近的强化学习方法的泊车策略 [P] . 中国专利： CN112061116A . 2020-12-11
3. 1. A manual control device that can completely or partially seal the discharge of the liquid in the packaging barrel and container according to my wishes. [P] . ES133101A3 . 1934-03-01

机译： 1.一种手动控制装置，可以根据我的意愿完全或部分密封包装桶和容器中液体的排出。
4. AN ARRANGEMENT AND A METHOD FOR CONTENT POLICY CONTROL WITH A TRUSTED ENVIRONMENT IN A MULTIMEDIA MESSAGING SYSTEM [P] . 世界知识产权组织专利： WO03040898A1 . 2003-05-15

机译：多媒体消息系统中受信任环境的内容策略控制安排和方法
5. Access control policy engine controlling access to resource based on any of multiple received types of security tokens [P] . 美国专利： US7774830B2 . 2010-08-10

机译：访问控制策略引擎基于多种接收到的安全令牌类型中的任何一种来控制对资源的访问