首页> 中国专利> 一种基于潜在动作表示空间的强化学习策略学习方法

一种基于潜在动作表示空间的强化学习策略学习方法

页面导航

摘要
著录项
相似文献

摘要

样本利用率及学习效率是深度强化学习在实际应用中的一个重要瓶颈问题。面对真实世界，为了快速、准确地得到通用的策略，本发明提出一种基于潜在动作表示空间的强化学习策略学习方法，该方法在动作的潜在空间学习策略，再把动作表示映射到真实的动作空间：所述方法中的策略就是一个从状态到动作表示的映射，可减小策略学习的搜索空间，提高策略学习效率；所述方法中动作的表示可选择成熟的监督学习进行离线学习，可进一步提高学习速度、提高稳定性。此外，只要所采取动作的特征相似，即使面对与训练策略不同的任务，可以使学成的策略在少量学习样本的精调下泛化到当前执行任务的动作空间中，极大地提高了策略表达的泛化能力。

著录项

公开/公告号CN111950691A

专利类型发明专利
公开/公告日2020-11-17

原文格式PDF
申请/专利权人天津科技大学;
展开▼

申请/专利号CN201910410199.8
发明设计人赵婷婷;王雨芯;陈亚瑞;杨巨成;王嫄;任德华;
展开▼

申请日2019-05-15
分类号G06N3/04(20060101);G06N3/08(20060101);
代理机构
代理人
地址 300456 天津市经济技术开发区第十三大街9号天津科技大学计算机科学与信息工程学院
入库时间 2023-06-19 08:55:10

相似文献

专利
中文文献
外文文献

1. 一种基于潜在动作表示空间的强化学习策略学习方法 [P] . 中国专利： CN111950691A . 2020-11-17
2. 基于状态表示学习的深度强化学习方法及装置 [P] . 中国专利： CN113705805A . 2021-11-26
3. DISTRIBUTED STRENGTHENING LEARNING METHOD FOR INTEGRATING EXPERIENCE STRENGTHENING TYPE STRENGTHENING LEARNING METHOD AND ENVIRONMENT IDENTIFICATION TYPE STRENGTHENING LEARNING METHOD BY USING MULTI-AGENT MODEL [P] . 日本专利： JP2000020494A . 2000-01-21

机译：综合多经验模型的经验强化型强化学习方法与环境识别型强化学习方法的分布式强化学习方法
4. A learning method and a learning apparatus for integrating the space detection result of another autonomous vehicle with the space detection result of the own autonomous vehicle acquired by V2V communication, and a test method and a test apparatus using the learning method and the learning apparatus. DEVICE FOR INTEGRATING OBJECT DETECTION INFORMATION ACQUIRED THROUGH V2V COMMUNICATION FROM OTHER AUTONOMOUS VEHICLE WITH OBJECT DETECTION INFORMATION GENERATED BY PRESENT AUTONOMOUS VEHICLE, AND TESTING METHOD AND TESTING DEVICE USING THE SAME} [P] . 日本专利： JP2020126623A . 2020-08-20

机译：一种学习方法和学习设备，用于将另一辆自动驾驶汽车的空间检测结果与通过V2V通信获取的自己的自动驾驶汽车的空间检测结果进行积分，以及一种使用该学习方法和学习设备的测试方法和测试设备。将通过V2V通信从其他自治车辆获取的目标检测信息与当前自主车辆生成的目标检测信息集成在一起的装置，测试方法和测试装置，使用相同的方法
5. ACTION SELECTION NEURAL NETWORK TRAINING USING IMITATION LEARNING IN LATENT SPACE [P] . 美国专利： US2020104680A1 . 2020-04-02

机译：潜在空间中基于模仿学习的动作选择神经网络训练