On-line evolutionary computation for reinforcement learning in stochastic domains

机译：随机域中强化学习的在线进化计算

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

In reinforcement learning, an agent interacting with its environment strives to learn a policy that specifies, for each state it may encounter, what action to take. Evolutionary computation is one of the most promising approaches to reinforcement learning but its success is largely restricted to off-line scenarios. In on-line scenarios, an agent must strive to maximize the reward it accrues while it is learning. Temporal difference (TD) methods, another approach to reinforcement learning, naturally excel in on-line scenarios because they have selection mechanisms for balancing the need to search for better policies exploration) with the need to accrue maximal reward (exploitation). This paper presents a novel way to strike this balance in evolutionary methods by borrowing the selection mechanisms used by TD methods to choose individual actions and using them in evolution to choose policies for evaluation. Empirical results in the mountain car and server job scheduling domains demonstrate that these techniques can substantially improve evolution's on-line performance in stochastic domains.

机译：在强化学习中，与环境交互的代理力求学习一种策略，该策略针对其可能遇到的每个状态指定采取何种措施。进化计算是强化学习中最有前途的方法之一，但其成功很大程度上受限于离线方案。在在线方案中，座席必须努力使其在学习过程中获得的报酬最大化。时差（TD）方法，另一种强化学习方法，在联机情况下自然会胜出，因为它们具有选择机制，可以平衡寻求更好政策的需求探索）需要累积最大的回报（开发）。本文通过借用TD方法用来选择单个动作并在进化中使用它们来选择评估策略的选择机制，提出了一种在进化方法中实现这种平衡的新颖方法。在山地车和服务器作业调度领域中的经验结果表明，这些技术可以极大地改善随机领域中Evolution的在线性能。 展开▼

著录项

来源
《Annual conference on Genetic and evolutionary computation;Conference on Genetic and evolutionary computation》|2006年|P.1577-1584|共8页

会议地点

作者
Shimon Whiteson; Peter Stone; PPeter Stone;
展开▼

作者单位

展开▼

会议组织

原文格式 PDF

正文语种

中图分类其他感受器;

关键词
reinforcement learning;

机译：强化学习;

相似文献

外文文献

中文文献

专利

1. Reinforcement learning versus evolutionary computation: A survey on hybrid algorithms [J] . Drugan Madalina M. Swarm and Evolutionary Computation . 2019,第期

机译：强化学习与进化计算：混合算法调查

2. Hybridizing Evolutionary Computation And Reinforcement Learning For The Design Of Almost Universal Controllers For Autonomous Robots [J] . Dario Maravall, Javier de Lope, Jose Antonio Martin H. Neurocomputing . 2009,第4a6期

机译：融合进化计算与强化学习的自主机器人通用控制器设计。

3. APPLICATION OF EVOLUTIONARY COMPUTATION FOR EFFICIENT REINFORCEMENT LEARNING [J] . Genci Capi, Kenji Doya Applied Artificial Intelligence . 2006,第1期

机译：进化计算在高效强化学习中的应用

4. On-line evolutionary computation for reinforcement learning in stochastic domains [C] . Shimon Whiteson, Peter Stone, PPeter Stone Annual conference on Genetic and evolutionary computation . 2006

机译：随机域加固学习的在线进化计算

5. Optimizing Expectations: From Deep Reinforcement Learning to Stochastic Computation Graphs. [D] . Schulman, John. 2016

机译：优化期望：从深度强化学习到随机计算图。

6. How much of reinforcement learning is working memory not reinforcement learning? A behavioral computational and neurogenetic analysis [O] . Anne G. E. Collins, Michael J. Frank -1

机译：钢筋学习多少是工作记忆而不是加强学习？行为计算和神经肝分析

7. On-Line Evolutionary Computation for Reinforcement Learning in Stochastic Domains [O] . Shimon Whiteson, Peter Stone 2006

机译：随机域中强化学习的在线进化计算

1. 分层强化学习在自动驾驶领域中的应用探究 [J] . 刘旖菲 . 信息与电脑 . 2021,第002期

2. 联合随机性策略的深度强化学习探索方法 [J] . 杨尚彤 ,王子磊 . 信息技术与网络安全 . 2021,第006期

3. 联合随机性策略的深度强化学习探索方法 [J] . 杨尚彤 ,王子磊 . 微型机与应用 . 2021,第006期

4. 基于强化学习的随机振动主动控制策略 [J] . 周嘉明 ,董龙雷 ,孟超 . 振动与冲击 . 2021,第016期

5. 基于强化学习的快速探索随机树特殊环境中路径重规划算法 [J] . 邹启杰 ,刘世慧 ,张跃 . 控制理论与应用 . 2020,第008期

6. 城市交通信号的在线强化学习控制 [C] . 刘智勇 ,马凤伟 . 第26届中国控制会议 . 2007

7. 基于进化计算的随机神经网络优化及其应用研究 [A] . 陈洁 . 2011

1. 用于未许可频谱中的NR的时域中的随机接入信道配置 [P] . 中国专利： CN113785657A . 2021-12-10

2. 用以指示专用随机接入信道区域在时域中的位置的信令 [P] . 中国专利： CN111919491A . 2020-11-10

3. Stochastic optimization techniques of evolutionary computation search strategies for an information sharing system [P] . 外国专利： US2011191322A1 . 2011-08-04

机译：信息共享系统进化计算搜索策略的随机优化技术

4. ADAPTIVE STOCHASTIC LEARNING STATE COMPRESSION FOR FEDERATED LEARNING IN INFRASTRUCTURE DOMAINS [P] . 外国专利： US2021383197A1 . 2021-12-09

机译：基础设施域中联合学习的自适应随机学习状态压缩

5. METHOD FOR CONTROLLING MOTION OF A ROBOT BASED UPON EVOLUTIONARY COMPUTATION AND IMITATION LEARNING, CAPABLE OF ALLOWING A ROBOT TO LEARN PATTERNS OF HUMAN [P] . 外国专利： KR20100026785A . 2010-03-10

机译：基于进化计算和模仿学习的机器人运动控制方法，允许机器人学习模式

相关主题

On-line evolutionary computation for reinforcement learning in stochastic domains

摘要

著录项

相似文献

相关主题

期刊订阅