Multiagent Reinforcement Learning Algorithm Using Temporal Difference Error

机译：使用时间差错误差的多元强化学习算法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

When agent chooses some action and does state transition in present state in reinforcement learning, it is important subject to decide how will reward for conduct that agent chooses. In this paper, by new meta heuristic method to solve hard combinatorial optimization problems, we introduce Ant-Q learning method that has been proposed to solve Traveling Salesman Problem (TSP) to approach that is based for population that use positive feedback as well as greedy search, and suggest ant reinforcement learning model using TD-error(ARLM-TDE). We could know through an experiment that proposed reinforcement learning method converges faster to optimal solution than original ACS and Ant-Q.

机译：当代理选择某些行动并在强化学习中的当前状态下的国家过渡时，重要的是决定代理选择的行为的奖励如何奖励。在本文中，通过新的元启发式方法解决了硬组合优化问题，我们介绍了Ant-Q学习方法，已提出解决旅行推销员问题（TSP），以实现使用积极反馈的人口以及贪婪使用TD-ERROR（ARLM-TDE）进行搜索，并建议蚂蚁加强学习模型。我们可以通过实验来了解，提出的强化学习方法会收敛到最佳解决方案而不是原始ACS和ANT-Q.

著录项

来源
《International Symposium on Neural Networks》|2005年||共7页
会议地点
作者
SeungGwan Lee;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类计算机网络;
关键词

相似文献

外文文献
中文文献
专利

1. Optimal Bidding and Operation of a Power Plant with Solvent-Based Carbon Capture under a CO2 Allowance Market: A Solution with a Reinforcement Learning-Based Sarsa Temporal-Difference Algorithm [J] . Ziang Li, Zhengtao Ding, Meihong Wang 工程（英文） . 2017,第002期

机译：CO2允许市场下具有溶剂基碳捕集的电厂的最优竞价和运营：基于强化学习的Sarsa时差算法的解决方案
2. Biological implementation of the temporal difference algorithm for reinforcement learning: Theoretical comment on O'Reilly et al. (2007) [J] . Houk JC Behavioral neuroscience . 2007,第1期

机译：强化学习的时差算法的生物学实现：对O'Reilly等人的理论评论。（2007年）
3. Performance comparison of multiagent cooperative reinforcement learning algorithms for dynamic decision making in retail shop application [J] . Deepak A. Vidhate, Parag Kulkarni International journal of computational systems engineering . 2019,第3期

机译：零售店应用中动态决策的多主体协同强化学习算法性能比较
4. Multiagent Reinforcement Learning Algorithm Using Temporal Difference Error [C] . SeungGwan Lee International Symposium on Neural Networks(ISNN 2005) pt.1; 20050530-0601; Chongqing(CN) . 2005

机译：基于时间差异误差的多主体强化学习算法
5. Explaining Collective Behavior with Dynamical Systems: Spatial Gradient Sensing in Eukaryotic Chemotaxis and Learning Dynamics in Multiagent Reinforcement Learning [D] . Shams, Daniel . 2019

机译：用动力系统解释集体行为：多核化趋化性的空间梯度传感和多核强化学习中的学习动态
6. Multiagent cooperation and competition with deep reinforcement learning [O] . Ardi Tampuu, Tambet Matiisen, Dorian Kodelja, -1

机译：多主体合作与竞争与深度强化学习
7. Methods and Algorithms for Knowledge Reuse in Multiagent Reinforcement Learning [O] . Felipe Leno Da Silva, Anna Helena Reali Costa 2020

机译：多读强度学习中知识重用的方法和算法

Multiagent Reinforcement Learning Algorithm Using Temporal Difference Error

摘要

著录项

相似文献

相关主题

期刊订阅