机译:折扣价值的强化学习常常失去了在动物学习中的应用目标
Inter-temporal choice; Delay discounting; Impulsivity; Reinforcement learning;
机译:折扣价值的强化学习常常失去了在动物学习中的应用目标
机译:人类强化学习通过学习特定于效应器的值来细分结构化的动作空间。
机译:学习折现累积收益的收益值和折现因子
机译:强化学习中要折扣还是不折扣:R学习和Q学习比较的案例研究
机译:了解基于模型的强化学习及其在安全强化学习中的应用
机译:人类强化学习通过学习效应子特定值来细分结构化的动作空间
机译:折扣价值的强化学习常常失去了在动物学习中的应用目标