dynamic programming; stochastic programming; recurrent neural nets; learning (artificial intelligence); decision making; Markov processes; probability; stochastic dynamic programming problems; model free learning; actor-critic reinforcement learning; recurrent neural networks; nonMarkovian settings; nonMarkovian dynamic programming; decision making agent; state transition; partially observable Markov decision processes; error corrupted observations; transitional probability; implicit history memory; state space methods; small scale longest path problems;
机译:非马尔可夫域中的完全无模型的actor-critic递归神经网络强化学习
机译:基于自适应动态规划的无模型连续时间随机系统的Stackelberg游戏
机译:一种用于多功能储层优化的新型嵌套随机动态规划(nSDP)和嵌套强化学习(nRL)算法
机译:关于使用离散Cohen-Grossberg节点动力学进行非马尔可夫域中的无模型演员批评神经学习
机译:实用学习,非马尔可夫规划和面向任务的编程语言
机译:运动学习的新方法:使用中央模式生成器和动态运动原语的Actor-Critic体系结构
机译:非markovian领域的演员 - 评论家Elman网络完全无模型强化学习