技术领域
本发明属于强化学习技术领域,具体涉及到利用专家轨迹信息来加速强化学习的相关方法。
背景技术
近几年,强化学习(Reinforcement Leaming,简称RL)作为一种构建智能体进行决策的方法在多个领域上取得了显著的进展。其目标是,然而,强化学习在取得巨大成功的同时,也暴露出了样本利用率低、收敛速度慢等众多问题。为了解决这类问题,一些研究者尝试着使用专家示范来加速强化学习的训练,简称RLED框架。其核心思想是强化学习算法可以通过将各种形式的先验知识整合到学习过程中,从而节省大量的经验。这些方法通常分为两个步骤,首先通过监督学习的方式对专家示范进行模仿学习,接着通过与环境探索进行标注的强化学习。这些方法通常假设专家所提供的示范轨迹是完美的不含噪声的,并且它们的最终目标是从这些示范中获得合适的行为。然而,在大多数实际应用场景中,所提供的示范通常包含严重的噪声甚至误导信息,这会导致之前的方法在带有噪声的专家示范中学习到的策略与真实策略不一致,从而导致其在真实场景的表现很差。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明考虑了一种更为实际的情况,即专家所提供的示范轨迹是包含噪声的,此外本发明还提供了一种基于带噪声专家示范的强化学习算法,
技术方案:为实现上述目的,本发明采用的技术方案为:
基于带噪声专家示范的强化学习方法,包括以下步骤:
步骤1:初始化环境ε,状态空间S,动作空间A,专家轨迹集合∑={σ
步骤2:初始化智能体策略π
步骤3:让智能体与环境ε进行交互,将交互得到的元组(s
步骤4:根据当前智能体策略π
步骤5:根据与环境交互收集到的数据H以及专家所提供的示范进行梯度下降更新网络参数θ。
进一步的,所述步骤1对环境、状态空间、动作空间、专家轨迹集合初始化的具体方法为:
强化学习被形式化为一个马尔可夫决策过程M,即M=(S,A,γ,P,R),其中状态空间S是由状态构成的集合,动作空间A是由动作构成的集合,γ∈[0,1)为折扣因子,P是状态转移函数,R:(S×A)→R是奖赏函数;在每个时刻t,对于状态s
专家轨迹由状态s、动作a、奖赏序列r构成,每条轨迹σ
进一步的,所述步骤2初始化内存H,智能体策略π
初始化额外的存储空间H为空集,用来存放每次迭代智能体与环境交互的数据;智能体策略π
进一步的,所述步骤3智能体与环境ε交互的具体方法为:
首先,设当前时刻为t,智能体从环境ε获得状态s
进一步的,所述步骤4中计算每个专家轨迹实例的权重的具体方法为:
通过估计专家轨迹中的每个实例
其中
其中,δ是一个超参数;
进一步的,所述步骤5中更新网络参数的具体方法为:
为了联合训练智能体同步的在探索环境以及模仿专家示范中学习,定义如下的联合目标函数l:
l=l
其中,l
对于示范学习部分,目标为学得的策略π(·)能够最小化智能体的动作
通过最小化损失函数l
对于环境探索部分,采用基于信用域的TRPO方法来定义损失函数l
其中,π(a|s)表示状态s下执行动作a的概率,π
最后结合损失函数l
附图说明
图1是基于带噪声专家示范的强化学习具体工作流程图;
图2是利用带噪声专家示范更新模型的流程图;
图3是通过探索环境更新模型的流程图;
图4是整个基于带噪专家示范的强化学习框架流程图;
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为基于带噪声专家示范的强化学习具体工作流程图。本方法的整个过程分为两部分,一是通过探索环境进行传统的强化学习,二是通过利用带噪专家示范来更新模型从而加速强化学习进程。首先,初始化环境ε以及待学习的智能体策略π
图2所示为利用带噪声专家示范更新模型的流程图。为解决强化学习算法收敛速度慢、交互次数多等问题,通过模仿专家示范的行为来加速强化学习的过程。但专家所提供的示范里通常不是完美的或包含噪声的,因此希望通过估计专家轨迹中的每个实例
其中
其中δ是一个超参数,例如
显然,通过梯度下降方式对参数θ进行优化,策略π将会被优化到产生和专家策略一致的动作。与此同时,有负面影响的噪声示范会被权重
图3所示为通过探索环境更新模型的流程图。环境探索部分,本发明使用标准的强化学习流程来更新模型。具体来说,在每次迭代过程中,智能体会与环境交互得到一系列经验,接着计算带奖赏的最大似然函数并计算其梯度,使用梯度上升的方式来更新模型。核心思想是,如果探索过程中在某一状态下执行某一动作能够得到更高的长远奖赏,那么就应当增加该状态下执行这一动作的概率。随着迭代式的策略更新,智能体在环境中的性能表现也会逐渐收敛。
图4所示为基于带噪声专家示范的强化学习框架流程图。整体来说,环境ε,状态空间S,动作空间A,以及包含m条专家轨迹的集合∑={σ
机译: 混合专家强化学习方法和系统
机译: 基于主动学习的基于强化学习的在线学习方法和车辆控制方法
机译: 基于深度强化学习的自动驾驶代理学习方法及系统