技术领域
本发明属于机器学习领域,具体涉及一种面向行为克隆的示范主动采样方法。
背景技术
深度强化学习是近年来非常热门的机器学习技术,在围棋、游戏、商业领域都取得了重要的进展。但是当任务的状态空间庞大时,深度强化学习的环境探索效率比较低下,导致训练策略的时间太久。模仿学习通过从专家的示范中学习策略,可以有效的解决这一问题。行为克隆是一类经典的模仿学习算法,该方法将专家的示范构成训练集,然后直接用监督学习从中学得策略。目前,行为克隆方法在自动驾驶领域得到了广泛的关注,无论是电动汽车公司特斯拉还是自动驾驶公司Waymo,都在尝试用行为克隆训练自动驾驶的智能体。然而,行为克隆算法通常假设可以获得大量的专家示范,但是在实际任务中,获得专家示范的代价通常是比较高昂的。以自动驾驶为例,专家在提供驾驶数据时,不仅要付出时间上的代价,还要面临安全上的风险。主动学习中通过挑选最具价值的样本向专家查询可以有效的降低标注的代价。而现有的基于主动学习的模仿学习算法都是挑选一个状态,然后让专家示范一个动作,这种查询方式在现实任务中不够实用,更实用的查询方式是让专家以提供的状态为起始状态,提供固定长度的示范轨迹。
发明内容
发明目的:为了克服现实任务中应用行为克隆时,获取示范代价高昂的问题,本发明提供一种面向行为克隆的示范主动采样方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种面向行为克隆的示范主动采样方法,其特征在于:包括以下步骤:
(一)要求专家提供少量示范轨迹,以初始化示范集合D。
(二)从示范集合D中用行为克隆算法训练策略。
(三)如果训练得到的策略达到要求则结束,否则转向步骤(四)。
(四)利用训练得到的策略计算状态候选集每个状态的贡献值,挑选出贡献值最大的状态。
(五)将(四)所得到的状态向专家查询,专家以提供的状态作为起始状态,提供固定长度的示范轨迹。
(六)将示范轨迹加入示范集合中,转向步骤(二)。
进一步的,所述步骤(一)初始化示范集合的具体方法:
首先随机从状态空间中挑选少量的状态构成状态集合,然后专家以状态集合中的每一个状态作为起始状态,分别提供固定长度的示范轨迹。具体地说,假设状态集中有m个状态,每次从状态集中取出一个状态,并标记为初始状态s
进一步的,所述步骤(二)用行为克隆算法训练策略的具体方法为:
设示范集合D由n
其中a
通过最小化目标函数即可学得策略π。
进一步的,所述步骤(四)计算每个状态的贡献值的具体方法为:
以下分别基于不确定性和不相似性计算贡献值:
1)基于不确定性的计算方法
该方法以当前智能体的策略对某状态的不确定度作为该状态的贡献值,若不确定度越大,则视为贡献值越大。此用动作的分布的标准差衡量不确定度,即:
uncertainty(s)=std(π(.|s))
其中π(.|s)表示智能体对于状态s,所做动作的概率分布。
2)基于不相似性的计算方法:
该方法以某状态与示范集合中所有状态的不相似度作为该状态的贡献值,若不相似度越高,则视为贡献值越大。用动作的相似度作为状态相似度的度量,则状态s的不相似度按如下方式计算:
其中,n表示示范集合中状态的数量,而π(.|s
有益效果:本发明提供的面向行为克隆的示范主动采样方法,充分考虑了候选集中每个状态对学习策略的贡献值,通过挑选贡献值最大的状态向专家查询示范轨迹,可以获得最有价值的示范,从而可以以更少的示范学得一个有效的策略,有效地降低示范代价。具体的,本发明提出了两种计算状态贡献值的方法:一是基于不确定性的方法,该方法以决策的不确定度作为贡献值的度量,其中不确定性以动作分布的标准差来衡量。二是基于不相似性的方法,该方法以与示范集合中状态的不相似度作为贡献值的度量,其中两个状态的不相似度以两个状态的动作分布的差异来衡量,本发明提出用2-Wasserstein距离来衡量分布间的差异。本发明提出的方法不仅可以有效的降低示范的代价,同时对于专家而言,提供轨迹的方式也更为便利,因而在实际任务中更加实用。
附图说明
图1是面向行为克隆的示范主动采样方法的工作流程图;
图2是基于不确定性计算状态贡献值的工作流程图;
图3是基于不相似性计算状态贡献值的工作流程图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
如图1所示为面向行为克隆的示范主动采样方法的工作流程图。首先,从专家处收集m(m=5)条示范轨迹,每条示范轨迹长度为L,用作示范集合D的初始化。在每一轮的迭代中:都从示范集合中用行为克隆学得智能体的策略π;依次计算状态候选集S
图2所示为基于不确定性计算状态贡献值的流程图。设智能体的动作a为n
当候选集为空时则流程结束。
图3所示为基于不相似性计算状态贡献值的流程图。设智能体的动作同样为n
计算s与s
两个多元正态分布之间的2-Wasserstein距离按如下方式计算:
其中x~N(μ
当候选集为空时则流程结束。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
机译: 在患者中治疗或预防焦虑,惊厥,痉挛或急性肌肉痉挛,攻击性行为,药物或酒精成瘾的情感障碍,血浆中激素水平异常的治疗或预防方法,受到中枢或外周苯并二氮杂receptor受体中一种或多种受体调节的患者的睡眠障碍,疾病或病症或其症状的评估,药物组合物,正-去甲基佐匹克隆的单独剂型,制备正-去甲基佐匹克隆的方法和外消旋,以制备(+)和(-)正去甲基佐匹克隆,并提高佐匹克隆或去甲基佐匹克隆的光学纯度
机译: 主动面板,特别是车辆的挡风玻璃,具有面向内部的内部面板,其边缘在边缘处弹性地连接到外部面板,致动器作用于内部面板,以控制内部面板的振动行为
机译: 一种用于动态监测,记录,处理,附加动态,上下文和可访问的主动链接以及物理或数字活动,动作,位置,日志,生命周期,行为和状态的表示的系统和方法