首页> 中国专利> 一种面向行为克隆的示范主动采样方法

一种面向行为克隆的示范主动采样方法

摘要

本发明公开了一种面向行为克隆的示范主动采样方法。行为克隆是一类典型的模仿学习算法,该算法在自动驾驶领域得到了广泛的关注。现有的行为克隆算法为了训练有效的策略,需要专家提供大量的示范。然而在实际任务中,提供示范的代价是高昂的,高昂的代价限制了行为克隆方法的应用。主动学习通过挑选最有价值的样本进行标注可以有效的减少标注代价。本发明利用主动学习,从状态候选集中挑选最具价值的状态作为起始状态,然后让专家从起始状态开始做示范,并返回固定长度的轨迹,可以使得示范的价值最大,从而有效的减少示范的代价。

著录项

  • 公开/公告号CN112906868A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 南京航空航天大学;

    申请/专利号CN202110248762.3

  • 发明设计人 黄圣君;黄文宇;

    申请日2021-03-08

  • 分类号G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构32249 南京瑞弘专利商标事务所(普通合伙);

  • 代理人秦秋星

  • 地址 210016 江苏省南京市秦淮区御道街29号

  • 入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明属于机器学习领域,具体涉及一种面向行为克隆的示范主动采样方法。

背景技术

深度强化学习是近年来非常热门的机器学习技术,在围棋、游戏、商业领域都取得了重要的进展。但是当任务的状态空间庞大时,深度强化学习的环境探索效率比较低下,导致训练策略的时间太久。模仿学习通过从专家的示范中学习策略,可以有效的解决这一问题。行为克隆是一类经典的模仿学习算法,该方法将专家的示范构成训练集,然后直接用监督学习从中学得策略。目前,行为克隆方法在自动驾驶领域得到了广泛的关注,无论是电动汽车公司特斯拉还是自动驾驶公司Waymo,都在尝试用行为克隆训练自动驾驶的智能体。然而,行为克隆算法通常假设可以获得大量的专家示范,但是在实际任务中,获得专家示范的代价通常是比较高昂的。以自动驾驶为例,专家在提供驾驶数据时,不仅要付出时间上的代价,还要面临安全上的风险。主动学习中通过挑选最具价值的样本向专家查询可以有效的降低标注的代价。而现有的基于主动学习的模仿学习算法都是挑选一个状态,然后让专家示范一个动作,这种查询方式在现实任务中不够实用,更实用的查询方式是让专家以提供的状态为起始状态,提供固定长度的示范轨迹。

发明内容

发明目的:为了克服现实任务中应用行为克隆时,获取示范代价高昂的问题,本发明提供一种面向行为克隆的示范主动采样方法。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种面向行为克隆的示范主动采样方法,其特征在于:包括以下步骤:

(一)要求专家提供少量示范轨迹,以初始化示范集合D。

(二)从示范集合D中用行为克隆算法训练策略。

(三)如果训练得到的策略达到要求则结束,否则转向步骤(四)。

(四)利用训练得到的策略计算状态候选集每个状态的贡献值,挑选出贡献值最大的状态。

(五)将(四)所得到的状态向专家查询,专家以提供的状态作为起始状态,提供固定长度的示范轨迹。

(六)将示范轨迹加入示范集合中,转向步骤(二)。

进一步的,所述步骤(一)初始化示范集合的具体方法:

首先随机从状态空间中挑选少量的状态构成状态集合,然后专家以状态集合中的每一个状态作为起始状态,分别提供固定长度的示范轨迹。具体地说,假设状态集中有m个状态,每次从状态集中取出一个状态,并标记为初始状态s

进一步的,所述步骤(二)用行为克隆算法训练策略的具体方法为:

设示范集合D由n

其中a

通过最小化目标函数即可学得策略π。

进一步的,所述步骤(四)计算每个状态的贡献值的具体方法为:

以下分别基于不确定性和不相似性计算贡献值:

1)基于不确定性的计算方法

该方法以当前智能体的策略对某状态的不确定度作为该状态的贡献值,若不确定度越大,则视为贡献值越大。此用动作的分布的标准差衡量不确定度,即:

uncertainty(s)=std(π(.|s))

其中π(.|s)表示智能体对于状态s,所做动作的概率分布。

2)基于不相似性的计算方法:

该方法以某状态与示范集合中所有状态的不相似度作为该状态的贡献值,若不相似度越高,则视为贡献值越大。用动作的相似度作为状态相似度的度量,则状态s的不相似度按如下方式计算:

其中,n表示示范集合中状态的数量,而π(.|s

有益效果:本发明提供的面向行为克隆的示范主动采样方法,充分考虑了候选集中每个状态对学习策略的贡献值,通过挑选贡献值最大的状态向专家查询示范轨迹,可以获得最有价值的示范,从而可以以更少的示范学得一个有效的策略,有效地降低示范代价。具体的,本发明提出了两种计算状态贡献值的方法:一是基于不确定性的方法,该方法以决策的不确定度作为贡献值的度量,其中不确定性以动作分布的标准差来衡量。二是基于不相似性的方法,该方法以与示范集合中状态的不相似度作为贡献值的度量,其中两个状态的不相似度以两个状态的动作分布的差异来衡量,本发明提出用2-Wasserstein距离来衡量分布间的差异。本发明提出的方法不仅可以有效的降低示范的代价,同时对于专家而言,提供轨迹的方式也更为便利,因而在实际任务中更加实用。

附图说明

图1是面向行为克隆的示范主动采样方法的工作流程图;

图2是基于不确定性计算状态贡献值的工作流程图;

图3是基于不相似性计算状态贡献值的工作流程图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

如图1所示为面向行为克隆的示范主动采样方法的工作流程图。首先,从专家处收集m(m=5)条示范轨迹,每条示范轨迹长度为L,用作示范集合D的初始化。在每一轮的迭代中:都从示范集合中用行为克隆学得智能体的策略π;依次计算状态候选集S

图2所示为基于不确定性计算状态贡献值的流程图。设智能体的动作a为n

当候选集为空时则流程结束。

图3所示为基于不相似性计算状态贡献值的流程图。设智能体的动作同样为n

计算s与s

两个多元正态分布之间的2-Wasserstein距离按如下方式计算:

其中x~N(μ

当候选集为空时则流程结束。

以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号