首页> 中国专利> 一种面向深度强化学习的策略异常检测方法和装置

一种面向深度强化学习的策略异常检测方法和装置

摘要

本发明公开了一种面向深度强化学习的策略异常检测方法和装置,包括:利用采集的状态样本对DDPG网络进行强化学习;构建包含行动者网络和判别器的模仿学习网络,利用采集的状态样本和专家状态动作对对模仿学习网络进行训练;利用参数优化的DDPG网络基于输入的状态样本生成状态动作对,利用参数优化的判别器对状态动作对进行判别,当判别结果为1时,认为动作未受到攻击;当判别结果为0时,认为状动作存在异常;当动作存在异常时,且动作幅度差异在阈值范围外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,以指导DDPG网络在后续阶段的强化学习过程中做出正确决策。

著录项

  • 公开/公告号CN113298252A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利权人 浙江工业大学;

    申请/专利号CN202110598324.X

  • 发明设计人 陈晋音;胡书隆;章燕;王雪柯;

    申请日2021-05-31

  • 分类号G06N3/08(20060101);G06F21/55(20130101);

  • 代理机构33224 杭州天勤知识产权代理有限公司;

  • 代理人曹兆霞

  • 地址 310014 浙江省杭州市下城区潮王路18号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明属于深度强化学习的安全防御领域,具体涉及一种面向深度强化学习的策略异常检测方法和装置。

背景技术

伴随着人工智能技术的不断发展,深度强化学习(Deep ReinforcementLearning,DRL)方法自提出以来就一直受到广大专家学者的重视与青睐。在在自动驾驶、机器人控制、游戏博弈、医疗健康等领域都有了深入的发展并被广泛应用。作为人工智能领域不可或缺的一种重要技术,DRL的方法也在不断地被扩充。RL是DRL中关键的一环,其核心是代理通过不断最大化回报奖励从而得到一个相对较优的策略。但相关研究表明智能体在策略执行阶段容易受到对抗攻击,攻击者对智能体将要执行动作时修改其动作值,会对智能体接下来的动作分布产生较大的偏差,从而导致其向一个错误甚至危险方向运动,最终导致智能体学习失败,在强化学习的决策安全领域这是一个不容忽视的挑战。尤其在自动驾驶场景下是十分致命的。

基于此,对深度强化学习的异常策略检测十分重要,现如今检测异常策略的方法主要有以下两种:基于元学习的对抗检测和基于预测模型的对抗检测。这两种方法都属于对抗样本与正常样本的甄别方法,在不破坏模型本身参数的前提下,再对对抗样本进行处理。

基于元学习的对抗检测方法采用了一种监督机制,主导智能体的主要作用是监视对应的子策略,根据一段时间内子策略所获得的累积回报奖励值来判定是否执行子策略。因为主智能体对相应的子策略事先已经设定好了对应的预期阈值,当决策动作受到对抗攻击,主智能体就能立马感知到并马上更换当前的子策略。基于预测模型的对抗检测方法基于动作条件帧预测模型,对抗样本的确定是根据目标策略对应的预测帧与现实帧之间动作分布的差异,若现实帧被确定为对抗样本,则智能体就会自动选择预测帧来取代现实帧作为输入并执行相应的动作。

以上两种异常策略检测方法检测效果不佳,迫切地需要一种效果更好的异常策略检测方法。

发明内容

鉴于上述,本发明的目的是提供一种面向深度强化学习的策略异常检测方法和装置,实现对深度强化学习策略的异常检测。

第一方面,一种面向深度强化学习的策略异常检测方法,包括以下步骤:

构建自动驾驶场景,利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习,优化DDPG网络的参数;

构建包含行动者网络和判别器的模仿学习网络,利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练,优化行动者网络和判别器的参数;

利用参数优化的DDPG网络基于输入的状态样本生成动作,形成状态动作对,利用参数优化的判别器对状态动作对进行判别,当判别结果为1时,认为状态动作对中的动作未受到攻击,当判别结果为0时,认为状态动作对中的动作存在异常;

当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。

优选地,当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围内,则认为是系统误差生成的物理扰动,不进行状态动作对的替换。

优选地,所述动作幅度差异为DDPG网络生成的动作与专家动作之间的差异。

优选地,所述阈值范围为±5°。

优选地,利用自动驾驶场景采集的状态样本和专家样本对模仿学习网络进行训练时,将状态样本输入至行动者网络,生成状态动作对,并计算状态动作对的第一奖励函数值,同时计算专家状态动作对的第二奖励函数值,以第第二奖励函数值大于第一奖励函数值为目标,不断寻找奖励函数,并利用奖励函数更新行动者网络的参数;

将行动者网络生成的状态动作对和专家状态动作对输入至判别器,通尽可能多地利用专家状态动作对,减少利用状态动作对,来更新判别器的参数,通过判别器的输出来判定状态动作对是否无限接近专家状态动作对,当判别器的输出为0时,表明判别器训练结束。

第二方面,实施例提供的一种面向深度强化学习的策略异常检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现第一方面所述的面向深度强化学习的策略异常检测方法。

上述实施例提供的面向深度强化学习的策略异常检测方法具有的有益效果至少包括:通过模仿学习网络模型可以生成一个比较好的状态动作分布;强化学习过程生成的状态动作分布可以利用模仿学习中训练好的判别器网络来检测其动作是否受到对抗攻击;检测到对抗攻击后可以直接用通过模仿学习生成的较优样本与之进行替换;4)该过程在检测阶段实时性强,可行性高,在某种程度上可以尽量避免对抗攻击所造成的严重损失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。

图1是一实施例提供的面向深度强化学习的策略异常检测方法的流程图;

图2是一实施例提供的DDPG网络的训练过程示意图;

图3是一实施例提供的行动者网络的训练过程示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。

针对例如自动驾驶决策场景等强化学习安全决策领域,由于其本身也可能存在未检测到的决策漏洞,并且也容易受到对抗攻击的影响,导致的安全隐患的问题。尤其是智能车在自动驾驶过程中,在动作执行阶段容易受到对抗攻击,这可能使智能体朝一个错误甚至危险的方向运动。鉴于此,实施例提供了一种面向深度强化学习的策略异常检测方法和装置,以区分正常策略和异常策略。主要的技术构思为:首先通过模仿学习生成与之前训练好的专家样本无限接近的状态动作对,再将通过强化学习生成的状态动作对输入模仿学习网络中训练好的判别器进行判别,检测所生成的状态动作分布与通过模仿学习训练生成的状态动作分布是否相似,若不相似,则再进行替换。

图1是一实施例提供的面向深度强化学习的策略异常检测方法的流程图。如图1所示,实施例提供的策略异常检测方法,包括以下步骤:

步骤1,构建自动驾驶场景,利用自动驾驶场景采集的状态样本对DDPG网络进行强化学习,优化DDPG网络的参数。

深度确定性决策梯度算法DDPG,顾名思义是由AC(Actor-Critic)算法,DQN(DeepQ-Network)以及DPG(Deterministic policy gradient)确定性策略梯度算法演变而来。如图2所示,在DDPG算法中,将Q(s,a|θ

DDPG网络的训练过程为:

(a)根据当前的策略和探索噪声N

(b)从R中随机采样小批量N个状态的转换过程(s

设定y

(c)通过计算预期的累计奖励函数的梯度来更新策略网络中的策略参数θ

(d)通过软更新的方式更新目标网络中参数θ

θ

θ

基于DDPG网络的强化学习过程中,先搭建好智能车基于强化学习的模拟驾驶环境;收集的当前T时刻的状态样本{s

步骤2,构建包含行动者网络和判别器的模仿学习网络,利用自动驾驶场景采集的状态样本和专家状态动作对对模仿学习网络进行训练,优化行动者网络和判别器的参数。

实施例中,模仿学习网络包含行动者网络(actor网络)和判别器,模仿学习网络中的分类器与GAN中的分类器相当,而GAN中的生成器相当于模仿学习网络中的actor网络。其中,actor网络用于根据输入的状态样本生成动作,与输入的状态形成状态动作对。判别器用于区分输入数据是来自于actor网络生成的状态动作对还是专家状态动作对。

模仿学习是通过对输入的状态样本、所生成的对应动作与专家状态动作样本进行训练。具体过程为:首先,将将采集的状态样本输入actor网络,生成对应的动作{a

针对actor网络的训练,将采集的某T时刻的智能车正常驾驶状态(state){s

假定r

针对判别器的训练,初始化判别器和actor网络;输入专家状态动作对

步骤3,利用参数优化的actor网络和判别器进行DDPG网络的异常检测。

在进行DDPG网络的异常检测时,将状态样本分别输入至参数优化的的DDPG网络和actor网络,生成两个状态动作对,利用参数优化的判别器对DDPG网络生成的状态动作对进行判别,当判别结果为1时,认为状态动作对中的动作未受到攻击,当判别结果为0时,认为状态动作对中的动作存在异常。

当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围(例如±5°)外,说明动作受到攻击,利用模仿学习网络生成的状态动作对替换DDPG网络生成的状态动作对,利用模仿学习网络生成的状态动作指导DDPG网络在后续阶段的强化学习过程中做出正确决策。实施中,动作幅度差异是指DDPG网络生成的动作与专家动作之间的差异。

当状态动作对中的动作存在异常时,且动作幅度差异在阈值范围内,则认为是系统误差生成的物理扰动,不进行状态动作对的替换。

实施例还提供了一种面向深度强化学习的策略异常检测装置,包括存储器、处理器以及存储在存储器中并可在处理器上执行的计算机程序,所述处理器执行计算机程序时实现上述面向深度强化学习的策略异常检测方法。

实际应用中,存储器可以为在近端的易失性存储器,如RAM,还可以是非易失性存储器,如ROM,FLASH,软盘,机械硬盘等,还可以是远端的存储云。处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)、或现场可编程门阵列(FPGA),即可以通过这些处理器实现面向深度强化学习的策略异常检测方法步骤。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号