首页> 中国专利> 基于强化学习的检测高级持续威胁的资源调度方法

基于强化学习的检测高级持续威胁的资源调度方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

基于强化学习的检测高级持续威胁的资源调度方法，涉及计算机和信息安全。针对计算机或云存储系统，调度其CPU等计算资源检测APT攻击，采用神经情景控制学习，不需预知APT攻击模型，优化动态数据存储系统的检测资源调度策略。结合深度卷积神经网络和情景记忆，压缩APT检测的状态空间，利用情景记忆模块存储资源分配经验，充分利用上下文环境信息，加快对APT攻防新特征的认知，加快学习速度。该方法可适应动态云存储环境和攻击模式，提高计算机和云存储系统在APT攻击下的数据隐私性能。

著录项

公开/公告号CN107277065A

专利类型发明专利
公开/公告日2017-10-20

原文格式PDF
申请/专利权人厦门大学;
展开▼

申请/专利号CN201710684939.8
发明设计人肖亮;闵明慧;陈烨;许冬瑾;唐余亮;
展开▼

申请日2017-08-11
分类号H04L29/06(20060101);
代理机构35200 厦门南强之路专利事务所(普通合伙);
代理人马应森;曾权
地址 361005 福建省厦门市思明南路422号
入库时间 2023-06-19 03:34:25

法律信息

法律状态公告日

法律状态信息

法律状态
2023-05-05

专利实施许可合同备案的生效 IPC(主分类):H04L29/06 专利申请号:2017106849398 专利号:ZL2017106849398 合同备案号:X2023350000206 让与人:厦门大学受让人:厦门星纵物联科技有限公司发明名称:基于强化学习的检测高级持续威胁的资源调度方法申请日:20170811 申请公布日:20171020 授权公告日:20191217 许可种类:普通许可备案日期:20230417

专利实施许可合同备案的生效、变更及注销
2023-04-11

专利实施许可合同备案的生效 IPC(主分类):H04L29/06 专利申请号:2017106849398 专利号:ZL2017106849398 合同备案号:X2023350000113 让与人:厦门大学受让人:厦门四信通信科技有限公司发明名称:基于强化学习的检测高级持续威胁的资源调度方法申请日:20170811 申请公布日:20171020 授权公告日:20191217 许可种类:普通许可备案日期:20230323

专利实施许可合同备案的生效、变更及注销
2019-12-17

授权

授权
2017-11-17

实质审查的生效 IPC(主分类):H04L29/06 申请日:20170811

实质审查的生效
2017-10-20

公开

公开

说明书

技术领域

本发明涉及计算机和信息安全，尤其是涉及基于强化学习的检测高级持续威胁的资源调度方法。

背景技术

云计算技术飞速发展，在大数据背景下的云存储技术已经被越来越多的企业和个人熟悉并使用。云存储在为我们提供便利的同时，其安全性也日益引起我们的关注。云存储系统承载了大量的企业文件和私人信息等隐私敏感性数据，2016年5亿Yahoo用户账号泄露，同年俄罗斯央行3100万美元被盗。因此，云存储系统的安全性和隐私性成为制约其未来发展的关键因素。

高级持续威胁(APT)，是指组织(特别是政府)或者小团体利用先进的攻击手段对特定的目标进行长期持续性网络攻击的攻击形式，其主要目的是窃取隐私数据而不是摧毁网络，由于其手段复杂、隐蔽性强等特点导致传统的网络防御方法无法有效的抵御APT攻击，因此云存储系统很容易遭受这种攻击。

此类APT威胁往往可以绕过防火墙和IPS等传统的安全机制，悄无声息的从企业或者政府机构获取高机密资料。为应对云计算下APT攻击，各国政府陆续制定和出台了一系列相关政策，国内外针对APT攻击的防御产品及方案不断涌现。例如美国政府大力支持FireEye公司推出的APT防御产品，利用沙箱技术和静止分析防止0day漏洞、未知型攻击、木马程序。现有的APT防御产品和方案各有侧重，如[孙海波，田进山，周涛.高级持续威胁的检测方法和系统[P].CN 103312679 A.2013.09.18]利用上下文环境的支持，结合历史事件检测出APT攻击。(康学斌，肖新光.一种针对高级可持续威胁的溢出漏洞检测方法及系统[P].CN 103902914 A.2014.07.02)通过建立从历史到最新的软件的各分支版本，并监控各分支版本是否存在溢出行为，从而更加高效的判断带检测软件是否具有0day攻击。(M.vanDijk,A.Juels,A.Oprea,and R.L.Rivest,“Flipit:The game of stealthytakeover”,J.Cryptology.vol.26,no.4,pp 655-713,2013)提出可将博弈论用于捕捉APT的隐形入侵访问特性，防御者和攻击者通过建立博弈模型来决定防御及攻击行为。(肖亮，许冬瑾，范业仙，谢彩霞.一种云存储系统的持续性攻击的检测方法[P].CN 106612287A.2017.05.03)提出基于Q学习算法的抗APT入侵的方法，在未知攻击模型的情况下动态学习最优的安全扫描时间。

目前很多解决方案未充分考虑防御系统资源受限的情景，然而该限制是防御系统制定检测资源调度方案的关键因素之一。同时，强化学习算法例如Q学习算法在状态集和动作集维度大的情况下，它的学习速度会快速下降。这些问题制约着强化学习算法的应用。

发明内容

本发明的目的是提供一种基于强化学习的检测高级持续威胁的资源调度方法，针对计算机或云存储系统，调度其CPU等计算资源检测APT攻击，采用神经情景控制学习，不需预知APT攻击模型，优化动态数据存储系统的检测资源调度策略，结合深度卷积神经网络和情景记忆，压缩APT检测的状态空间，利用情景记忆模块存储资源分配经验，充分利用上下文环境信息，加快对APT攻防新特征的认知，加快学习速度，可适应动态云存储环境和攻击模式，提高计算机和云存储系统在APT攻击下的数据隐私性能的基于强化学习的检测高级持续威胁的资源调度方法。

本发明包括以下步骤：

步骤1：防御系统利用S_M个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT)，利用个CPU等计算资源在k时刻对第i个云存储设备进行检测，其中1≤i≤D。防御系统检测D个云存储设备的资源分配向量为：

可选动作范围为：

可选动作个数为：

|Δ_D|；

步骤2：防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数作为系统当前k时刻的状态s^(k)，即s^(k)＝N^(k-1)，其中是APT攻击每个云存储设备分配的攻击资源的个数，N^(k-1)表示APT攻击D个云存储设备的攻击资源分配向量；

步骤3：计算防御系统的即时收益公式为云存储设备中的数据量是时变的，表示k时刻第i个设备的数据存储量，其中1≤i≤D，M_i、N_i表示防御系统和攻击者为第i个设备分配的计算资源个数，sgn表示符号函数，

步骤4：在APT攻击模型未知的情况下，防御系统通过神经情景控制算法，学习如何调度其CPU等计算资源来检测APT攻击，优化动态数据存储系统的检测资源调度策略，以获得防御系统的最大收益，其中神经情景控制学习算法包括以下步骤：

4.1)构造深度卷积神经网络，初始化深度卷积神经网络权重参数θ、输入状态序列包含的以往状态动作对个数W以及网络更新操作次数H；初始化的Q值矩阵，对防御系统的所有资源分配动作一个对应的输出Q值；初始化折扣因子γ和学习因子δ，其中0＜γ≤1，0≤δ≤1；

4.2)为防御系统的每个资源分配动作初始化一个情景记忆模块，即一个键-值对阵列，键为给定输入下卷积神经网络的输出h，值即为对应的估计Q值，该模块可方便的进行读写操作；

4.3)在k时刻，k≤W时，防御系统随机选取一个资源分配动作M^(k)检测数据存储系统中的APT攻击；k≥W时，构造深度卷积神经网络的输入状态序列

4.4)将状态序列输入到深度卷积神经网络产生一个键h，对于每个资源分配动作M，利用近似最近邻查找算法在情景记忆模块中查询与键h最为相近的p个情景，对应键为h_i(1≤i≤p)，计算h与h_i的核k(h,h_i)，其中δ＝10^-3；利用公式获得每个近似情景所占权重w_i，其中表示对p个核k(h,h_j)求和，1≤j≤p。最终输出的Q值是该动作的情景记忆模块中p个邻近情景的键h_i与对应估计Q_i值的加权之和，即

4.5)防御系统以1-ε的概率，选取具有最大Q值的CPU等计算资源调度策略，以ε的概率随机选取其他资源调度策略，然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击，其中0＜ε＜1；

4.6)观察当前时刻下APT攻击者的CPU等计算资源的分配结果，评估当前防御系统的即时收益

4.7)求解键h对应的估计Q值。首先查询对应最大Q值的动作M'，然后根据公式获得N阶估计Q值将键-值对存入到情景记忆模块中；

4.8)将k时刻经验存放入经验池中；

4.9)最小化网络输出Q值与估计值Q^(N)之间的损失值，对第k时刻网络的权重参数θ^(k)进行更新操作。在每一次更新过程中，随机从经验池中选取经验，计算损失值L(θ^(k))，其中表示统计期望计算；

采用随机梯度下降法，更新深度卷积神经网络的权重参数θ^(k)；

4.10)根据云存储环境和攻击模型变化，防御系统重复步骤4.4-4.9，直到学习到稳定的检测资源调度策略。

在步骤3中，所述即时效益与安全的云存储设备的个数成正比例关系，对于任何一个云存储设备，若防御系统分配的检测资源个数大于APT分配的攻击资源个数，则认为云存储设备中的数据是安全的；所述云存储设备中的数据，存储量B_i随时间动态变化。

在步骤4第4.1)部分中，所述构造深度卷积神经网络，包含卷积层m层和全连接层n层，在m(m≥1)层卷积层中，第一层卷积层输入大小2*H+1，具有q个过滤器；在n(n≥1)层全连接层中最后一层的全连接层输出大小与防御系统的可选择动作范围大小一致，即|Δ_D|。

在步骤4第4.3)部分中，所述在第k时刻，深度卷积神经网络的输入是由以往状态-动作对W和当前的系统状态s^(k)组成，即

本发明充分利用防御系统与攻击者之间的行为博弈交互，不需预知具体的APT攻击模型，通过神经情景控制学习算法使得防御系统可以根据攻击者的攻击资源分配动态的调整防御资源分配，优化动态数据存储系统的检测资源调度策略。

本发明结合深度卷积神经网络和情景记忆，压缩APT检测的状态空间，利用情景记忆模块存储资源分配经验，充分利用上下文环境信息，加快对APT攻防新特征的认知，加快学习速度，提高计算机和云存储系统在APT攻击下的数据隐私性能。

具体实施方式

下面结合实施例进一步描述本发明的技术方案，但要求保护的范围并不局限于所述。

一种基于强化学习的检测高级持续威胁的资源调度方法具体实施步骤如下：

步骤1：防御系统利用S_M＝16个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT)，利用个CPU等计算资源在k时刻对第i个云存储设备进行检测，其中1≤i≤D，D＝4。防御系统检测D个云存储设备的资源分配向量为可选动作范围为：可选动作个数为|Δ_D|。

步骤2：防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数作为系统当前k时刻的状态s^(k)，即s^(k)＝N^(k-1)，其中是APT攻击每个云存储设备分配的攻击资源的个数，N^(k-1)表示APT攻击D个云存储设备的攻击资源分配向量。

步骤3：计算防御系统的即时收益公式为云存储设备中的数据量是时变的，表示k时刻第i个设备的数据存储量，其中1≤i≤D，M_i、N_i表示防御系统和攻击者为第i个设备分配的计算资源个数。sgn表示符号函数，

步骤4：在APT攻击模型未知的情况下，防御系统通过神经情景控制算法，学习如何调度其CPU等计算资源来检测APT攻击，优化动态数据存储系统的检测资源调度策略，以获得防御系统的最大收益。其中神经情景控制学习算法包括以下几个步骤：

4.1)构造深度卷积神经网络，包含2个卷积层和两个全连接层。第一层为卷积层，输入大小为25，包含有20个3*3的卷积核，步进为1，输出大小为20*4*4；第二层为卷积层，输入大小为20*4*4，包含有40个2*2的卷积核，步进为1，输出大小为40*3*3；第三层为全连接层，输入大小为360，输出大小为180；最后一层为全连接层，输入大小为180，输出为防御系统的可选择动作范围大小|Δ_D|。4层都采用ReLU函数作为激活函数。

4.2)初始化深度卷积神经网络权重参数θ、输入状态序列包含的以往状态-动作对W＝11以及网络更新的操作次数H＝16；初始化防御系统所有资源分配动作的Q值；初始化折扣因子γ＝0.5，学习δ＝0.01；

4.3)为防御系统的每个资源分配动作初始化一个情景记忆模块，即一个键-值对阵列，键为给定输入下卷积神经网络的输出h，值即为对应的估计Q值，该模块可方便的进行读写操作。

4.4)在k时刻，k≤W时，防御系统随机选取一个资源分配动作M^(k)检测数据存储系统中的APT攻击；k≥W时，构造深度卷积神经网络的输入状态序列

4.5)将状态序列输入到深度卷积神经网络产生一个键h，对于每个资源分配动作M，利用近似最近邻查找算法在情景记忆模块中查询与键h最为相近的p个情景，对应键为h_i(1≤i≤p)，计算h与h_i的核k(h,h_i)，其中δ＝10^-3；利用公式获得每个近似情景所占权重w_i，其中表示对p个核k(h,h_j)求和，1≤j≤p。最终输出的Q值是该动作的情景记忆模块中p个邻近情景的键h_i与对应估计Q_i值的加权之和，即

4.6)防御系统以0.9的概率，选取具有最大Q值的CPU等计算资源调度策略，以0.1的概率随机选取其他资源调度策略，然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击。

4.7)观察当前时刻下APT攻击者的CPU等计算资源的分配结果，评估当前防御系统的即时收益

4.8)求解键h对应的估计Q值。首先查询对应最大Q值的动作M'，然后根据公式获得N阶估计Q值将键-值对存入到情景记忆模块中。

4.9)将k时刻经验存放入经验池中。

4.10)最小化网络输出Q值与估计值Q^(N)之间的损失值，对第k时刻网络的权重参数θ^(k)进行更新操作。在每一次更新过程中，随机从经验池中选取经验，计算损失值L(θ^(k))，其中表示统计期望计算。

采用随机梯度下降法，更新深度卷积神经网络的权重参数θ^(k)。

4.11)根据云存储环境和攻击模型变化，防御系统重复步骤4.4)～4.10)，直到学习到稳定的检测资源调度策略。

本发明提出一种基于强化学习的计算机系统或云存储系统检测高级持续威胁(APT)的CPU等计算资源调度方法，涉及计算机和信息安全领域。针对计算机或云存储系统，调度其CPU等计算资源检测APT攻击，采用神经情景控制学习，不需预知APT攻击模型，优化动态数据存储系统的检测资源调度策略。结合深度卷积神经网络和情景记忆，压缩APT检测的状态空间，利用情景记忆模块存储资源分配经验，充分利用上下文环境信息，加快对APT攻防新特征的认知，加快学习速度。该方法可适应动态云存储环境和攻击模式，提高计算机和云存储系统在APT攻击下的数据隐私性能。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于强化学习的检测高级持续威胁的资源调度方法 [P] . 中国专利： CN107277065B . 2019.12.17
2. 基于攻击行为分析的高级持续性威胁检测方法 [P] . 中国专利： CN105871883B . 2019.10.08
3. USING BEHAVIOR-BASED ANALYSIS TECHNIQUES FOR ADVANCED PERSISTENT THREAT ATTACK DETECTION AND RESPONSE SYSTEM AND METHOD FOR THEREOF [P] . 韩国专利： KR101560534B1 . 2015-10-16

机译：使用基于行为的分析技术进行高级持续威胁攻击检测和响应系统及其方法
4. A router-based decoy to detect advanced persistent threats [P] . ES2771951T3 . 2020-07-07

机译：基于路由器的诱饵，可检测高级持续威胁
5. A ROUTER-BASED HONEYPOT FOR DETECTING ADVANCED PERSISTENT THREATS [P] . 欧洲知识产权局专利： EP2903238B1 . 2020-01-15

机译：基于路由器的蜜罐，用于检测高级持续威胁