法律状态公告日
法律状态信息
法律状态
2023-05-05
专利实施许可合同备案的生效 IPC(主分类):H04L29/06 专利申请号:2017106849398 专利号:ZL2017106849398 合同备案号:X2023350000206 让与人:厦门大学 受让人:厦门星纵物联科技有限公司 发明名称:基于强化学习的检测高级持续威胁的资源调度方法 申请日:20170811 申请公布日:20171020 授权公告日:20191217 许可种类:普通许可 备案日期:20230417
专利实施许可合同备案的生效、变更及注销
2023-04-11
专利实施许可合同备案的生效 IPC(主分类):H04L29/06 专利申请号:2017106849398 专利号:ZL2017106849398 合同备案号:X2023350000113 让与人:厦门大学 受让人:厦门四信通信科技有限公司 发明名称:基于强化学习的检测高级持续威胁的资源调度方法 申请日:20170811 申请公布日:20171020 授权公告日:20191217 许可种类:普通许可 备案日期:20230323
专利实施许可合同备案的生效、变更及注销
2019-12-17
授权
授权
2017-11-17
实质审查的生效 IPC(主分类):H04L29/06 申请日:20170811
实质审查的生效
2017-10-20
公开
公开
技术领域
本发明涉及计算机和信息安全,尤其是涉及基于强化学习的检测高级持续威胁的资源调度方法。
背景技术
云计算技术飞速发展,在大数据背景下的云存储技术已经被越来越多的企业和个人熟悉并使用。云存储在为我们提供便利的同时,其安全性也日益引起我们的关注。云存储系统承载了大量的企业文件和私人信息等隐私敏感性数据,2016年5亿Yahoo用户账号泄露,同年俄罗斯央行3100万美元被盗。因此,云存储系统的安全性和隐私性成为制约其未来发展的关键因素。
高级持续威胁(APT),是指组织(特别是政府)或者小团体利用先进的攻击手段对特定的目标进行长期持续性网络攻击的攻击形式,其主要目的是窃取隐私数据而不是摧毁网络,由于其手段复杂、隐蔽性强等特点导致传统的网络防御方法无法有效的抵御APT攻击,因此云存储系统很容易遭受这种攻击。
此类APT威胁往往可以绕过防火墙和IPS等传统的安全机制,悄无声息的从企业或者政府机构获取高机密资料。为应对云计算下APT攻击,各国政府陆续制定和出台了一系列相关政策,国内外针对APT攻击的防御产品及方案不断涌现。例如美国政府大力支持FireEye公司推出的APT防御产品,利用沙箱技术和静止分析防止0day漏洞、未知型攻击、木马程序。现有的APT防御产品和方案各有侧重,如[孙海波,田进山,周涛.高级持续威胁的检测方法和系统[P].CN 103312679 A.2013.09.18]利用上下文环境的支持,结合历史事件检测出APT攻击。(康学斌,肖新光.一种针对高级可持续威胁的溢出漏洞检测方法及系统[P].CN 103902914 A.2014.07.02)通过建立从历史到最新的软件的各分支版本,并监控各分支版本是否存在溢出行为,从而更加高效的判断带检测软件是否具有0day攻击。(M.vanDijk,A.Juels,A.Oprea,and R.L.Rivest,“Flipit:The game of stealthytakeover”,J.Cryptology.vol.26,no.4,pp 655-713,2013)提出可将博弈论用于捕捉APT的隐形入侵访问特性,防御者和攻击者通过建立博弈模型来决定防御及攻击行为。(肖亮,许冬瑾,范业仙,谢彩霞.一种云存储系统的持续性攻击的检测方法[P].CN 106612287A.2017.05.03)提出基于Q学习算法的抗APT入侵的方法,在未知攻击模型的情况下动态学习最优的安全扫描时间。
目前很多解决方案未充分考虑防御系统资源受限的情景,然而该限制是防御系统制定检测资源调度方案的关键因素之一。同时,强化学习算法例如Q学习算法在状态集和动作集维度大的情况下,它的学习速度会快速下降。这些问题制约着强化学习算法的应用。
发明内容
本发明的目的是提供一种基于强化学习的检测高级持续威胁的资源调度方法,针对计算机或云存储系统,调度其CPU等计算资源检测APT攻击,采用神经情景控制学习,不需预知APT攻击模型,优化动态数据存储系统的检测资源调度策略,结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度,可适应动态云存储环境和攻击模式,提高计算机和云存储系统在APT攻击下的数据隐私性能的基于强化学习的检测高级持续威胁的资源调度方法。
本发明包括以下步骤:
步骤1:防御系统利用SM个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT),利用
可选动作范围为:
可选动作个数为:
|ΔD|;
步骤2:防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数
步骤3:计算防御系统的即时收益
步骤4:在APT攻击模型未知的情况下,防御系统通过神经情景控制算法,学习如何调度其CPU等计算资源来检测APT攻击,优化动态数据存储系统的检测资源调度策略,以获得防御系统的最大收益,其中神经情景控制学习算法包括以下步骤:
4.1)构造深度卷积神经网络,初始化深度卷积神经网络权重参数θ、输入状态序列
4.2)为防御系统的每个资源分配动作初始化一个情景记忆模块,即一个键-值对阵列,键为给定输入下卷积神经网络的输出h,值即为对应的估计Q值,该模块可方便的进行读写操作;
4.3)在k时刻,k≤W时,防御系统随机选取一个资源分配动作M(k)检测数据存储系统中的APT攻击;k≥W时,构造深度卷积神经网络的输入状态序列
4.4)将状态序列
4.5)防御系统以1-ε的概率,选取具有最大Q值的CPU等计算资源调度策略,以ε的概率随机选取其他资源调度策略,然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击,其中0<ε<1;
4.6)观察当前时刻下APT攻击者的CPU等计算资源的分配结果,评估当前防御系统的即时收益
4.7)求解键h对应的估计Q值。首先查询对应最大Q值的动作M',然后根据公式
4.8)将k时刻经验
4.9)最小化网络输出Q值与估计值Q(N)之间的损失值,对第k时刻网络的权重参数θ(k)进行更新操作。在每一次更新过程中,随机从经验池中选取经验,
采用随机梯度下降法,更新深度卷积神经网络的权重参数θ(k);
4.10)根据云存储环境和攻击模型变化,防御系统重复步骤4.4-4.9,直到学习到稳定的检测资源调度策略。
在步骤3中,所述即时效益
在步骤4第4.1)部分中,所述构造深度卷积神经网络,包含卷积层m层和全连接层n层,在m(m≥1)层卷积层中,第一层卷积层输入大小2*H+1,具有q个过滤器;在n(n≥1)层全连接层中最后一层的全连接层输出大小与防御系统的可选择动作范围大小一致,即|ΔD|。
在步骤4第4.3)部分中,所述在第k时刻,深度卷积神经网络的输入
本发明充分利用防御系统与攻击者之间的行为博弈交互,不需预知具体的APT攻击模型,通过神经情景控制学习算法使得防御系统可以根据攻击者的攻击资源分配动态的调整防御资源分配,优化动态数据存储系统的检测资源调度策略。
本发明结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度,提高计算机和云存储系统在APT攻击下的数据隐私性能。
具体实施方式
下面结合实施例进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
一种基于强化学习的检测高级持续威胁的资源调度方法具体实施步骤如下:
步骤1:防御系统利用SM=16个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT),利用
步骤2:防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数
步骤3:计算防御系统的即时收益
步骤4:在APT攻击模型未知的情况下,防御系统通过神经情景控制算法,学习如何调度其CPU等计算资源来检测APT攻击,优化动态数据存储系统的检测资源调度策略,以获得防御系统的最大收益。其中神经情景控制学习算法包括以下几个步骤:
4.1)构造深度卷积神经网络,包含2个卷积层和两个全连接层。第一层为卷积层,输入大小为25,包含有20个3*3的卷积核,步进为1,输出大小为20*4*4;第二层为卷积层,输入大小为20*4*4,包含有40个2*2的卷积核,步进为1,输出大小为40*3*3;第三层为全连接层,输入大小为360,输出大小为180;最后一层为全连接层,输入大小为180,输出为防御系统的可选择动作范围大小|ΔD|。4层都采用ReLU函数作为激活函数。
4.2)初始化深度卷积神经网络权重参数θ、输入状态序列
4.3)为防御系统的每个资源分配动作初始化一个情景记忆模块,即一个键-值对阵列,键为给定输入下卷积神经网络的输出h,值即为对应的估计Q值,该模块可方便的进行读写操作。
4.4)在k时刻,k≤W时,防御系统随机选取一个资源分配动作M(k)检测数据存储系统中的APT攻击;k≥W时,构造深度卷积神经网络的输入状态序列
4.5)将状态序列
4.6)防御系统以0.9的概率,选取具有最大Q值的CPU等计算资源调度策略,以0.1的概率随机选取其他资源调度策略,然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击。
4.7)观察当前时刻下APT攻击者的CPU等计算资源的分配结果,评估当前防御系统的即时收益
4.8)求解键h对应的估计Q值。首先查询对应最大Q值的动作M',然后根据公式
4.9)将k时刻经验
4.10)最小化网络输出Q值与估计值Q(N)之间的损失值,对第k时刻网络的权重参数θ(k)进行更新操作。在每一次更新过程中,随机从经验池中选取经验,
采用随机梯度下降法,更新深度卷积神经网络的权重参数θ(k)。
4.11)根据云存储环境和攻击模型变化,防御系统重复步骤4.4)~4.10),直到学习到稳定的检测资源调度策略。
本发明提出一种基于强化学习的计算机系统或云存储系统检测高级持续威胁(APT)的CPU等计算资源调度方法,涉及计算机和信息安全领域。针对计算机或云存储系统,调度其CPU等计算资源检测APT攻击,采用神经情景控制学习,不需预知APT攻击模型,优化动态数据存储系统的检测资源调度策略。结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度。该方法可适应动态云存储环境和攻击模式,提高计算机和云存储系统在APT攻击下的数据隐私性能。
机译: 使用基于行为的分析技术进行高级持续威胁攻击检测和响应系统及其方法
机译: 基于路由器的诱饵,可检测高级持续威胁
机译: 基于路由器的蜜罐,用于检测高级持续威胁