结合语义的统计机器学习方法在代码安全中应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近两年美国因病毒、间谍软件等网络攻击损失近85亿美元，而中国大陆更是有数以亿计的大量主机和网络被恶意攻击、破坏和篡改。一方面，种类繁多功能各异的诸如病毒，蠕虫，rootkit，间谍软件等恶意代码层出不穷，黑客攻击方式、手段与过程不断复杂深化；另一方面，信息系统漏洞不断增长，漏洞越来越多。强大的经济利益的驱动使得恶意代码检测与防范问题仍是信息安全届亟需解决的首要问题。攻击者不断升级并复杂化新的攻击手段，防守者根据攻击提出防护措施，例如修补漏洞，注入防护疫苗等；进一步地，攻击者提出新的反检测和规避技术，防护者也要不断更新防护技术。攻防双方不断博弈，两者在动态平衡中，不断将局部的马鞍点向前推进。
　　统计机器学习源于统计，长于关系推理和知识的自动学习，已在文本分析，视频分析，图像理解，语音信号识别取得极好的效果。我们把恶意代码检测与攻击比作一场猫捉老鼠的游戏，统计机器学习能不能有效的扮演“猫”的角色，能不能在已有的恶意代码检测与分析的基础上在如虎添翼?该问题的难点在于安全信息系统的一些特征需求与机器学习应用需求不是完全一致。例如信息安全中，对于误报率和漏报率的容忍度达到了苛刻的程度；对机器学习的结果缺少解释，模型的结果与实际的安全保障之间存在语义上的差距，很多结果在实际中不可行或者严重偏离信息系统程序和系统配置的现实；机器学习算法必须考虑攻击和攻击者各种各样的逃避检测策略。几乎信息安全的所有问题都是攻击者和防守者之间的博弈过程，必须站在双方的角度上着想，才有助于问题的解决。
　　针对代码分析的具体领域，在结合代码分析领域内知识的基础上，我们提出以下问题作为本文的研究对象。a)机器学习能不能在恶意代码或者代码分析中使用?b)在恶意代码检测(扩展到代码分析甚至系统安全中)，能起多大作用，如何使用并使其发挥最大功效?本文将此抽象问题具体化为几个子问题(Q1-Q4)进行细化，并通过具体的案例分析来回答。Q1：如何提取多态蠕虫签名?Q2：如何进行多态shellcode归属性分析?Q3：如何检测迷惑恶意代码?Q4：多线程程序中，如何消除时序相关的不确定性bug?本文关注的恶意代码包含两类，第一类是基于网络包的恶意代码，例如多态蠕虫，通过网络传播的shellcode；第二类是基于文件的恶意代码，例如被攻陷的可执行文件或者动态链接库文件；另外本文还分析了一个多线程程序安全中的案例。
　　针对上述问题，我们进行了下列研究：结合语义和统计特征，对多态蠕虫提取签名；结合语义和统计特征，对多态shellcode进行归属性分析；结合语义特征和统计特征，检测迷惑恶意代码；结合多线程运行的上下文，来推测时序对不确定性bug的影响。
　　我们的工作有以下创新点。a)提出了语义分析和统计分析相结合的代码分析新方法，用于检测或者分类恶意代码文件以及恶意代码包；与语义分析方法相比，融合了统计方法定量描述的特长；与统计方法相比，关注了更多的代码语义特性，使得分析更加接近代码语义本质。b)提出了基于数据流分析的状态转移图签名，用于多态蠕虫签名提取，通过数据流分析去除隐含在网络数据包中的噪声数据，较好刻画蠕虫的多态特性。c)提出了一种结合静态污点分析和混合Markov模型的shellcode归属性分析算法；通过静态污点分析保留语义相关字节，混合Markov模型获取数据包的统计结构特征；比单一的统计分析更加健壮，比仅仅的静态污点分析方法更易于定量描述和进行代码相似性比较。d)提出了一种结合控制流和系统调用特征的迷惑恶意代码检测算法，用于检测迷惑后的恶意代码；控制流和系统调用获取了代码的语义特征，而同时结合统计特征，相互补充，尽可能准确的进行迷惑恶意代码的类别检测。e)提出了使用HMM，刻画影响多线程运行的上下文，通过上下文(优先级，系统负载，运行时间等)捕获环境对程序运行的影响，并将这种影响进一步量化，为不确定性bug提供分析的依据。
　　通过以上研究，我们发现，结合或者体现某种程度语义的机器学习可以较为有效的应用于代码分析和检测中。结合语义的多态shellcode签名提取和归属性分析的相关技术已经出现在DayZeroSystems产品中，提升多维特征的迷惑恶意代码检测方法已开始应用到下一代智能安全检测产品中(例如Damballa，Inc)。我们相信这些技术将会在智能信息安全检测中得到更广泛应用。

著录项

作者
孔德光;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科控制理论与控制工程
授予学位博士
导师姓名奚宏生;
年度 2010
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.08;
关键词
网络安全; 代码安全; 攻击防范; 恶意代码检测; 机器学习; 集成学习;

相似文献

中文文献
外文文献
专利

1. 基于语法和语义结合的源代码精确搜索方法 [J] . 顾逸圣 ,曾国荪 . 计算机应用 . 2017,第010期
2. 软件安全中结合语义的机器学习方法探讨 [J] . 郭楠 . 数字技术与应用 . 2016,第006期
3. 软件安全中结合语义的机器学习方法探讨 [J] . 郭楠 . 数字技术与应用 . 2016,第006期
4. 探析在软件安全中结合语义的机器学习方法 [J] . 苗发彪 . 计算机光盘软件与应用 . 2014,第018期
5. 统计学习方法在语义消歧中的应用研究 [J] . 刘莉 ,谈文蓉 . 西南民族大学学报（自然科学版） . 2007,第001期
6. 统计机器学习中的特征选择方法综述 [C] . 刘峤 ,秦志光 ,罗旭成 . 2009中国计算机大会 . 2009
7. 结合语义的机器学习方法在软件安全中应用研究 [A] . 孔德光 . 2010

结合语义的统计机器学习方法在代码安全中应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅