首页> 中国专利> 一种基于频谱分析的复合文档恶意代码检测技术与系统

一种基于频谱分析的复合文档恶意代码检测技术与系统

摘要

本发明涉及计算机恶意代码检测技术领域和频谱分析技术领域,旨在提供一种基于频谱分析的复合文档恶意代码检测技术与系统。该技术采用了基于复合文档相位谱分析的检测方案,包括:将静态的复合文档二进制数据转换成相位谱图的方法;对相位谱图的均匀度、相位值、频谱宽度等特征进行自动提取的方法;通过设计对照实验,构造大量对照组,统计出一般性差异制定判定准则的方法;通过分析相位谱特征检测复合文档恶意代码的方法。该系统检测对象针对性强,检测过程中不需要执行,能够检测出未知恶意代码。本发明为复合文档恶意代码检测提供了新的解决方案。

著录项

  • 公开/公告号CN103294954A

    专利类型发明专利

  • 公开/公告日2013-09-11

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN201310224569.1

  • 发明设计人 方勇;贾鹏;左政;

    申请日2013-06-07

  • 分类号G06F21/56(20130101);

  • 代理机构

  • 代理人

  • 地址 610065 四川省成都市武侯区一环路南一段24号

  • 入库时间 2024-02-19 20:48:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-05-17

    未缴年费专利权终止 IPC(主分类):G06F21/56 专利号:ZL2013102245691 申请日:20130607 授权公告日:20151202

    专利权的终止

  • 2015-12-02

    授权

    授权

  • 2013-10-16

    实质审查的生效 IPC(主分类):G06F21/56 申请日:20130607

    实质审查的生效

  • 2013-09-11

    公开

    公开

说明书

技术领域

本发明涉及计算机恶意代码检测技术领域和频谱分析技术领域,尤其涉及一种基于频谱分析的复合文档恶意代码检测技术与系统。

背景技术

随着电子办公的不断发展,以复合文档为代表的电子文档使用越来越普遍,于此同时复合文档也成为了恶意代码的攻击目标,通过将自身绑定到复合文档,恶意代码能够 方便的实现启动和隐藏自身。每年检测到的恶意文件中涉及复合文档的占到5%左右,用户在使用浏览器和即时聊天软件下载或者接受文件时文件携带恶意代码的比例在6%-10%之间,这里又有很大的比例关系到复合文档。复合文档的安全性受到了严重的威胁,对复合文档恶意代码进行有针对性的检测已经刻不容缓。

传统的针对恶意代码的检测,主要分为特征码检测技术以及非特征码检测技术。特征码检测技术是一种静态检测方法,通过提取恶意代码特征码的方法对其进行检测。非特征码技术也称为动态检测技术,现有的技术主要有基于行为分析的恶意代码检测技术、启发式分析的检测技术、沙盒技术等等。传统的恶意代码检测技术在检测复合文档型的恶意代码方面存在以下的这些问题。

一、静态检测技术无法检测未知的恶意代码。

二、动态检测技术检测效率低、代价大,且准确度偏低。

三、没有一种专门的针对复合文档恶意代码的检测方法,对于复合文档恶意代码的检测还是采用传统的技术,没有充分利用复合文档的结构特点。

同时,因为复合文档恶意代码迷惑性高,实现起来较为简单,所以通过复合文档进行传播的恶意代码数量会越来越多。因此,针对复合文档恶意代码检测成为了一个迫切需要研究的问题,需要研究一种新的方法,能够针对复合文档的特点,克服以上的三个问题,提出一种不同于传统恶意代码检测方法的检测技术,对复合文档恶意代码进行有效检测。

发明内容

“一种基于频谱分析的复合文档恶意代码检测技术与系统”是在恶意代码检测技术的研究过程中针对存在的现有技术问题所提出的发明。本发明的一个目标是改善现有检测方法针对性差的弱点,提供一种基于频谱分析的复合文档恶意代码检测技术,有针对性的对绑定了恶意代码的复合文档进行检测。复合文档的二进制数据从某种程度上来说也可以看作是一种信号,作为一种信号就会在频域上表现出一定的特性,通过对复合文档的数据进行时域到频域的变换,就可以得到其在频域上的特性。本发明中的检测方法提供了一种全新的检测思路,不依赖于恶意代码传统的静态特征和行为特征,不需要打开复合文档,不需要监测系统的各方面状态变化,而是根据复合文档的相位谱特征进行检测。该方法在检测过程中能够有效的保护系统和用户数据安全,并且该检测方案针对性强,因此其检测的准确率也较传统的检测技术高。

为了实现上述目标,本发明提供了一种基于频谱分析的复合文档恶意代码检测系统,该系统能够从复合文档的二进制数据中提取出实数序列,然后采用相关算法进行变换得到文档的相位谱,进而根据相位谱特征进行判断。该系统包含了:管理端,对检测过程和检测结果进行管理,并维护一个特征数据库;数据提取器,用于从复合文档的二进制数据中剥离出固定部分的数据,并将二进制数据转换成实数序列,然后根据抽样率对实数序列进行抽样;相位谱生成器,接收来自数据提取模块的数据,采用相应的变换算法,生成文档的相位谱;频谱分析器,用于对生成的文档相位谱进行特征分析,给出判定结果。

附图说明

从下面结合附图的详细描述中,将会更清楚的理解本发明的目标、实现方法、优点和特性,其中。

图1是一个展示本发明的基于频谱分析的复合文档恶意代码检测系统的架构图。

图2是一个展示本发明的检测系统管理端内部组成单元的方框图。

图3是一个说明本发明的检测系统数据提取器从复合文档提取数据的示意图。

图4是一个说明本发明的检测系统相位谱生成器生成相位谱过程的示意图。

图5是一个展示本发明的检测系统频谱分析器内部组成单元的方框图。

图6是一个说明本发明的检测系统完整工作流程的流程图。

具体实施方式

本发明中判定准则制定过程中用于绑定样本的恶意代码有很多类型,利用绑定工具可以把这些代码绑定到正常的复合文档中,这些恶意代码主要有以下一些类型。

1)下载器代码。

2)键盘记录代码。

3)修改注册表项代码。

4)密码发送代码。

5)上传资料代码。

6)弹出窗口代码。

下面结合附图对本发明做进一步的说明。本发明旨在提供一种针对复合文档恶意代码进行检测的系统,高效准确的检测Office系列文档、PDF文档等常用格式的复合文档中包含的恶意代码,保护系统数据和用户数据的安全。

图1是一个描述本发明系统组成的架构图。

如图1所示,检测系统的核心是管理端,和其他模块进行数据交互,其他模块根据管理端的配置信息进行相应的操作,管理端同时维护着一个特征数据库,里面存放了各种格式的复合文档的相位谱特征信息和判定准则,针对不同类型的恶意代码有不同的判定准则。通过管理端还可以进行各种配置信息的管理和修改,其中有取样频率、变换算法等。复合文档从数据转换器进入检测系统,经过一系列变换和判断,由管理端输出结果。

图2是一个描述管理端内部组成单元的示意图。

如图2中所示,管理端由逻辑控制单元、数据库管理单元、策略配置单元和用户界面单元组成。逻辑控制单元负责控制整个系统的运行逻辑,通过对系统其它部分的调用来实现检测功能。数据库管理单元负责管理维护数据库,数据库中主要存储判定标准和检测结果,检测结果的内容主要有文件类型、MD5值以及对该文档的判定结果,每次对待检测文件进行检测之前都要先进行MD5的计算与匹配,匹配成功则直接给出原有的检测结果,避免重复检测。策略配置单元则负责管理系统检测过程中的各种策略信息,逻辑控制单元会根据这些配置策略控制系统的各组件进行相应操作。用户界面单元是系统与用户交互的平台,通过该单元,用户可以查看检测结果和更改系统配置信息。

图3是一个展示数据提取器从复合文档中提取数据的示意图。

如图3中所示,数据读取器将复合文档的二进制数据读入内存,首先根据固定字节判断文档类型,然后根据该文档的存储类型,剥离固定部分的数据,减小后续计算的数据量,提高系统的效率。之后对二进制数据进行进制转换,使其成为实数序列,最后数据读取器将根据管理端配置的抽样率对实数序列进行抽样,将抽样结果交给相位谱生成器进行运算。图3中是以4比特位为一个单位进行二进制到实数序列的转换,也可以采用其他的位数组合,如6位、8位等。同时在对转换后的实数序列进行抽样时,也有不同的抽样率可供选择:全部抽样、隔一位抽样、隔两位抽样等。采用多少位的比特组合进行转换以及采用多少的抽样率进行抽样,要根据复合文档的不同特点和绑定的恶意代码种类的不同而决定。

图4是展示相位谱生成器生成相位谱过程的示意图。

如图4中所示,实数序列输入相位谱生成器后,相位谱生成器将输入的实数序列作为一函数的因变量,将序列在文档中的顺序信息作为时间自变量,构造时域上的函数,然后对该函数进行FFT变换(除FFT变换外还有小波变换等其他变换),最后绘制相位谱,该相位谱就是经过提取变换后的复合文档的相位谱。

图5是一个描述频谱分析器内部组成单元的示意图。

如图5中所示,相位谱生成后传给频谱分析器进行频谱分析。本发明能够实现对绑定了恶意代码的复合文档进行检测的依据是正常文档与感染了恶意代码的复合文档在相位谱的均匀度、相位值、频谱宽度等方面存在差异。特征提取单元会从相位谱中提取出频谱特征,然后判定单元根据数据库中的判定准则,对复合文档是否挂载了恶意代码进行判断。本发明的检测系统中最为重要的部分是判定准则的制定,这个环节涉及到大量样本的生成、测试、相位谱计算以及对照组的相位谱分析。因为每种复合文档的二进制数据的组合形式并不一样,因此他们的相位谱特征差别也很大,进而需要对每种复合文档单独设定判定准则。

所述复合文档恶意代码检测系统中用于判定准则制定的相位谱特征主要包括以下的一种或者多种。

1)相位的分布在整个频率范围内是否均匀,一般绑定的恶意代码的复合文档的相位谱在上下边缘都会出现一些脉冲从而导致相位分布不均匀。

2)相位谱上下边缘脉冲的相位值,例如绑定了恶意代码的PDF文档的相位谱的上边缘会出现一个相位大于0°的尖脉冲,而对应正常文档的上边缘是比较平整的,相位分布基本都在-30°以下。

3)整个相位分布的范围,例如包含恶意代码的Word文档的相位分布大概是对应正常文档的两倍左右。

判定准则主要是通过比较各种文档类型的正常文档与样本文档相位谱的一般性差异得到的,要分析出这种一般性的差异,就需要大量的对照组,首先要构造大量的各种类型的正常文档,然后使用对应文档的绑定工具将各种类型的恶意代码绑定到正常文档中,这样每个正常文档与对应的绑定了恶意代码的样本文档就构成了一组对照组,这里每个样本文档都需要进行验证,对每组文档的相位谱差异进行分析,然后统计出一般性差异制定出判定准则。在判定准则的制定过程中,针对没一组对照组,又会变换不同的比特位数、取样频率、算法,然后进行纵向的比较,找出使得对照组特征差异最明显的比特位数、取样频率和算法的组合。

图6是一个展示了检测系统完整工作流程的流程图。

如图6中所示,复合文档输入后,首先会计算复合文档的MD5值,以此判断该文档是否已经被检测过,防止对同一文档的重复检测。如果没有检测过,则数据提取器开始进行数据提取工作,将二进制数据转换成实数序列,按照抽样率对实数序列进行抽样,然后交由相位谱生成器生成文档的相位谱图。频谱分析器得到生成的相位谱图后首先进行特征提取,然后根据提取的特征信息分析相位谱的频谱特性,最后根据数据库中存储的相应类型的复合文档的判定准则做出最终判定,将结果返回给管理端。

如上所述,本发明通过生成并提取复合文档的频谱特征来检测绑定的恶意代码,其优点在于:1、检测对象针对性很强,每种文档的判定准则通过独立的样本分析来制定,这样系统的检测准确率比传统的检测技术的检测准确率要高很多;2、该系统的检测技术在检测过程中不需要解析文档,这样可以有效地保护系统数据和用户数据的安全;3、判定准则的制定是基于二进制数据的相位谱差异,是通过大量的数据对比与统计得来的,因此可以有效地检测到一些针对某些保护机制的绕过代码,降低漏报率。4、本发明的检测方法有别于传统的静态检测和动态检测,通过分析频谱,能够检测出未知的恶意代码。

尽管出于说明的目的描述了本发明的优选实施例子,本领域人员将理解,在不脱离如附属权利要求所披露的本发明的范围和精神的情况下,各种修改、增加和替换都是可能的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号