公开/公告号CN102332071A
专利类型发明专利
公开/公告日2012-01-25
原文格式PDF
申请/专利权人 奇智软件(北京)有限公司;
申请/专利号CN201110301138.1
申请日2011-09-30
分类号
代理机构北京市德权律师事务所;
代理人刘丽君
地址 100016 北京市朝阳区酒仙桥路14号兆维大厦4层东侧单元
入库时间 2023-12-18 04:30:08
法律状态公告日
法律状态信息
法律状态
2014-07-30
授权
授权
2012-03-14
实质审查的生效 IPC(主分类):G06F21/00 申请日:20110930
实质审查的生效
2012-01-25
公开
公开
技术领域
本发明涉及计算机技术领域,特别是涉及发现疑似恶意信息、追踪恶意文件的方法及装置。
背景技术
为了更好地保障用户在浏览网页、下载文件等过程中避免将带有病毒的文件或者木马文件等恶意文件带到本地,一些浏览器具备以下功能:当用户使用这种浏览器浏览访问网页时,浏览器会将被访问网页URL的HASH值发送给服务器的恶意网址库,查询该页面是否是挂马页面、恶意网址、钓鱼网站等,然后根据查询结果向用户发出危险告警或者拦截;同时,还可以对下载的文件进行分析,如果是恶意也会标示出来,或者向用户发出警告。
但是,杀毒技术基本上都是基于病毒库来防护和查杀的,也就是俗称的黑名单,并且黑名单中的记录基本上需要通过人工的方式发现并进行添加,使得从产生一个新的病毒或木马,到全面地有效拦截存在延迟,因此,也就很难第一时间对付新的木马或病毒。
因此,迫切需要本领域技术人员解决的技术问题就在于,如何更加快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟。
发明内容
本发明提供了发现疑似恶意信息、追踪恶意文件的方法及装置,能够更加快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟。
本发明提供了如下方案:
一种发现疑似恶意信息的方法,包括:
统计文件下载链接、文件下载链接网站域名、文件下载链接所在的父页面以及父页面的网站域名之间的对应关系;
获取各个文件下载链接对应的文件的特征信息;
根据所述对应关系以及所述特征信息进行分析,判断是否存在特定的异常情况,如果是,且未被标识为恶意信息,则发出用以表示存在疑似恶意信息的报警消息;其中,所述疑似恶意信息包括疑似新的恶意文件,和/或疑似新的恶意文件的下载链接,和/或疑似新的恶意文件下载链接的父页面。
其中,所述根据所述对应关系以及所述特征信息进行分析,判断是否存在特定的异常情况包括:
如果同一文件下载链接网站域名下存在多个不同的文件下载链接,并且不同的文件下载链接对应的是同一个文件,则存在异常情况。
其中,通过以下方式判断不同的文件下载链接对应的文件是否为同一个文件:
如果不同的文件下载链接对应的文件具有相同的文件名、MD5值,并且文件大小相等,则不同的文件下载链接对应的是同一个文件;
或者,
如果不同的文件下载链接对应的文件具有不同的文件名及MD5值,但文件大小相等,则取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件;
或者,
如果不同的文件下载链接对应的文件具有不同的文件名、MD5值及文件大小,则取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件。
一种追踪恶意文件的方法,包括:
根据按照权利要求1至3任一项所述的发现疑似恶意信息的方法发出的疑似恶意信息的报警消息,对恶意文件进行归类,形成恶意文件家族;
分析出恶意文件家族中的各文件对应的文件下载链接以及文件下载链接的网站域名包含的第一特征信息;
分析出恶意文件家族中的各文件对应的文件下载链接父页面以及父页面的网站域名包含的第二特征信息;
根据所述第一特征信息以及第二特征信息,分析出恶意文件家族中的恶意文件在传播方式上的发展变化趋势信息;
根据所述在传播方式上的发展变化趋势信息对恶意家族中的恶意文件进行追踪。
其中,所述第一特征信息包括所述文件下载链接的网站域名的持有人以及指向的IP地址;所述第二特征信息包括所述文件下载链接的父页面的网站域名的持有人、指向的IP地址以及是否为所述父页面自身传播,或借助所述父页面传播。
其中,所述分析出恶意文件家族中的恶意文件在传播方式上的的发展变化趋势信息包括:
分析出恶意文件家族中的恶意文件是否固定在特定域名持有人的站点进行传播;
所述根据所述在传播方式上的发展变化趋势信息对恶意家族中的恶意文件进行追踪包括:
在域名持有人为所述特定持有人的站点,对所述恶意文件家族中的恶意文件进行追踪。
一种发现疑似恶意信息的装置,包括:
统计单元,用于统计文件下载链接、文件下载链接网站域名、文件下载链接所在的父页面以及父页面的网站域名之间的对应关系;
特征信息获取单元,用于获取各个文件下载链接对应的文件的特征信息;
判断单元,用于根据所述对应关系以及所述特征信息进行分析,判断是否存在特定的异常情况,如果是,且未被标识为恶意信息,则发出用以表示存在疑似恶意信息的报警消息;其中,所述疑似恶意信息包括疑似新的恶意文件,和/或疑似新的恶意文件的下载链接,和/或疑似新的恶意文件下载链接的父页面。
其中,所述判断单元具体用于:如果同一文件下载链接网站域名下存在多个不同的文件下载链接,并且不同的文件下载链接对应的是同一个文件,则存在异常情况。
其中,所述判断单元通过以下方式判断不同的文件下载链接对应的文件是否为同一个文件:
如果不同的文件下载链接对应的文件具有相同的文件名、MD5值,并且文件大小相等,则不同的文件下载链接对应的是同一个文件;
或者,
如果不同的文件下载链接对应的文件具有不同的文件名及MD5值,但文件大小相等,则取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件;
或者,
如果不同的文件下载链接对应的文件具有不同的文件名、MD5值及文件大小,则取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件。
一种追踪恶意文件的装置,包括:
归类单元,用于根据权利要求8至10任一项所述的发现疑似恶意信息的装置发出的疑似恶意信息的报警消息,对恶意文件进行归类,形成恶意文件家族;
第一特征分析单元,用于分析出恶意文件家族中的各文件对应的文件下载链接以及文件下载链接的网站域名包含的第一特征信息;
第二特征分析单元,用于分析出恶意文件家族中的各文件对应的文件下载链接父页面以及父页面的网站域名包含的第二特征信息;
变化趋势获取单元,用于根据所述第一特征信息以及第二特征信息,分析出恶意文件家族中的各恶意文件的发展变化趋势信息;
追踪单元,用于根据所述发展变化趋势信息对恶意家族中的恶意文件进行追踪。
其中,所述第一特征信息包括所述文件下载链接的网站域名的持有人以及指向的IP地址;所述第二特征信息包括所述文件下载链接的父页面的网站域名的持有人、指向的IP地址以及是否为所述父页面自身传播,或借助所述父页面传播。
其中,
所述变化趋势获取单元具体用于:分析出恶意文件家族中的恶意文件是否固定在特定域名持有人的站点进行传播;
所述追踪单元具体用于:在域名持有人为所述特定持有人的站点,对所述恶意文件家族中的恶意文件进行追踪。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
通过本发明,可以通过对文件下载链接、文件下载链接网站域名、文件下载链接所在的父页面以及父页面的网站域名之间的对应关系,以及各个文件下载链接对应的文件的特征信息,能够判断出是否存在异常情况,如果存在,可以提出报警。需要说明的是,该报警信息通常是向安全体系的运营维护人员发出的。也就是说,通过这种方式,可以引起运营维护人员对这些文件或者下载链接的注意,进而就可以通过人工分析等方式,来进一步确定对应的文件是否为新的恶意文件,下载链接是否为某恶意文件的新的下载链接,等等,如果是,就可以将新的恶意文件。新的恶意文件下载链接等加入到安全体系的数据库中,以此来实现对数据库的更新。这样,能够更加快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是带有木马下载链接的网页示意图;
图2是本发明实施例提供的发现疑似恶意信息的方法的流程图;
图3是本发明实施例提供的追踪恶意文件的方法的流程图;
图4是本发明实施例提供的发现疑似恶意信息的装置的示意图;
图5是本发明实施例提供的追踪恶意文件的装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
首先需要说明的是,本发明人在实现本发明的过程中发现:病毒、木马等恶意程序在传播时,通常具有以下特点:首先,必须依赖一个文件下载链接,为便于描述及区分,可以将其称为DownloadUrl,与该文件加载链接对应的网站域名称为DownloadHost;并且该文件下载链接会依赖一个下载页面,可以将该页面称为ParentPageUrl,对应的网页域名为ParentPageHost。例如,在图1所示的页面中,其中文本显示为“播放”的链接就是一个木马的文件下载链接,如果用户点击该链接,就会下载到一个木马文件,此时,该链接的Url就是前文所述的文件下载链接DownloadUrl,该链接的网站域名就是DownloadHost,相应的,由于该链接是在网址为http://aaa.info/vip.htm?www.zbfda.gov.cn(也即图1地址栏中的网址)的网页中出现的,因此,父页面的Url就是http://aaa.info/vip.htm?www.zbfda.gov.cn,该父页面的网站域名就是aaa.info。
恶意文件在传播的过程中,为了防止被杀毒软件等安全体系发现,通常会存在多种变形,例如,在不同的页面中投放多个不同的文件下载链接,在传播一段时间之后,再改用其他的文件下载链接或者转移到其他的站点中投放等等。因此,当发现一个恶意文件并且发现了该恶意文件的下载链接之后,如果仅仅将该链接进行拦截,并不能阻止恶意文件通过其他的链接或站点进行传播。因此,如何对恶意文件进行追踪,以防止恶意文件通过一些变形来逃脱安全体系的监控,是需要解决的问题。
在以上分析的基础上,本发明实施例首先提供了一种发现疑似恶意信息的方法,参见图2,该方法包括以下步骤:
S201:统计文件下载链接、文件下载链接网站域名、文件下载链接所在的父页面以及父页面的网站域名之间的对应关系;
可以在全网范围内,对所有的文件下载链接进行监控,获取各个文件下载链接的Url、该链接本身的网站域名,文件下载链接所在的父页面的Url以及父页面的网站域名,这四者之间的对应关系,以便后续所用。
S202:获取各个文件下载链接对应的文件的特征信息;
每个文件下载链接都会对应着一个文件或者文件包,可以获取到这些文件的特征信息。这种特征信息可以包括文件的文件特征(包括文件名、MD5值、文件大小等),还可以包括文件的行为特征(包括程序运行之后会执行何种操作,例如是不是修改浏览器首页等等)。具体的获取文件特征或者行为特征的方法可以参见已有技术,这里不再赘述。
S203:根据所述对应关系以及所述特征信息进行分析,判断是否存在特定的异常情况,如果是,且未被标识为恶意信息,则发出用以表示存在疑似恶意信息的报警消息;其中,所述疑似恶意信息包括疑似新的恶意文件,和/或疑似新的恶意文件的下载链接,和/或疑似新的恶意文件下载链接的父页面。
由于在正常情况下,一个文件在同一个网站域名下通常只有一个网站链接,因此,如果发现一些异常情况,安全体系却没有报警,就可能是还没有被收录到安全体系的数据库中的恶意文件,或者可能是已知恶意文件的尚未被收录到安全体系数据库中的下载链接。例如,同一文件下载链接网站域名下存在多个不同的文件下载链接,但不同的文件下载链接对应的却是同一个文件,此时,这些文件就可能是恶意文件,不同的链接仅仅是用于伪装的,因此,就应该提出报警。
其中,在判断同一文件下载链接网站域名下存在的多个不同的文件下载链接对应的文件,是不是同一个文件时,可以如下进行:如果各个文件的文件名、MD5值以及文件大小都一样,则证明这些文件是同一文件。也就是说,如果在同一个网站域名下发现多个文件下载链接,并且这些文件下载链接对应的文件,不管是文件名,还是MD5值,以及文件大小都完全一样,则证明这些文件都是同一个文件,这种情况其实是不正常的,通常只有恶意文件为了伪装自己或者避免被安全体系查出而采用的一种手段。因此,就对应的文件就有可能是恶意文件,各个链接也有可能是恶意文件的下载链接。此时,就应该提出报警,例如,用以标识对应的文件为疑似恶意文件,或者文件下载链接为疑似恶意的链接,等等。
当然,在实际应用中,为了更好地避免被安全体系查出,恶意文件可能会采用改变文件名以及MD5值的方式来进行伪装,因此,如果在同一个网站域名下发现多个文件下载链接,并且这些文件下载链接对应的文件的文件名和MD5值不同,此时,可以进一步判断各个文件的大小是否相同,如果相同,则可以证明这些文件是同一文件的可能性很大,当然,为了进一步进行验证,还可以取各个文件中相同位置处的数据进行比较,如果相同,则可以进一步证明这些文件是同一文件。因此,也可以给出报警信息,用以表示对应的文件和/或文件下载链接为疑似恶意。
或者,恶意文件的制作者还可能对各个文件下载链接对应的文件略作改动,使得各个文件除了文件名以及MD5值不同之后,文件大小也不同。此时,为了判断这些同一网站域名中的不同下载链接对应的文件是不是同一个文件,就可以取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件。同样的,也可以给出报警信息,用以表示对应的文件和/或文件下载链接为疑似恶意。
当然,在实际应用中,还可以采用其他的方式进行判断,例如,通过比对各个文件的行为特征(例如在运行之后是否都是将浏览器首页修改为某特定页面,等等),来判断各个下载链接对应的文件是否为同一文件,进而判断对应的文件或者文件下载链接是否为恶意信息。此外,除了判断同一文件下载链接网站域名下的多个不同的文件下载链接对应的文件是否为同一文件以外,还可以通过其他的特征来确定是否存在异常,这里不再一一列举。
总之,在本发明实施例中,通过对文件下载链接、文件下载链接网站域名、文件下载链接所在的父页面以及父页面的网站域名之间的对应关系,以及各个文件下载链接对应的文件的特征信息,能够判断出是否存在异常情况,如果存在,可以提出报警。需要说明的是,该报警信息通常是向安全体系的运营维护人员发出的。也就是说,通过这种方式,可以引起运营维护人员对这些文件或者下载链接的注意,进而就可以通过人工分析等方式,来进一步确定对应的文件是否为新的恶意文件,下载链接是否为某恶意文件的新的下载链接,等等,如果是,就可以将新的恶意文件。新的恶意文件下载链接等加入到安全体系的数据库中,以此来实现对数据库的更新。这样,能够更加快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟时间。
进一步地,为了更好地实现对木马、病毒等恶意文件的追踪,本发明实施例还提供了一种追踪恶意文件的方法,参见图3,该方法包括以下步骤:
S301:根据按照前文所述的发现疑似恶意信息的方法发出的疑似恶意信息的报警消息,对恶意文件进行归类,形成恶意文件家族;
在本发明实施例中,为了更好地对恶意文件进行追踪,首先对恶意文件进行分类,形成多个不同的“恶意文件家族”,以便通过对同一恶意文件家族中的恶意文件进行分析,来或者恶意文件在传播方式上的发展变化趋势信息,以此作为追踪的依据,或者对恶意文件未来的传播方式进行预测,以便发现新的恶意文件,或者恶意文件下载链接。
因此,当接收到报警消息之后,就可以对对应的文件以及下载链接进行进一步地分析,获知对应的文件是否为恶意文件,如果是,可以根据文件的具体的特征,将对应的文件归类到某已知的恶意文件家族,或者形成新的恶意文件家族,等等。
S302:分析出恶意文件家族中的各文件对应的文件下载链接以及文件下载链接的网站域名包含的第一特征信息;
例如,第一特征信息可以包括文件下载链接的网站域名的持有人以及指向的IP地址,等等。
S303:分析出恶意文件家族中的各文件对应的文件下载链接父页面以及父页面的网站域名包含的第二特征信息;
第二特征信息包括文件下载链接的父页面的网站域名的持有人、指向的IP地址,还可以包括是否是该父页面自身进行传播,还是其他的传播源借助父页面的广告位等进行恶意文件的传播,等等。
S304:根据所述第一特征信息以及第二特征信息,分析出恶意文件家族中的恶意文件在传播方式上的发展变化趋势信息;
S305:根据所述在传播方式上的发展变化趋势信息对恶意家族中的恶意文件进行追踪。
如前文所述,可以对恶意文件家族中的恶意文件进行分析,以便从中获取恶意文件在传播方式上的发展变化趋势信息,具体的,就可以根据步骤S302及S303中获取到的第一特征信息以及第二特征信息进行分析。例如,分析出恶意文件家族中的恶意文件是否固定在特定域名持有人的站点中进行传播,进而,就可以在域名持有人为所述特定持有人的站点,对所述恶意文件家族中的恶意文件进行追踪。也就是说,如果发现传播某恶意文件的网站都对应同一域名持有人,则可以认为该域名持有人的其他站点也可能会传播该恶意文件,因此,就可以对该域名持有人的所有站点都进行监控,以便从中发现恶意文件的可能的其他下载链接。或者,还可能是发现传播某恶意文件的网站都对应同一IP地址,因此,也可以对该IP地址对应的所有站点都进行监控,其中也可能会包含恶意文件的其他下载链接。
总之,在本发明实施例提供的追踪恶意文件的方法中,通过对恶意文件进行分类,形成恶意文件家族,并通过对恶意文件家族中的恶意文件的分析,或者恶意文件在传播方式上的发展变化趋势,以此,实现对恶意程序的追踪,因此,可以更快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟。
与本发明实施例提供的发现疑似恶意信息的方法相对应,本发明实施例还提供了一种发现疑似恶意信息的装置,参见图4,该装置包括:
统计单元401,用于统计文件下载链接、文件下载链接网站域名、文件下载链接所在的父页面以及父页面的网站域名之间的对应关系;
特征信息获取单元402,用于获取各个文件下载链接对应的文件的特征信息;
判断单元403,用于根据所述对应关系以及所述特征信息进行分析,判断是否存在特定的异常情况,如果是,且未被标识为恶意信息,则发出用以表示存在疑似恶意信息的报警消息;其中,所述疑似恶意信息包括疑似新的恶意文件,和/或疑似新的恶意文件的下载链接,和/或疑似新的恶意文件下载链接的父页面。
其中,判断单元403具体可以用于:如果同一文件下载链接网站域名下存在多个不同的文件下载链接,并且不同的文件下载链接对应的是同一个文件,则存在异常情况。
具体实现时,判断单元403具体可以通过以下方式判断不同的文件下载链接对应的文件是否为同一个文件:
如果不同的文件下载链接对应的文件具有相同的文件名、MD5值,并且文件大小相等,则不同的文件下载链接对应的是同一个文件;
或者,
如果不同的文件下载链接对应的文件具有不同的文件名及MD5值,但文件大小相等,则取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件;
或者,
如果不同的文件下载链接对应的文件具有不同的文件名、MD5值及文件大小,则取各个文件中相同位置处的数据进行比较,如果相同,则不同的文件下载链接对应的是同一个文件。
总之,在本发明实施例提供的追踪恶意文件的装置中,通过对恶意文件进行分类,形成恶意文件家族,并通过对恶意文件家族中的恶意文件的分析,或者恶意文件在传播方式上的发展变化趋势,以此,实现对恶意程序的追踪,因此,可以更快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟。
与本发明实施例提供的追踪恶意文件的方法相对应,本发明实施例还提供了一种追踪恶意文件的装置,参见图5,该装置包括:
归类单元501,用于根据权利要求8至10任一项所述的发现疑似恶意信息的装置发出的疑似恶意信息的报警消息,对恶意文件进行归类,形成恶意文件家族;
第一特征分析单元502,用于分析出恶意文件家族中的各文件对应的文件下载链接以及文件下载链接的网站域名包含的第一特征信息;
第二特征分析单元503,用于分析出恶意文件家族中的各文件对应的文件下载链接父页面以及父页面的网站域名包含的第二特征信息;
变化趋势获取单元504,用于根据所述第一特征信息以及第二特征信息,分析出恶意文件家族中的各恶意文件的发展变化趋势信息;
追踪单元505,用于根据所述发展变化趋势信息对恶意家族中的恶意文件进行追踪。
其中,所述第一特征信息可以包括所述文件下载链接的网站域名的持有人以及指向的IP地址;所述第二特征信息可以包括所述文件下载链接的父页面的网站域名的持有人、指向的IP地址以及是否为所述父页面自身传播,或借助所述父页面传播。
具体实现时,变化趋势获取单元504具体可以用于:分析出恶意文件家族中的恶意文件是否固定在特定域名持有人的站点进行传播;相应的,追踪单元505具体可以用于:在域名持有人为所述特定持有人的站点,对所述恶意文件家族中的恶意文件进行追踪。
总之,在本发明实施例提供的追踪恶意文件的装置中,通过对恶意文件进行分类,形成恶意文件家族,并通过对恶意文件家族中的恶意文件的分析,或者恶意文件在传播方式上的发展变化趋势,以此,实现对恶意程序的追踪,因此,可以更快速地发现恶意文件,缩短病毒或木马等恶意程序从产生到被拦截之间的延迟。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的发现疑似恶意信息、追踪恶意文件的方法及装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
机译: 疑似文件收集设备,恶意软件检测系统和恶意软件检测方法
机译: 根据在已知的恶意环境中识别疑似恶意软件文件和站点
机译: 恶意文件诊断设备,其方法以及基于云计算能够监视和处理恶意文件的恶意文件监视设备