首页> 中国专利> 恶意网址数据库的建立方法、恶意网址的识别方法和装置

恶意网址数据库的建立方法、恶意网址的识别方法和装置

摘要

本发明提供了一种恶意网址数据库的建立方法、恶意网址的识别方法和装置,该建立方法包括:S1、构建站点信息关联数据库;S2、构建反链关联数据库;S3、获取已知恶意网址,添加到待检测队列中,重复执行步骤S4,直至所述待检测队列为空,利用所有出现在待检测队列中数据构建恶意网址数据库;S4、查询反链关联数据库,确定当前url的所有反链url,将权值超过预设阈值的反链url添加到待检测队列中;或者,解析当前url的站点属性信息,查询站点信息关联数据库,确定与当前url具有相同站点属性信息的网站域名,将权值超过预设阈值的网站域名添加到待检测队列中。相比现有技术,本发明提高了检测的及时性和准确性,减少漏报。

著录项

  • 公开/公告号CN102663000A

    专利类型发明专利

  • 公开/公告日2012-09-12

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN201210069443.7

  • 发明设计人 梁知音;

    申请日2012-03-15

  • 分类号

  • 代理机构深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人何青瓦

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-12-18 06:28:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-03

    授权

    授权

  • 2013-08-28

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120315

    实质审查的生效

  • 2012-09-12

    公开

    公开

说明书

【技术领域】

本发明涉及计算机安全技术领域,特别涉及一种恶意网址数据库的建立 方法、恶意网址的识别方法和装置。

【背景技术】

随着计算机及网络技术的不断发展,互联网对人们越来越重要,已经深 入到了人们的工作和生活的各个方面。但是随之而来的,针对互联网的恶意 行为也越来越多,各种安全问题极大地困扰了网络用户。目前互联网上用于 欺诈等恶意行为的网站数量众多,这些非法盈利的网站因其盈利渠道的隐蔽 性,威胁着用户安全。然而这些非法的网站生存周期短暂,通常一经发现, 常常会被取缔或被取消,为了保障效果,非法网站经营者通常持有大量的类 似站群用于随时替换,这些站群之间有密切的关联,逐渐细化并形成了一个 巨大的黑色产业链,常被称为“互联网地下产业链”。

现有的恶意网址检测手段有:静态特征检测和模拟浏览器检测。静态检 测是利用预先收集的恶意代码特征,通过检查网页HTML(Hypertext Markup  Language,超文本标记语言)代码中是否包含该些特征码来进行判断,如果 包含,则判断为恶意网址。这种检测方法的识别率通常较低,易被各种脚本 加密和编码方式绕开。模拟浏览器检测是利用预先构建好的浏览器环境,模 拟用户访问网址,如果出现非法的行为特征时,则将其识别为恶意网址。这 种方式的检测效率较低,当遇到恶意网址后,浏览器环境还可能需要重新恢 复,而且较难构建完全真实的浏览器环境,容易导致漏报。对于非法网站经 营者随时替换的网址库,需要逐个执行后才能进行判断,无法提前发现恶意 网址,时效性较差。

【发明内容】

有鉴于此,本发明提供了一种恶意网址数据库的建立方法、恶意网址的 识别方法和装置,以便于提高检测的及时性和准确性,减少漏报。

具体技术方案如下:

一种恶意网址数据库的建立方法,该方法包括以下步骤:

S1、预先将各网站域名与对应的站点属性信息进行关联,构建站点信息 关联数据库;

S2、预先构建反链关联数据库,保存各url之间的链接关系;

S3、获取已知恶意网址的url,添加到待检测队列中,逐个从待检测队列 中取出url并对取出的当前url分别执行步骤S4,直至待检测队列为空,并 利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库;

S4、查询所述反链关联数据库,确定当前url的所有反链url,将与已知 恶意网址的url之间的关联程度满足预设要求的反链url添加到待检测队列 中;或者

解析当前url的站点属性信息,查询所述站点信息关联数据库,确定与 当前url具有相同站点属性信息的网站域名,将与已知恶意网址的url之间的 关联程度满足预设要求的网站域名添加到待检测队列中。

根据本发明一优选实施例,所述站点属性信息包括以下所列的至少一 种:网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息, ICP信息。

根据本发明一优选实施例,在所述步骤S3中还包括:为所述恶意网址 的url赋予初始权值,为存在反链关系的各url之间设定反链因子,针对网站 域名之间共有的站点属性信息的类型设定影响因子,所述反链因子和影响因 子的取值范围为区间(0,1);

反链url与已知恶意网址的url之间关联程度的计算包括:将当前url的 权值乘以反链因子,得到反链url的权值;

网站域名与已知恶意网址的url之间关联程度的计算包括:将当前url 的权值乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子, 得到网站域名的权值;

所述关联程度满足预设要求为:所述反链url或网站域名的权值超过预 设阈值。

根据本发明一优选实施例,所述恶意网址数据库还包括:所有添加到待 检测队列中的url或网站域名对应的站点属性信息和权值。

一种恶意网址的识别方法,该方法包括:

获取待检测url,查询恶意网址数据库中是否包含所述待检测url,如果 是,则确定所述待检测url为恶意网址;

其中所述恶意网址数据库是采用所述恶意网址数据库的建立方法建立 的。

一种恶意网址的识别方法,该方法包括以下步骤:

S201、获取待检测url,解析该url的站点属性信息;

S202、利用解析得到的站点属性信息,在恶意网址数据库中查找与所述 待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用所述 恶意网址数据库的建立的方法建立的;

S203、利用查找到的恶意网址的权值计算待检测url的权值;

S204、判断所述待检测url的权值是否超过预设阈值,如果是,则将所 述待检测url识别为恶意url。

根据本发明一优选实施例,所述步骤S203具体为:

将步骤S202查找到的恶意网址的权值进行合并计算,得到所述待检测 url的权值。

根据本发明一优选实施例,所述合并计算是取最大值,或者取平均值, 或者求和。

一种恶意网址数据库的建立装置,该装置包括:

站点信息关联模块,用于预先将各网站域名与对应的站点属性信息进行 关联,构建站点信息关联数据库;

反链关联模块,用于预先构建反链关联数据库,保存各url之间的链接 关系;

数据库建立模块,用于获取已知恶意网址的url,添加到待检测队列中, 逐个从待检测队列中取出url并将取出的当前url提供给反链检测模块或站点 信息检测模块,直至待检测队列为空,并利用所有添加到待检测队列中的url 或网站域名构建恶意网址数据库;

反链检测模块,用于查询所述反链关联数据库,确定所述数据库建立模 块提供的当前url的所有反链url,将与已知恶意网址的url之间的关联程度 满足预设要求的反链url添加到待检测队列中;

站点信息检测模块,用于解析当前url的站点属性信息,查询所述站点 信息关联数据库,确定与所述数据库建立模块提供的当前url具有相同站点 属性信息的网站域名,将与已知恶意网址的url之间的关联程度满足预设要 求的网站域名添加到待检测队列中。

根据本发明一优选实施例,所述站点属性信息包括以下所列的至少一 种:网站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息, ICP信息。

根据本发明一优选实施例,该装置还包括:

因子设定模块,用于为存在反链关系的各url之间设定反链因子,以及, 针对网站域名之间共有的站点属性信息的类型设定影响因子,所述反链因子 和影响因子的取值范围为区间(0,1);

所述数据库建立模块还用于为所述恶意网址的url赋予初始权值;

所述反链检测模块将当前url的权值分别乘以反链因子,得到各反链url 的权值,由反链url的权值体现反链url与已知恶意网址的url之间关联程度;

所述站点信息检测模块将当前url的权值分别乘以网站域名与当前url 所共有站点属性信息的类型对应的影响因子,得到网站域名的权值,由网站 域名的权值体现网站域名与已知恶意网址的url之间关联程度。

根据本发明一优选实施例,所述恶意网址数据库还包括:所有添加到待 检测队列中的url或网站域名对应的站点属性信息和权值。

一种恶意网址的识别装置,该装置包括:查询判断模块,用于获取待检 测url,查询恶意网址数据库中是否包含所述待检测url,如果是,则确定所 述待检测url为恶意网址;

其中所述恶意网址数据库是采用所述恶意网址数据库的建立装置建立 的。

一种恶意网址的识别装置,该装置包括:

解析模块,用于获取待检测url,解析该url的站点属性信息;

查询模块,用于利用解析得到的站点属性信息,在恶意网址数据库中查 找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是 采用所述恶意网址数据库的建立装置建立的;

合并模块,用于利用查找到的恶意网址的权值计算待检测url的权值;

判断模块,用于判断所述待检测url的权值是否超过预设阈值,如果是, 则将所述待检测url识别为恶意url。

根据本发明一优选实施例,所述合并模块具体配置为:

将所述查询模块中查找到的恶意网址的权值进行合并计算,得到所述待 检测url的权值。

根据本发明一优选实施例,所述合并计算是取最大值,或者取平均值, 或者求和。

由以上技术方案可以看出,本发明提供的恶意网址数据库的建立方法、 恶意网址的识别方法和装置,考虑整个地下产业链之间的关联性,利用互联 网上各网站之间站点属性信息的关联数据和链接关系对已知恶意网址url进 行扩展,基于扩展出的url与恶意网址url的关联程度,构建恶意网址数据库, 基于该恶意网址数据库所实现的识别方法并不基于恶意代码特征,具有较高 的检测准确率,并且无需模拟浏览器环境执行也能对尚未投入使用的网址进 行判断,提高了检测的及时性和准确性,减少漏报。

【附图说明】

图1为本发明实施例一提供的恶意网址数据库的建立方法流程图;

图2为本发明实施例二提供的恶意网址的识别方法流程图;

图3为本发明实施例三提供的恶意网址数据库的建立装置示意图;

图4为本发明实施例四提供的恶意网址的识别装置示意图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。

实施例一、

图1是本实施例提供的恶意网址数据库的建立方法流程图,如图1所示, 该方法包括:

步骤S101、预先将各网站域名与对应的站点属性信息进行关联,构建站 点信息关联数据库。

一个网站通常包括许多网页,每一个网页都有相对应的网址,网址通常 采用url(uniform resource locator,统一资源定位符)来表示,一般为访问协 议+域名的形式。例如,百度网站包括诸多网页,百度首页的url为 “http://www.baidu.com”,域名为“baidu.com”。由于网站域名具有唯一性, 因而可以利用网站域名来表示一个网站。

对于一个域名,利用whois等工具,可以查询到该域名对应网站的注册 信息。通常注册信息包括网站名、申请的域名、网站所有人、网站所有人联 络信息(包括单位名称、单位负责人、所在单位行业、通信地址、邮政编 码、电子邮件、电话号码、传真号码以及认证信息)、域名服务器的主机 名以及IP地址等等。

在地下产业链中,同一个非法网站经营者通常持有多个恶意网站形成 相类似的站群,这些恶意网站通常具有相同的站点属性信息,比如,可能 具有相同的网站所有人或相同的域名服务器等信息。利用这些站点属性信 息之间的关联关系,来发现非法网站经营者的站群。

预先利用互联网上存在的网站的站点属性信息,构建站点信息关联数 据库,用以查询各网站之间的关联关系。

具体地,在构建站点信息关联数据库时,先对互联网上存在的网站通过 whois工具,收集该些网站注册信息,包括网站名,网站所有人,网站所有 人联络信息,公司信息,IP地址信息等。再通过网页爬虫等方法,获取网站 的ICP(Internet Content Provider,网络内容服务商)信息,包括公司信息, 网站备案号码,网站名,网站首页网址等信息,将这些信息与网站域名进行 关联,形成网站域名与站点属性信息之间的关联关系,构建站点信息关联数 据库。

所述站点信息关联数据库可以但不限于采用表格索引的方式进行存储, 包括网站域名与对应的站点属性信息的关联关系,其中站点属性信息包括网 站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息等。

步骤S102、预先构建反链关联数据库,保存各url之间的链接关系。

一个网页中可能包括多个导出链接与其他网页发生关联,相应地,一个 网页也有可能在多个网页中以导入链接的方式发生关联。

反链,即导入链接,是指其他网页中通过一段源头文字或路径将一个url 引入到他们的网页中的链接。凡是在网页中包含该url的导入链接的网址都 为该url的反链url。

利用这些网页对应的url之间的链接关系,构建反链关联数据库。采用 现有的网络爬虫(web crawler)等方法爬取网页内容,保存各url之间的链 接关系,构建得到反链关联数据库,以便后续查找url的反链。

步骤S103、为不同的关联关系设定不同的影响因子。

两个网站发生关联,是指这两个网站具有相同的站点属性信息。不同的 关联关系是指各网站站点两两之间发生关联的站点属性信息类型不同。由于 网站之间发生关联的站点属性信息的类型不同,网站之间的关联程度也不太 相同。例如,采用相同email地址注册的网站基本上可以确定为同一个注册 人,而相同IP地址则表示网站之间共享主机IP。

根据站点属性信息的类型,为不同的关联关系设定不同的影响因子。预 设的各类型影响因子是根据网站域名之间共有的站点属性信息的类型设置 的。例如,为采用相同email地址注册的网站设定email因子,为固定值0.9, 为采用相同IP地址的网站设定IP因子,为固定值0.8,为反链关系的网站设 定反链因子,为固定值0.8。针对网站域名之间共有的站点属性信息的类型 设定影响因子,为存在反链关系的各url之间设置反链因子。

各类型影响因子包括反链因子、email因子、IP因子、注册用户名因子、 注册公司因子、ICP因子等各个站点属性信息类型的影响因子。该些不同类 型的影响因子α可以但不限于依照已有经验数据进行设定,其中0<α<1。

步骤S104、获取已知恶意网址的url,添加到待检测队列中,逐个从待 检测队列中取出url并对取出的当前url分别执行步骤S105。

已知恶意网址可以是通过现有的杀毒软件或者每天更新的恶意网站监 测技术等方式确定的网址。将该些恶意网址作为输入,为已知恶意网址赋予 初始权值,并添加到待检测队列中。此时,待检测队列中包括各恶意网址及 各恶意网址的初始权值。

针对待检测队列中的网址(url)逐个取出进行检测,对取出的当前url 执行步骤S 105。

步骤S105、查询所述反链关联数据库,确定当前url的所有反链url,将 与已知恶意网址的url之间的关联程度满足预设要求的反链url添加到待检测 队列中。

反链url与已知恶意网址的url之间关联程度的计算包括:将当前url的 权值与反链因子相乘,得到各反链url的权值。

在本步骤中,检索到的反链url与当前url是反链关系,因而,采用的影 响因子是反链因子。

对于检测到的恶意网址,采用的权值为恶意网址的初始权值,即为1。 利用恶意网址的初始权值与反链因子得到各反链url的权值。如果设定的反 链因子为0.8,则各反链url的权值为0.8*1=0.8。

所述关联程度满足预设要求为:所述反链url的权值超过预设阈值。将 权值超过预设阈值的反链url添加到待检测队列中。所述预设阈值可以根据 实际经验进行设定,比如,设置预设阈值为0.7,则将权值超过0.7的反链 url及对应权值添加到待检测队列中。

步骤S106、解析当前url的站点属性信息,查询所述站点信息关联数据 库,确定与当前url具有相同站点属性信息的网站域名,将与已知恶意网址 的url之间的关联程度满足预设要求的网站域名添加到待检测队列中。

网站域名与已知恶意网址的url之间关联程度的计算包括:将当前url 的权值乘以网站域名与当前url所共有站点属性信息的类型对应的影响因子, 得到网站域名的权值。

所述关联程度满足预设要求为:所述网站域名的权值超过预设阈值。

具体地,先依据各网站域名与当前url之间共有的站点属性信息的类型 确定对应的影响因子。将当前url的权值与各对应的影响因子相乘,得到各 网站域名的权值,将权值超过预设阈值的网站域名添加到待检测队列中。

提取当前url对应的网站域名,利用whois工具查询,得到当前url对应 的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名,ICP 号等,利用这些站点属性信息在站点信息关联数据库中进行匹配,查询到具 有相同属性的网站域名,并记录该些网站域名与当前url发生关联的站点属 性信息类型,用以确定各影响因子。

各影响因子是指各网站域名与当前url发生关联的站点属性信息类型对 应的影响因子。例如,网站域名A与当前url具有相同的email地址,则该 网站域名A的权值为当前url的权值与email因子的乘积。如果网站域名B 与当前url具有相同的IP地址,则该网站域名B的权值为当前url的权值与 IP因子的乘积。依次类推,计算得到各网站域名的权值。

如果网站域名与当前url发生关联的影响因子为多个,例如,存在相同 email地址和相同的注册用户名时,则确定影响因子时可以选择这两个影响因 子的最大值来作为网站域名与当前url的影响因子。或者,也可以为不同的 站点属性信息分配不同的权重,但总和为1,如果存在多个站点属性信息相 同,则将各个站点属性信息对应的系数进行加权,确定影响因子。

将权值超过预设阈值的网站域名添加到待检测队列中。所述预设阈值与 步骤S105中的相同。

值得一提的是,所述步骤S105和步骤S106的先后顺序可以调换,也可 以仅采用其中的一种方式进行检测。

步骤S107、从待检测队列中取出下一url或网站域名,重复步骤S105 和步骤S106,直至所述待检测队列为空,利用所有出现在待检测队列中的 url或网站域名以及对应的站点属性信息构建恶意网址数据库。

由于网站域名是url的特例,在url库中,网站域名指向的是这个网站的 首页。因而,网站域名可以转化成网站首页url,在恶意网址数据库中统一采 用url进行表示。

由于设置的影响因子0<α<1,在经过不断重复之后,计算得到的url的 权值会越来越小,处于收敛过程中,当所有url的权值均小于预设阈值,即 不再新增待检测队列且待检测队列为空时,收集得到一批关联的可疑网站的 闭包。

利用这些所有出现在待检测队列中的url或网站域名、该些url或网站域 名对应的站点属性信息和权值,保存到数据库中,构建恶意网址数据库,形 成一个地下产业数据数据库。恶意网址数据库中可以但不限于采用表格索引 的方式进行存储,包括收集到的url信息,email地址信息,域名(domain) 信息,ICP信息,IP地址信息等等。

举个例子,如果得到的已知恶意网址有url1,则将该些恶意网址赋予初 始权值,例如为1,添加到待检测队列中。取出一个url,如url1作为当前url 进行分析。

利用url1到反链关联数据库中查找出与该恶意网址url1对应的所有反链 url,例如可能包括url2,url3。利用该恶意网址url1的权值(即初始权值) 与设定的反链因子相乘,作为反链url2和url3的权值,例如设定的反链因子 为0.8,则url2和url3的权值为0.8*1=0.8。将权值超过预设阈值的反链url 添加到待检测队列中,如果预设阈值为0.7,则将url2和url3都添加到待检 测队列中。

从url1提取得到相应的域名,例如为www.xxx123.com,利用whois等 工具查询得到该url1对应的站点属性信息,包括网站名,网站所有人,网站 所有人emai,公司名,IP地址,ICP号等,利用这些站点属性信息在站点信 息关联数据库中进行匹配,查询到具有相同属性的网站域名,例如有相同 email地址的域名1和有相同IP地址的域名2。计算域名1和域名2的权值, 如果设定的email因子为0.9,IP因子为0.8,则域名1的权值为初始权值与 email因子的乘积:0.9*1=0.9,域名2的权值为初始权值与IP因子的乘积: 0.8*1=0.8。由于域名1和域名2的权值也超过预设阈值0.7,则也将域名1 和域名2添加到待检测队列中。

取出下一个url或网站域名,假设取出url2,进行重复检测。

利用url2到反链关联数据库中查找出与url2对应的所有反链url,例如 可能包括url4,url5。利用该url2的权值与设定的反链因子0.8相乘,作为反 链url4和url5的权值,则url4和url5的权值为0.8*0.8=0.64。由于url4和url5 的权值均小于预设阈值0.7,则都不添加到待检测队列中。

从url2提取得到相应的域名,利用whois等工具查询得到该url2对应的 站点属性信息,利用这些站点属性信息在站点信息关联数据库中进行匹配, 查询到具有相同属性的网站域名,例如有相同email地址的域名3和有相同 注册公司的域名4。计算得到域名3的权值为0.8*0.9=0.72,如果设定的注册 公司因子为0.8,则域名4的权值为0.8*0.8=0.64。由于域名3超过预设阈值 0.7,则也将域名3添加到待检测队列中,而域名4小于预设阈值0.7,则不 添加。

依此类推,重复步骤S105和S106,直到待检测队列为空,得到关于url1、 url2、url3、域名1、域名2和域名3等的信息及对应的权值,构建恶意网址 数据库。

利用构建好的恶意网址数据库,可以对未知是否恶意的url进行检测。 一种方式,可以直接获取待检测url,查询恶意网址数据库中是否包含该待检 测url,如果是,则确定所述待检测url为恶意网址。而对于无法在恶意网址 数据库中直接查找到的url,可以利用包含相关信息的记录,进行识别。下面 通过实施例二对本发明提供的恶意网址的识别方法进行说明。

实施例二、

图2是本实施例提供的恶意网址的识别方法流程图,如图2所示,该方 法包括:

步骤S201、获取待检测url,解析该待检测url的站点属性信息。

对于待检测url,提取对应的域名,利用whois等工具查询得到该待检测 url的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名, IP地址,ICP号等信息。

步骤S202、利用解析得到的站点属性信息,在恶意网址数据库中查找与 所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据库是采用 如实施例一所述的方法建立的。

在实施例一构建好的恶意网址数据库中,利用待检测url的站点属性信 息,提取包含该些站点属性信息的恶意url,得到一批与该待检测url相关联 的恶意url。

步骤S203、利用查找到的恶意网址的权值计算待检测url的权值。

将步骤S202查找到的恶意网址的权值进行合并计算,得到所述待检测 url的权值。所述合并计算可以是取最大值,或者取平均值,或者求和等方式。 优选地,将查找到的恶意url对应的权值中选取最大值作为所述待检测url的 权值。

对于重复出现多次的恶意url,在进行合并计算时还可以进行调权处理, 增加一个预设的调权因子。当一个url经过来自不同的数据源都被判断为可 疑url时,表示该url为恶意网址的嫌疑度越高。

步骤S204、判断所述待检测url的权值是否超过预设阈值,如果是,则 将所述待检测url识别为恶意url。

所述预设阈值可以与实施例一中步骤S105和步骤S106中的相同,也可 以另设一个固定值。

因而,对于未知url,可以利用建立好的恶意网址数据库进行判断是否为 恶意网址。

以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的恶 意网址数据库的建立装置和恶意网址的识别装置进行详细描述。

实施例三

图3是本实施例提供的恶意网址数据库的建立装置示意图。如图3所示, 该装置包括:

站点信息关联模块301,用于预先将各网站域名与对应的站点属性信息 进行关联,构建站点信息关联数据库。

站点信息关联模块301预先利用互联网上存在的网站的站点属性信息, 构建站点信息关联数据库,用以查询各网站之间的关联关系。

具体地,在构建站点信息关联数据库时,先对互联网上存在的网站通过 whois工具,收集该些网站注册信息,包括网站名,网站所有人,网站所有 人联络信息,公司信息,IP地址信息等。再通过网页爬虫等方法,获取网站 的ICP(Internet Content Provider,网络内容服务商)信息,包括公司信息, 网站备案号码,网站名,网站首页网址等信息,将这些信息与网站域名进行 关联,形成网站域名与站点属性信息之间的关联关系,构建站点信息关联数 据库。

所述站点信息关联数据库可以但不限于采用表格索引的方式进行存储, 包括网站域名与对应的站点属性信息的关联关系,其中站点属性信息包括网 站名,网站所有人,网站所有人联络信息,公司信息,IP地址信息等。

反链关联模块302,用于预先构建反链关联数据库,保存各url之间的链 接关系。

一个网页中可能包括多个导出链接与其他网页发生关联,相应地,一个 网页也有可能在多个网页中以导入链接的方式发生关联。

反链,即导入链接,是指其他网页中通过一段源头文字或路径将一个url 引入到他们的网页中的链接。凡是在网页中包含该url的导入链接的网址都 为该url的反链url。

反链关联模块302利用这些网页对应的url之间的链接关系,构建反链 关联数据库。采用现有的网络爬虫(web crawler)等方法爬取网页内容,保 存各url之间的链接关系,构建得到反链关联数据库,以便后续查找url的反 链。

因子设定模块303,用于为存在反链关系的各url之间设定反链因子,以 及,针对网站域名之间共有的站点属性信息的类型设定影响因子。

所述反链因子和影响因子的取值范围为区间(0,1)。

因子设定模块303根据站点属性信息的类型,为不同的关联关系设定不 同的影响因子。预设的各类型影响因子是根据网站域名之间共有的站点属性 信息的类型设置的。例如,为采用相同email地址注册的网站设定email因子, 为固定值0.9,为采用相同IP地址的网站设定IP因子,为固定值0.8,为反 链关系的网站设定反链因子,为固定值0.8。依据网站域名之间共有的站点 属性信息的类型设定对应的影响因子,为存在反链关系的各url之间设置反 链因子。

各类型影响因子包括反链因子、email因子、IP因子、注册用户名因子、 注册公司因子、ICP因子等各个站点属性信息类型的影响因子。该些不同类 型的影响因子α可以但不限于依照已有经验数据进行设定,其中0<α<1。

数据库建立模块304,用于获取已知恶意网址的url,添加到待检测队列 中,逐个从待检测队列中取出url并将取出的当前url提供给反链检测模块305 或站点信息检测模块306,直至待检测队列为空,并利用所有添加到待检测 队列中的url或网站域名构建恶意网址数据库。

已知恶意网址可以是通过现有的杀毒软件或者每天更新的恶意网站监 测技术等方式确定的网址。将该些恶意网址作为输入,为已知恶意网址赋予 初始权值,并添加到待检测队列中。此时,待检测队列中包括各恶意网址及 各恶意网址的初始权值。

针对待检测队列中的网址(url)逐个取出,利用反链检测模块305或站 点信息检测模块306进行检测。

反链检测模块305,用于查询所述反链关联数据库,确定数据库建立模 块304提供的当前url的所有反链url,将与已知恶意网址的url之间的关联 程度满足预设要求的反链url添加到待检测队列中。

反链检测模块305将当前url的权值与反链因子相乘,得到各反链url 的权值,由反链url的权值体现反链url与已知恶意网址的url之间关联程度。 将权值超过预设阈值的反链url添加到待检测队列中。

对于检测到的恶意网址,采用的权值为恶意网址的初始权值,即为1。 利用恶意网址的初始权值与反链因子得到各反链url的权值。如果设定的反 链因子为0.8,则各反链url的权值为0.8*1=0.8。

反链检测模块305将权值超过预设阈值的反链url添加到待检测队列中。 所述预设阈值可以根据实际经验进行设定,比如,设置预设阈值为0.7,则 将权值超过0.7的反链url及对应权值添加到待检测队列中。

站点信息检测模块306,用于解析当前url的站点属性信息,查询所述站 点信息关联数据库,确定与数据库建立模块304提供的当前url具有相同站 点属性信息的网站域名,将与已知恶意网址的url之间的关联程度满足预设 要求的网站域名添加到待检测队列中。

站点信息检测模块306先依据各网站域名与当前url之间共有的站点属 性信息的类型确定对应的影响因子。将当前url的权值分别乘以网站域名与 当前url所共有站点属性信息的类型对应的影响因子,得到网站域名的权值, 由网站域名的权值体现网站域名与已知恶意网址的url之间关联程度。将权 值超过预设阈值的网站域名添加到待检测队列中。

提取当前url对应的网站域名,利用whois工具查询,得到当前url对应 的站点属性信息,包括网站名,网站所有人,网站所有人email,公司名,ICP 号等,利用这些站点属性信息在站点信息关联数据库中进行匹配,查询到具 有相同属性的网站域名,并记录该些网站域名与当前url发生关联的站点属 性信息类型,用以确定各影响因子。

各影响因子是指各网站域名与当前url发生关联的站点属性信息类型对 应的影响因子。例如,网站域名A与当前url具有相同的email地址,则该 网站域名A的权值为当前url的权值与email因子的乘积。如果网站域名B 与当前url具有相同的IP地址,则该网站域名B的权值为当前url的权值与 IP因子的乘积。依次类推,计算得到各网站域名的权值。

如果网站域名与当前url发生关联的影响因子为多个,例如,存在相同 email地址和相同的注册用户名时,则确定影响因子时可以选择这两个影响因 子的最大值来作为网站域名与当前url的影响因子。或者,也可以为不同的 站点属性信息分配不同的权重,但总和为1,如果存在多个站点属性信息相 同,则将各个站点属性信息对应的系数进行加权,确定影响因子。将权值超 过预设阈值的网站域名添加到待检测队列中。

而后,数据库建立模块304逐个从待检测队列中取出url并对取出的当 前url触发反链检测模块305或站点信息检测模块306,直至待检测队列为空, 并利用所有添加到待检测队列中的url或网站域名构建恶意网址数据库。

由于网站域名是url的特例,在url库中,网站域名指向的是这个网站的 首页。因而,网站域名可以转化成网站首页url,在恶意网址数据库中统一采 用url进行表示。

由于设置的影响因子0<α<1,在经过不断重复之后,计算得到的url的 权值会越来越小,处于收敛过程中,当所有url的权值均小于预设阈值,即 不再新增待检测队列且待检测队列为空时,收集得到一批关联的可疑网站的 闭包。

利用这些所有出现在待检测队列中的url或网站域名、该些url或网站域 名对应的站点属性信息和权值,保存到数据库中,构建恶意网址数据库,形 成一个地下产业数据数据库。恶意网址数据库中可以但不限于采用表格索引 的方式进行存储,包括收集到的url信息,email地址信息,域名(domain) 信息,ICP信息,IP地址信息等等。

利用构建好的恶意网址数据库,可以对未知是否恶意的url进行检测。 一种识别装置可以包括:查询判断模块,直接获取待检测url,查询恶意网址 数据库中是否包含该待检测url,如果是,则确定所述待检测url为恶意网址。 而对于无法在恶意网址数据库中直接查找到的url,可以利用包含相关信息的 记录,进行识别。下面通过实施例四对本发明提供的恶意网址的识别装置进 行说明。

图4是本实施例提供的恶意网址的识别装置示意图。如图4所示,该装 置包括:

解析模块401,用于获取待检测url,解析该url的站点属性信息。

对于待检测url,解析模块401提取对应的域名,利用whois等工具查询 得到该待检测url的站点属性信息,包括网站名,网站所有人,网站所有人 email,公司名,IP地址,ICP号等信息。

查询模块402,用于利用解析得到的站点属性信息,在恶意网址数据库 中查找与所述待检测url具有相同属性信息的恶意网址,所述恶意网址数据 库是采用实施例三所述的装置建立的。

查询模块402利用待检测url的站点属性信息,提取包含该些站点属性 信息的恶意url,查询得到一批与该待检测url相关联的恶意url。

合并模块403,用于利用查询模块402查找到的恶意网址的权值计算待 检测url的权值。

将查询模块402查找到的恶意网址的权值进行合并计算,得到所述待检 测url的权值。所述合并计算可以是取最大值,或者取平均值,或者求和等 方式。优选地,将查找到的恶意url对应的权值中选取最大值作为所述待检 测url的权值。

对于重复出现多次的恶意url,在进行合并计算时还可以进行调权处理, 增加一个预设的调权因子。当一个url经过来自不同的数据源都被判断为可 疑url时,表示该url为恶意网址的嫌疑度越高。

判断模块404,用于判断所述待检测url的权值是否超过预设阈值,如果 是,则将所述待检测url识别为恶意url。

对于未知url,可以利用建立好的恶意网址数据库进行判断是否为恶意网 址。

本发明提供的恶意网址数据库的建立方法、恶意网址的识别方法和装 置,考虑整个地下产业链之间的关联性,利用互联网上各网站之间站点属性 信息的关联数据,构建恶意网址数据库,无需执行也能对未知网址进行判断, 提高了检测的及时性和准确性,减少漏报。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号