首页> 中国专利> 基于网页图标匹配的品牌仿冒网站检测方法

基于网页图标匹配的品牌仿冒网站检测方法

摘要

本发明涉及一种基于网页图标匹配的品牌仿冒网站检测方法,其步骤为:1)收集品牌仿冒次数大于设定阀值的网站品牌,获取其网页图标并建立品牌图标图像集BrandSet;2)根据多个待检测网站的网页URL提取得到该网站的网页图标并建立待检测图像集DetectSet;3)对BrandSet和DetectSet中的图像进行匹配,判断两个集合中是否存在匹配图像;4)根据匹配图像找到与其匹配网页URL,并判断匹配网页URL是否有品牌图标使用权;5)将步骤4)中没有品牌网页图标使用权的网页URL判定为品牌仿冒网站,完成检测。本发明方法充分利用了一种之前研究中未涉及的元素—网页图标。易于实现,且识别率高,易于推广。

著录项

  • 公开/公告号CN103281320A

    专利类型发明专利

  • 公开/公告日2013-09-04

    原文格式PDF

  • 申请/专利权人 中国科学院计算机网络信息中心;

    申请/专利号CN201310195688.9

  • 发明设计人 耿光刚;王伟;

    申请日2013-05-23

  • 分类号H04L29/06(20060101);

  • 代理机构北京君尚知识产权代理事务所(普通合伙);

  • 代理人余长江

  • 地址 100190 北京市海淀区中关村南四街4号

  • 入库时间 2024-02-19 20:16:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-12-07

    授权

    授权

  • 2013-10-09

    实质审查的生效 IPC(主分类):H04L29/06 申请日:20130523

    实质审查的生效

  • 2013-09-04

    公开

    公开

说明书

技术领域

本发明涉及一种品牌仿冒网站的检测方法,特别涉及一种基于网页图标进行匹配的品牌 仿冒网站检测方法,属于计算机网络领域。

背景技术

品牌仿冒,是指通过伪装成与目标网站非常相似的网站,引诱用户访问,并获取用户在 此网站上输入的个人敏感信息的网络犯罪行为。由于电子商务和互联网应用的普及和发展, 品牌仿冒攻击造成的损失日益严重。国内最大的安全厂商360安全2011年7月份发布的《中 国网络安全报告》显示品牌仿冒欺诈成为网络安全的最大威胁。另据国际反钓鱼联盟发布的 报告,近年来网络钓鱼攻击(典型的品牌仿冒行为)的数量大幅上升,寻找有效的品牌仿冒 检测方法变得尤为紧迫。

目前,在检测品牌仿冒网站的技术领域中主要包括三大类的技术手段:

1.黑名单技术;

2.基于URL特征的检测技术和;

3.基于多特征的统计检测技术。

黑名单技术是通过用户举报或评价来维护一个不断更新的品牌仿冒网站名单列表,从而 阻止更多的用户不要访问已发现的品牌仿冒网站。基于URL特征品牌仿冒检测,是通过分析 URL的元素构成,多辅以注册、解析信息进行品牌仿冒与否的判断,该方法往往用于初步检 测,最终的判定一般也要基于内容。基于多特征的统计品牌仿冒网站检测是通过提取一系列 的特征对品牌仿冒欺诈进行统计检测。

以上三种常用的检测技术:黑名单技术的滞后性是其最大缺陷;基于URL的方法,最大 的缺陷是URL可以花很小的代价去修改,从而避开检测,另外目前的基于URL方法对未来潜 在大量使用的IDN域名品牌仿冒无能为力;基于多特征的统计检测方法需要大量的品牌仿冒 样本收集,同时该类方法往往包含内容相关特征,从而导致检测模型无法跨语言有效,另一 方面,该类方法往往依赖第三方资源(搜索引擎等),使得方法的推广受到限制。

通过对PhishTank大量举报样本进行分析(具体可参考 http://www.phishtank.com/developer_info.php),我们发现绝大多数的品牌仿冒网站使用虚假的网页 图标迷惑广大网民,而现有研究中尚未有针对该点展开的检测研究。

发明内容

基于以上情况,本发明提出基于网页图标识别的品牌仿冒网站检测方法,该方法对现有 的方法形成有效补充。具备跨语言的特性,易于实施。

本发明将充分利用绝大多数品牌仿冒欺诈网站都使用虚假的网页图标迷惑广大网民的 特点,进行基于网页图标识别的品牌仿冒欺诈检测。本发明涉及网页图标图像的匹配,并对 匹配成功的疑似品牌仿冒网站进行图标使用权过滤,最终判定该网站是否品牌仿冒。

本发明提供一种基于网页图标识别的品牌仿冒网站检测方法,该方法具有跨语 言、识别率高和易于推广使用等特点。

随着互联网的不断发展和普及,网页图标(Favicon)(具体可参考 http://en.wikipedia.org/wiki/Favicon)已经成为企业品牌标识的一部分。品牌仿冒犯罪分 子意识到了这一点,通过对PhishTank品牌仿冒数据的统计分析,发现绝大多数品牌仿 冒欺诈网站使用虚假的网页图标迷惑网络用户。

本发明将待检测URL(http://www.sample.com/path)的网页图标与经常被品牌仿 冒的网页图标进行对比识别,进一步通过图标使用权进行过滤,判定网站品牌仿冒与 否。

本发明基于网页图标匹配的品牌仿冒网站检测方法的技术方案如下,其步骤为:

1)收集品牌仿冒次数大于设定阀值的网站品牌,获取其网页图标并建立一品牌图标图像 集BrandSet;

2)根据多个待检测网站的网页URL提取得到该网站的网页图标并建立待检测图像集 DetectSet;

3)对所述BrandSet和DetectSet中的图像进行匹配,判断所述两个集合中是否存在匹 配图像;

4)根据所述匹配图像找到与其匹配网页URL,并判断所述匹配网页URL是否有品牌图标 使用权;

5)将所述步骤4)中没有品牌网页图标使用权的网页URL判定为品牌仿冒网站,完成检 测;

6)根据设定周期循环遍历步骤1)-3)检测出品牌仿冒网站。

建立品牌网页图标图像集BrandSet的方法如下:

1)根据所述品牌的网站主页源代码获取网页图标文件的超链接;

2)在所述超链接内抓取.ico类型网页图标文件,并从该图标文件中提取一或多幅 二进制BMP格式的图像文件得到BrandSet;

3)将BrandSet存储于数据库或者以文件格式保存。

所述BrandSet和DetectSet中的图像匹配对象包括:图像颜色、图像纹理。

判断所述匹配网页URL是否有品牌图标使用权的方法为:

1)提取所述匹配网页URL与BrandSet中的域名URL,检测其解析服务器NS是否使用 了相同的名字服务器;

2)若相同,检测两个域名的解析IP地址如果其解析IP地址拥有相同的前缀,则同样 认为该URL为正常网页,若不同,否则认为该URL品牌仿冒。

所述IP地址前缀,取前16位。

根据PhishTank收集品牌仿冒次数大于设定阀值的网站品牌。

所述BrandSet中的每个图像对应一或多个所述品牌网站的网页URL。

基于全局和局部像素灰度值的匹配算法对所述BrandSet和DetectSet中的图像进行 匹配。

所述DetectSet中的每个图像对应一或多个所待检测网站的网页URL。

本发明的有益效果

与现有的方法相比,本发明一种基于网页图标识别的品牌仿冒网站检测方法充分 利用了一种之前研究中未涉及的元素—网页图标。该方法具有跨语言的特点,不受限 于任何语言品牌仿冒,易于实现,且识别率高,易于推广。本发明首先通过对网页图 标识别匹配进行品牌仿冒过滤,并且通过URL是否具有品牌图标的使用权,最终判定 URL是否有品牌仿冒行为。

附图说明

图1为本发明网页图标匹配的品牌仿冒网站检测方法一实施例中被品牌仿冒品牌网 页图标图像集构建及检测流程示意图。

具体实施方式

下面结合附图和具体实施例进一步说明本发明实施例的技术方案,该发明不限定 于具体实施例中的方法。

首先是准备工作,该阶段收集经常被品牌仿冒品牌的网页图标,收集的方法是首 先通过品牌的网站主页源码获取图标文件的超链接,本发明的表一也给出了图标链接的 存在形式。通过链接然后抓取改图标文件。并从图标文件中提取图像(图标文件一般后 缀为.ico,通常该文件内包含多个图像),形成品牌图像集BrandSet,该图像集可以文 件格式存放,也可存储于数据库,本发明不做限制。

检测阶段,步骤一是对于给定的待判定网页,通过该网页的URL获取网页代码,并 提取网页图标,并从图标文件中提取图像形成待检测图像集DetectSet。

步骤二,将DetectSet中的图像与BrandSet中的图像进行匹配,匹配方法可以使 用颜色、纹理等图像特征,不限于任何现有的图像匹配方法。如果有其中一对图像匹 配成功,则进入步骤三,若一直未匹配成功,则判断不存在品牌仿冒行为。

步骤三,判定该URL是否有使用该品牌图标的权力,如果没有权力使用,则认定为 品牌仿冒。该发明不限定判断URL是否具有该图标使用权的方法,比如,可以基于URL 域名和品牌域名的名字解析服务器、解析IP地址等。

图1为本发明网页图标匹配的品牌仿冒网站检测方法一实施例中被品牌仿冒品牌网 页图标图像集构建及检测流程示意图。

步骤101、首先收集被品牌仿冒品牌的网页图标,所述的品牌网页图标,可以包括 任意的品牌,比如淘宝、腾讯、Paypal等。为了收集图标,需要理解网页图标与网页 的关联方式,在本实施例中可按照如下表所示进行关联,当然本领域技术人员可以理解 关联方法并不限于以下提供的:

表1.网页图标与网页的关联方式

获得页面图标ICO文件后,考虑到ICO类型文件内通常包含多幅二进制文件即BMP格式的 图像文件,提取出其中所有图像,获得品牌图标图像集BrandSet,ICO是图标文件格式,每 一个ICO文件中存放一到多幅图像。

步骤201、对于给定的待判定网页,通过该网页的URL获取网页源代码,并提取网页图标, 并从图标文件中提取图像,形成DetectSet。

步骤202、将DetectSet中的图像与BrandSet中的图像进行匹配。对两幅图像的匹配不限 定具体的匹配算法(具体可参考Bahram Javidi(ed),Image Recognition and  Classification.Algorithms,Systems,and Applications,CRC Press,2002.),可以通过颜色也可以通 过纹理,本实施例给出基于全局和局部像素灰度值的匹配算法,如算法1所示:

通过算法1,如果存在某一个品牌(其网址:http://www.brand.com)的图标图像与URL 对应的图标图像匹配成功,则进入步骤203,否则判定该URL为正常网页。

步骤203、判定该URL是否具有使用品牌图标的权力。本实施例中,提取URL的域名部分, 即http://www./path的斜体加深部分。对比brand.com和sample.com的解析服务 器(Name Servers),查看两个域名是否使用了相同的名字服务器,如果是则URL为正常网页, 否则进一步比较这两个域名的解析IP地址,如果其解析IP地址拥有相同的前缀,则同样认为 该URL为正常网页,否则认为该URL品牌仿冒。步骤203中的IP地址前缀,以IPv4地址(长度 为32位)为例,其前16位,这样取是基于大企业往往拥有相同前缀的IP地址段。

综上所述,本发明品牌仿冒网站检测方法通过识别被品牌仿冒犯罪分子利用的页 面图标进行品牌仿冒欺诈检测,具有跨语言的特点,即不受限于任何语言品牌仿冒, 方法易于实现,且识别率高,易于推广。

虽然本发明以实施例揭示如上,但其并非用以限定本发明,任何本领域技术人 员,在不脱离本发明的精神和范围内,可作任意改动或等同替换,故本发明的保护范 围应当以本申请权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号