首页> 中国专利> 一种基于特征提取的有效下载链接识别方法与系统

一种基于特征提取的有效下载链接识别方法与系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于特征提取的有效下载链接识别方法与系统，该方法包括以下步骤：步骤1：从云服务器获取链接训练数据，并从训练数据中提取链接数据特征向量；步骤2：在云服务器中，基于链接数据特征向量和链接标签训练机器学习判别器；步骤3：将待识别的链接按照步骤1的方式提取链接数据特征向量，输入步骤2得到的机器学习判别器中，输出链接标签，完成对链接的识别。相对于现有技术而言，该方案提供了主动识别机制以克服纯黑名单比对产生的漏判；针对性地提出了个性化特征以弥补识别目标的差异；客户端以插件和弹窗结果反馈形式实现从而增强交互性和用户体验；(4)依托云计算架构大大减少用户电脑的负担并节约管理成本。

著录项

公开/公告号CN108111584A

专利类型发明专利
公开/公告日2018-06-01

原文格式PDF
申请/专利权人中南大学;
展开▼

申请/专利号CN201711344106.3
发明设计人申卓祥;覃涛明;段桂华;李智;
展开▼

申请日2017-12-15
分类号
代理机构长沙市融智专利事务所;
代理人龚燕妮
地址 410083 湖南省长沙市岳麓区麓山南路932号
入库时间 2023-06-19 05:31:18

法律信息

法律状态公告日

法律状态信息

法律状态
2020-02-21

授权

授权
2018-06-26

实质审查的生效 IPC(主分类):H04L29/08 申请日:20171215

实质审查的生效
2018-06-01

公开

公开

说明书

技术领域

本发明属于信息安全领域，特别涉及一种基于特征提取的有效下载链接识别方法与系统。

背景技术

互联网为人们的生产生活带来了巨大的便利，但与此同时，互联网的发展也带来了不少问题。一些病毒软件及恶意代码借由互联网这一“捷径”疯狂传播，严重威胁人们的信息和财产安全。有时下载某个文件时，尤其是去一些小的下载网站下载时，发现打开的下载链接并不是想要的文件，而是带有商业性质的推销广告，还有些则是低俗、不堪入目、严重影响未成年人身心健康的黄色网站，更有甚者，有些链接还会后台下载流氓软件或是网页木马，不仅威胁人们的个人隐私，拖慢电脑运行速度，而且那些淫秽站点对人们的精神损失也不可估量。因此设计一种有效下载链接识别方案帮助用户在不打开链接的情况下预判链接的有效性很有必要。

当今类似方向上的软件系统主要存在三个方面的问题：

一是现今仍有很多软件系统只依赖黑名单，寄希望通过用户的举报扩充黑名单的数据，然后通过比对黑名单告知用户所点链接的风险。这种方法缺点在于，没有哪一个黑名单能够保证涵盖所有风险链接，它完全依赖其他用户的举报，如果其他用户举报不及时或是没发现则很容易出现漏判。

二是部分采用了特征提取和机器学习的软件系统其着眼点往往是钓鱼网站，对下载链接的识别缺乏针对性，因为下载链接又有自己的一些特点，有一些个性化特征，还是有不少差异，盲目地将这些系统用来识别下载链接会产生大量的误判和漏判。

三是这种功能往往是一个大软件系统中的小功能，用户必须要安装整个软件系统，占用系统资源大，用户体验不好。

发明内容

本发明针对现有技术中存在的下载链接识别不准确的问题，提出了一种基于特征提取的有效下载链接识别方法与系统。

一种基于特征提取的有效下载链接识别方法，包括以下步骤：

步骤1：从云服务器获取链接训练数据，并从训练数据中提取链接数据特征向量；

步骤2：在云服务器中，基于链接数据特征向量和链接标签训练机器学习判别器；

步骤3：将待识别的链接按照步骤1的方式提取链接数据特征向量，输入步骤2得到的机器学习判别器中，输出链接标签，完成对链接的识别。

进一步地，利用可信因子对链接识别结果进行评估：

p＝z·u

其中，p表示可信概率z表示利用机器学习判别器获得判别结果，u表示链接可信因子。

进一步地，利用数据库记录链接黑名单和被举报次数，按照以下公式设置链接识别结果设置可信因子u：

其中，n表示该链接的举报次数。

举报次数越多，u的值越小；

进一步地，所述机器学习判别器的训练过程如下：

步骤2.1：利用训练数据中的链接数据特征向量和对应的链接标签构建线性回归模型；

h_θ(x)＝θ^Tx

其中，θ表示参数向量，x表示链接数据特征向量，h_θ(x)表示判别结果；

步骤2.2：以误差函数J(θ)取到最小值为目标，对步骤3.1的线性回归模型进行训练；

其中，x⁽ⁱ⁾和y⁽ⁱ⁾为一组训练数据中的链接特征向量和链接标签，链接标签为真实链接，取值为1，否则为0，m训练数据的数量；

步骤2.3：利用梯度法求解误差函数，得到最优θ_*及对应的机器学习判别器z＝θ^*^Tx。

进一步地，所述链接数据特征向量至少包括以下几个：

1)URL是否含有“@”，若含有，则特征值为1，反之为0；

2)URL是否超过5个“.”，若超过，则特征值为1，反之为0；

3)URL是否为IP地址，若为IP地址，则特征值为1，反之为0；

4)URL资源类型是否为网页型，若为网页型，则特征值为1，反之为0；

5)URL资源大小是否超过2M，若超过，则特征值为1，反之为0。

进一步地，当实时判别的链接数据量达到训练数据的5％时，将实时判别的链接数据作为新的训练数据，用于对机器学习判别器进行再次训练。

进一步地，将待识别的链接onclick属性指向一个Ctrl按键是否按住判断函数，利用Ctrl按键是否按住判断函数检查当前是否按住Ctrl键，若按住则不跳转到链接所指向的地址，并且将链接信息传给云服务器进行识别；否则跳转进超链接。

一种基于特征提取的有效下载链接识别系统，包括：

云服务器，用于存储样本训练数据、黑名单链接数据以及黑名单链接举报因子；

客户端，用于接收用户点击的链接信息，并生成链接信息的待识别链接数据特征向量，传输至评估系统；

评估系统，将从客户端接收的待识别链接数据特征向量输入机器学习判别器，进行识别，并将识别结果返回客户端；

其中，机器学习判别器是利用云服务器中存储的训练样本训练数据在云服务器中进行机器学习判别器的训练得到。

进一步地，从云服务器的数据库调取与待识别链接匹配的链接举报因子，结合链接举报因子和机器学习判别器输出的识别结果，输出待识别链接的综合评估结果。

进一步地，还包括用户反馈单元，将实时获得的链接评估结果反馈至云服务器。

识别结果通过客户端反馈给用户，所述客户端为浏览器插件。

有益效果

本发明提供了一种基于特征提取的有效下载链接识别方法与系统，该方法包括以下步骤：步骤1：从云服务器获取链接训练数据，并从训练数据中提取链接数据特征向量；步骤2：在云服务器中，基于链接数据特征向量和链接标签训练机器学习判别器；步骤3：将待识别的链接按照步骤1的方式提取链接数据特征向量，输入步骤2得到的机器学习判别器中，输出链接标签，完成对链接的识别。相对于现有技术而言，该方案具有以下优点：

(1)提供了主动识别机制以克服纯黑名单比对产生的漏判

将黑名单作为记录链接被举报次数的数据库，利用特征提取和机器学习的思想，通过人工提取的数据对判别器进行训练，并用其训练出的模型判断其他可疑链接，结合黑名单的记录数据作为辅助来提高链接识别精度。摆脱了完全依赖黑名单比对的限制，真正做到主动识别，即使可疑链接没有在黑名单中记录，也可以做出风险性评估。

(2)针对性地提出了个性化特征以弥补识别目标的差异

针对下载链接的特点提出了个性化的特征，通过设计个性化的举报因子弥补了传统训练模型没考虑到的情况，同时根据数据库中的数据设计了自学习指数，用来指导判别器的更新训练。

(3)客户端以插件和弹窗结果反馈形式实现从而增强交互性和用户体验

客户端以插件形式实现，依附于浏览器工作，不会产生任何缓存垃圾，占用物理空间和系统资源极少，且操作简便，易于实现。同时，弹窗形式的结果警示比现有的很多直接拦截方式更容易提高用户的安全意识。

(4)依托云计算架构大大减少用户电脑的负担并节约管理成本

采用了云计算的架构，将所有的计算和存储处理放在云服务器端，能够高效地完成计算和存储任务；并且利用云服务器进行计算，能够将计算结果共享给所有的客户端，避免了重复计算，有利于运营商降低成本，节省人力和管理资源。

附图说明

图1为本发明所述方法的整体框架示意图；

图2为本发明所述方法的工作流程示意图。

具体实施方式

下面将结合附图和实施例对本发明做进一步的说明。

如图1和图2所示，一种基于特征提取的有效下载链接识别方法，包括以下步骤：

步骤1：从云服务器获取链接训练数据，并从训练数据中提取链接数据特征向量；

步骤2：在云服务器中，基于链接数据特征向量和链接标签训练机器学习判别器；

所述链接数据特征向量至少包括以下几个：

1)URL是否含有“@”，若含有，则特征值为1，反之为0；

2)URL是否超过5个“.”，若超过，则特征值为1，反之为0；

3)URL是否为IP地址，若为IP地址，则特征值为1，反之为0；

4)URL资源类型是否为网页型，若为网页型，则特征值为1，反之为0；

5)URL资源大小是否超过2M，若超过，则特征值为1，反之为0。

前三个链接数据特征向量通过字符串匹配算法获得，后两个链接数据特征向量通过向URL所指向的服务器发送一个HTTP header请求，分别根据返回数据包的Content-Type项和Content-Length项得到；

在各下载平台爬取一定量的链接作为训练数据，提取训练数据中链接的特征向量，并用于进行机器学习判别器的训练；

所述机器学习判别器的训练过程如下：

步骤2.1：利用训练数据中的链接数据特征向量和对应的链接标签构建线性回归模型；

h_θ(x)＝θ^Tx

其中，θ表示参数向量，x表示链接数据特征向量，h_θ(x)表示判别结果；

x⁽ⁱ⁾是一个向量，y⁽ⁱ⁾为第i个链接的标签：

约定x₀＝1，而x₁到x_n则表示每一种特征的特征值，例如描述一个URL含有“@”、URL没超过5个“.”、URL不是IP地址、资源类型是网页型、资源大小低于2M的链接的话，表达式如下：

y⁽ⁱ⁾是一个标量，其值为0或1，分别表示有效下载链接或无效下载链接。

步骤2.2：以误差函数J(θ)取到最小值为目标，对步骤3.1的线性回归模型进行训练；

其中，x⁽ⁱ⁾和y⁽ⁱ⁾为一组训练数据中的链接特征向量和链接标签，链接标签为真实链接，取值为1，否则为0，m训练数据的数量；

步骤2.3：利用梯度法求解误差函数，得到最优θ^*及对应的机器学习判别器z＝θ^*^Tx。

步骤3：将待识别的链接按照步骤1的方式提取链接数据特征向量，输入步骤2得到的机器学习判别器中，输出链接标签，完成对链接的识别。

链接数据特征向量还可以包括举报因子；

利用可信因子对链接识别结果进行评估：

p＝z·u

其中，p表示可信概率z表示利用机器学习判别器获得判别结果，u表示链接可信因子。

利用数据库记录链接黑名单和被举报次数，按照以下公式设置链接识别结果设置可信因子u：

其中，n表示该链接的举报次数。

举报次数越多，u的值越小；

当实时判别的链接数据量达到训练数据的5％时，将实时判别的链接数据作为新的训练数据，用于对机器学习判别器进行再次训练。

将待识别的链接onclick属性指向一个Ctrl按键是否按住判断函数，利用Ctrl按键是否按住判断函数检查当前是否按住Ctrl键，若按住则不跳转到链接所指向的地址，并且将链接信息传给云服务器进行识别；否则跳转进超链接。

一种基于特征提取的有效下载链接识别系统，包括：

云服务器，用于存储样本训练数据、黑名单链接数据以及黑名单链接举报因子；

客户端，用于接收用户点击的链接信息，并生成链接信息的待识别链接数据特征向量，传输至评估系统；

评估系统，将从客户端接收的待识别链接数据特征向量输入机器学习判别器，进行识别，并将识别结果返回客户端；

其中，机器学习判别器是利用云服务器中存储的训练样本训练数据在云服务器中进行机器学习判别器的训练得到。

从云服务器的数据库调取与待识别链接匹配的链接举报因子，结合链接举报因子和机器学习判别器输出的识别结果，输出待识别链接的综合评估结果。

还包括用户反馈单元，将实时获得的链接评估结果反馈至云服务器。

评估结果通过客户端反馈给用户，所述客户端为浏览器插件，即反馈的评估结果以弹窗形式展示。

客户端表现为一个浏览器插件，它不承担计算和存储的任务，只提供给用户一些功能接口，这样可以减少用户对自己电脑资源的占用。当用户发送判断请求需要使用接口的时候，会发送相应的数据给服务器，根据功能调用服务器相应的模块进行处理，收到服务器的反馈后，客户端整合反馈信息，向用户告知判断结果。用户与插件以弹窗进行交互，简洁、交互性强、用户体验好。

对于云服务器管理员，事先把服务器程序启动，云服务器程序启动后会进行一次模型训练，训练完成后服务器程序处于阻塞监听状态，等待用户的请求。用户首先在浏览器上启动插件，在之后的浏览网页的过程中若发现某个下载链接可疑，则可按住Ctrl键左击这个链接，由于在客户端插件中运用Content Script技术修改了超链接的触发条件，所以这个时候浏览器不会打开这个链接，而是把这个下载链接的信息提交给服务器，云服务器通过本发明所述方法进行计算处理后返回对这个链接风险性评估结果，以弹窗的形式告知用户。用户根据该评估结果自行确定是否进入该链接。

用户可以在使用链接后对链接的有效性进行反馈，改善系统的识别精度，而新的反馈数据积累到一定量时服务器会重新进行一遍自适应学习。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于特征提取的有效下载链接识别方法与系统 [P] . 中国专利： CN108111584B . 2020.02.21
2. 一种基于特征提取的有效下载链接识别方法与系统 [P] . 中国专利： CN108111584A . 2018-06-01
3. DOWNLOADING DIFFERENT VERSIONS OF MEDIA FILES BASED ON A TYPE OF DOWNLOAD LINK [P] . IN2006DN05722A . 2007-06-22

机译：基于一种下载链接的媒体文件的不同版本的下载
4. DOWNLOADING DIFFERENT VERSIONS OF MEDIA FILES BASED ON A TYPE OF DOWNLOAD LINK [P] . 韩国专利： KR20060116247A . 2006-11-14

机译：基于一种下载链接的媒体文件的不同版本的下载
5. DOWNLOADING DIFFERENT VERSIONS OF MEDIA FILES BASED ON A TYPE OF DOWNLOAD LINK [P] . 欧洲知识产权局专利： EP1723556A1 . 2006-11-22

机译：基于一种下载链接的媒体文件的不同版本的下载