公开/公告号CN107920055A
专利类型发明专利
公开/公告日2018-04-17
原文格式PDF
申请/专利权人 中国银联股份有限公司;
申请/专利号CN201710887457.2
申请日2017-09-27
分类号H04L29/06(20060101);G06K9/62(20060101);
代理机构72001 中国专利代理(香港)有限公司;
代理人臧霁晨;付曼
地址 200135 上海市浦东新区含笑路36号银联大厦
入库时间 2023-06-19 05:06:33
法律状态公告日
法律状态信息
法律状态
2020-08-25
授权
授权
2018-05-11
实质审查的生效 IPC(主分类):H04L29/06 申请日:20170927
实质审查的生效
2018-04-17
公开
公开
技术领域
本发明涉及计算机技术,更具体而言涉及一种IP风险评价方法以及IP风险评价系统。
背景技术
现有技术中,对于IP风险评价,一般主要根据IP的标签进行,如根据IP的归属地判断是否异地交易,根据代理IP标签判断该IP是否为正常用户。
这种判断方法比较简答粗暴,往往使用一个或者几个标签判断IP是否为存在恶意,因此在实际应用中存在着准确率不高的问题。
因此,目前对于IP风险评价还没有比较成熟的方法。
发明内容
鉴于上述问题,本发明旨在提供一种能够准确进行IP地址的风险评估的IP风险评价方法以及IP风险评价系统。
本发明的IP风险评价方法,其特征在于,包括下述步骤:
IP行为数据采集步骤,对IP行为数据进行采集并形成IP数据库;
特征矩阵提取步骤,将所述IP数据库作为训练集,对所述IP行为数据进行特征处理,形成特征矩阵;
决策树生成步骤,基于所述训练集,根据所述训练集和规定条件生成分类与回归决策树;以及
IP地址风险评价步骤,获取需要进行风险评价的IP地址,基于所述分类与回归决策树进行该IP地址的风险评价。
优选地,在所述IP行为数据采集步骤中采集的IP数据包括:IP属性信息、IP关联信息以及IP行为信息。
优选地,在所述特征矩阵提取步骤中,对所述IP数据进行如下特征处理:对于IP属性信息,选取对应的代码作为特征值或者以0、1为特征值;对于IP关联信息,选取历史关联域名个数、或者域名平均时常作为特征值;以及对于IP行为信息,选取IP行为距离规定时间点的时间数作为特征值。
优选地,在所述决策树生成步骤中,构建训练集,从根节点开始递归对每个节点进行规定操作构建二叉决策树。
优选地,在所述决策树生成步骤中包括下述子步骤:
(1)设节点的训练数据集为D,计算现有特征对该数据集的基尼指数,对每一个特征A,将D分割成D1和D2两部分;
(2)在所有可能的特征A以及它们所有可能的切分点α中,选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点,以最优特征与最优切分点从现节点生成两个子节点,将训练数据集依特征分配到两个子节点中去;
(3)对两个子节点递归地调用上述(1),(2),直至满足停止条件;
(4)生成分类与回归决策树T0。
优选地,在所述决策树生成步骤中包括中在上述(4)之后还包括下述子步骤:
(5)对所述分类与回归决策树T0执行剪枝算法得到最优决策树Tα。
本发明的IP风险评价系统,其特征在于,具备:
IP行为数据采集模块,用于对IP行为数据进行采集并形成IP数据库;
特征矩阵提取模块,用于将所述IP数据库作为训练集,对所述IP行为数据进行特征处理,形成特征矩阵;
决策树生成模块,用于基于所述训练集,根据所述训练集和规定条件生成分类与回归决策树;以及
IP地址风险评价模块,用于获取需要进行风险评价的IP地址,基于所述分类与回归决策树进行该IP地址的风险评价。
优选地,所述IP行为数据采集模块采集的IP数据包括:IP属性信息、IP关联信息以及IP行为信息。
优选地,在所述特征矩阵提取模块中,对于IP属性信息,选取对应的代码作为特征值或者以0、1为特征值;对于IP关联信息,选取历史关联域名个数、或者域名平均时常作为特征值;以及对于IP行为信息,选取IP行为距离规定时间点的时间数作为特征值。
优选地,所述决策树生成模块构建训练集并且从根节点开始递归对每个节点进行规定操作构建二叉决策树。
本发明的计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述的IP风险评价方法。
本发明的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述的IP风险评价方法。
根据本发明的IP风险评价方法以及IP风险评价系统,与目前IP风险评价方法相比,能够获得以下技术效果:
(1)从全局视角获取IP地址信息,同时还带有各种属性,例如时间属性,由此能够全面的反映IP状态,使得评价结果更加准确;
(2)随着训练数据的更新,决策树能够随之持续更新;
(3)对决策树能进一步优化获得最优决策树,由此,能够更加准确地进行IP风险评价;
(4)使用决策树进行IP风险评价,能够易于理解和实现。
附图说明
图1是表示本发明的IP风险评价方法的步骤流程图。
图2是表示本发明的一实施方式的IP风险评价系统。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
图1是表示本发明的一实施方式的IP风险评价方法的步骤流程图。
如图1所示本发明的一实施方式的IP风险评价方法包括下述步骤:
IP行为数据采集步骤S100:对IP行为数据进行采集并形成IP数据库;
特征矩阵提取步骤S200:将所述IP数据库作为训练集,对所述IP行为数据进行特征处理,形成特征矩阵;
决策树生成步骤S300:基于所述训练集,根据所述训练集和规定条件生成分类与回归决策树;以及
IP地址风险评价步骤S400:获取需要进行风险评价的IP地址,基于所述分类与回归决策树进行该IP地址的风险评价。
接着,对于上述步骤S100~S400进行具体说明。
在IP行为数据采集步骤S100中,对IP数据进行采集并形成IP数据库。目前对IP行为数据进行采集的手段包括:
从防火墙、IPS、WAF等安全防护设备采集,企业互联网出口一般都部署有安全防护设备,这些设备能够采集访问IP的信息;
通过蜜罐采集,在互联网上部署蜜罐服务器,采集访问的IP信息;
从互联网采集公开信息,如whois信息、ASN信息等;以及
通过IP情报获取,通过购买、交换等手段从IP情报公司获取IP情报。
采集的IP行为数据包括例如以下信息,但不限定于下述信息:
IP属性信息:国家、省、市、IDC、动态IP、移动网关、经纬度、ASN等等。
IP关联信息:IP关联域名、IP关联文件及它们对应的时间段。
IP行为信息:IP的行为,包括代理、扫描、爬虫、cc攻击、ddos攻击、垃圾邮件等及它们对应的时间。
在所述特征矩阵提取步骤S200中,将所述IP数据库作为训练集,对所述IP行为数据进行特征处理,形成特征矩阵。
例如,对于IP属性信息,国家、省、市信息选取对应的代码作为特征值,IDC、动态IP、移动网关等以0,1作为特征值。
例如,对于IP关联信息,选取历史关联域名个数、域名平均时常作为特征值。
例如,对于IP行为信息,对于每个标签,没有则为0,有则以 1/标识时间距今天月数的平方为特征值。
取得已知IP数据库作为训练集,训练集的可信程度和大小会影响训练结果。按照上述方法对训练集进行处理,形成特征矩阵。例如,可以使用机器的学习算法进行训练。这里,我们把生成的训练数据集作为训练数据集D。
接着,在决策树生成步骤S300中,基于所述训练集,根据所述训练集和规定条件生成分类与回归决策树。
在决策树生成过程中,作为输入,输入训练数据集D、以及停止计算的条件,作为输出,输出分类与回归决策树。采用的算法,如下所述:
构建训练数据集,从根节点开始,递归地对每个节点进行以下操作,构建二叉决策树:
(1)设节点的训练数据集为D,计算现有特征对该数据集的基尼指数。此时,对每一个特征A,对其可能取的每个值α,根据样本点对A=α的测试为“是”或“否”将D分割成D1和D2两部分,计算A=α时的基尼指数;
(2)在所有可能的特征A以及它们所有可能的切分点α中,选择基尼指数最小的特征及其对应的切分点作为最优特征和最优切分点。依最优特征与最优切分点,从现节点生成两个子节点,将训练数据集依特征分配到两个子节点中去;
(3)对两个子节点递归地调用(1),(2),直至满足停止条件;以及
(4)生成分类与回归决策树T0。
作为算法停止计算的条件,例如可以是节点中的样本个数小于预定阀值,或者,样本集的基尼指数小于预定阀值(样本基本属于同一类),或者没有更多特征。
为了使得生成的分类与回归决策树能够更加准确地用于IP地址的风险评价,优选地,能够对上述生成的分类与回归决策进行进一步地剪枝。
接着,对于分类与回归决策树的剪枝算法进行说明。
在分类与回归决策树的剪枝算法中,作为输入,输入分类与回归算法生成的决策树T0,作为输出,输出最优决策树Tα。采用的剪枝算法如下所述:
(1)设k=0,T=T0;
(2)设α=+∞;
(3)自下向上地对各内部节点t计算C(Tt),|Tt|以及
g(t)=C(t)−C(Tt)|Tt|−1g(t)=C(t)−C(Tt)|Tt|−1
α=min(α,g(t))α=min(α,g(t)),
这里,Tt表示t为根节点的子树,C(t)是以t为单节点树时对训练数据的预测误差(如基尼指数),C(Tt)是以t为根节点的子树对训练数据的预测误差(如基尼指数),|Tt|是Tt的叶节点个数;
(4)自上而下地访问内部节点t,如果有g(t)=α,进行剪枝,并对叶节点t以多数表决法决定其类,得到树T;
(5)设k=k+1,αk=α,Tk=T;
(6)如果T不是由根节点单独构成的树,则回到步骤(4);
(7)采用交叉验证法在子树序列T0,T1,...,TnT0,T1,...,Tn中选取最优子树,输出最优决策树Tα。
最后,在IP地址风险评价步骤S400中,获取需要进行风险评价的IP地址,基于生成的最优决策树Tα进行该IP地址的风险评价。
以上,对于本发明的IP风险评价方法进行了说明。接着,对于本发明的IP风险评价系统进行说明。
图2是表示本发明的一实施方式的IP风险评价系统。
如图2所示,本发明的一实施方式的IP风险评价系统具备:
IP行为数据采集模块100,用于对IP行为数据进行采集并形成IP数据库;
特征矩阵提取模块200,用于将所述IP数据库作为训练集,对所述IP行为数据进行特征处理,形成特征矩阵;
决策树生成模块300,用于基于所述训练集,根据所述训练集和规定条件生成分类与回归决策树;以及
IP地址风险评价模块400,用于获取需要进行风险评价的IP地址,基于所述分类与回归决策树进行该IP地址的风险评价。
其中,IP行为数据采集模块100采集的IP数据包括但不限于:IP属性信息、IP关联信息以及IP行为信息。
在特征矩阵提取模块200中,对于IP属性信息,选取对应的代码作为特征值或者以0、1为特征值;对于IP关联信息,选取历史关联域名个数、或者域名平均时常作为特征值;以及对于IP行为信息,选取IP行为距离规定时间点的时间数作为特征值。
决策树生成模块300构建训练集并且从根节点开始递归对每个节点进行规定操作构建二叉决策树。构建二叉决策树的计算过程在上述说明中已经描述,这里省略重复说明。
再者,进一步,为了使得生成的分类与回归决策树能够更加准确地用于IP地址的风险评价,优选地,决策树生成模块300能够对上述生成的分类与回归决策进行进一步地剪枝生成最优决策树Tα。同样第,生成最优决策树Tα的计算过程在上述说明中已经描述,这里也省略重复说明。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现上述本发明的IP风险评价方法。
本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述本发明的IP风险评价方法。
根据本发明的IP风险评价方法以及IP风险评价系统,与目前IP风险评价方法相比,能够获得以下技术效果:
(1)从全局视角获取IP地址信息,同时还带有各种属性,例如时间属性,由此能够全面的反映IP状态,使得评价结果更加准确;
(2)随着训练数据的更新,决策树能够随之持续更新;
(3)对决策树能进一步优化获得最优决策树,由此,能够更加准确地进行IP风险评价;
(4)使用决策树进行IP风险评价,能够易于理解和实现。
以上例子主要说明了本发明的IP风险评价方法以及IP风险评价系统。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
机译: 体外检测人源多能干细胞源性心肌细胞(hiPSC-CM)候选药物促心律失常风险的方法
机译: 体外检测人源性多潜能干细胞衍生的心肌细胞(HIPSC-CM)药物候选毒品候选药物的原发性遗传风险
机译: BNIP2使用BNIP2基因中的SNP预测肾移植患者排斥反应风险的方法