公开/公告号CN105704259A
专利类型发明专利
公开/公告日2016-06-22
原文格式PDF
申请/专利权人 中国互联网络信息中心;
申请/专利号CN201610041461.2
申请日2016-01-21
分类号H04L29/12(20060101);
代理机构北京君尚知识产权代理事务所(普通合伙);
代理人司立彬
地址 100190 北京市海淀区中关村南四街四号1号楼
入库时间 2023-12-18 15:37:03
法律状态公告日
法律状态信息
法律状态
2019-06-21
授权
授权
2016-07-20
实质审查的生效 IPC(主分类):H04L29/12 申请日:20160121
实质审查的生效
2016-06-22
公开
公开
技术领域
本发明涉及一种域名权威服务来源IP识别方法和系统,属于计算机网络技术领 域。
背景技术
域名权威服务作为DNS服务的关键环节,负责对外提供域名与IP地址之间映射RR 记录,是绝大互联网业务正常运行的基础。域名权威的高效运转是保证域名服务乃至互联 网基础业务稳定运行的一个关键因素。
域名权威服务来源IP可能有多种类型。例如来自运营商递归服务器、互联网开放 递归服务器、搜索引擎业务、电子邮箱业务、云服务、网络探测服务等等。在权威服务器遭受 拒绝服务攻击时,不加区分的针对来源IP进行验证可能会造成误判,影响防御策略的效果。 因此,有必要对来源IP进行专门的类型发现和识别,以便于权威域名服务提供商采取相关 风险应对措施。本发明旨在提供一种针对域名权威服务来源IP的识别方法和系统。
业内相关的来源IP识别技术主要存在两种。一种是针对来源IP查询的日志统计识 别技术,另一种是主动探测来源递归服务来源IP的识别技术。由于顶极域名权威服务对象 包含多种类型,特性各不相同,故上述两种来源IP识别技术均不能实现对权威服务来源IP 的精细分类。
发明内容
本发明提供了一种域名权威服务来源IP识别方法和系统。本发明是一种专门针对 域名权威服务来源IP识别技术,现有的来源IP识别技术均不能实现对来源IP的精细分类; 本发明所提供的域名权威服务来源IP识别技术,通过利用权威服务查询日志数据来进行特 征抽取,不影响域名权威服务自身的正常运行;本发明所提供的来源IP特征定义,能够有效 区分不同类型的查询源IP。
本发明的技术方案为:
一种域名权威服务来源IP识别方法,其步骤为:
1)查询记录特征统计模块从权威服务器的权威查询日志中抽取设定源IP的查询 记录特征特征;
2)递归结构特征统计模块根据读取的全球递归服务探测数据构建一递归结构映 射关系表,然后根据该递归结构映射关系表进行递归结构特征抽取;
3)来源IP聚类识别模块根据已抽取的查询记录特征和递归结构特征对设定来源 IP进行聚类,将设定来源IP划分成多个不同的子集,并为每一子集设定一响应策略;
4)当权威服务器收到一查询时,判断该查询对应IP所属的子集,然后根据该子集 对应的响应策略对该查询对应的IP进行处理。
进一步的,所述查询记录特征为:来源IP每日查询量、来源IP在设定域名的每日查 询量、来源IP针对设定重点域名的查询量占该来源IP总查询量的比例、来源IP每日查询的 域名个数、来源IP每日查询的设定重点域名个数占该权威服务器总体重点域名个数的比例 或来源IP查询的各个域名的熵的均值。
进一步的,根据公式计算来源IP查询的各个域名的熵 的均值E(S);其中,域名Dj的熵值p(Si,Dj)为来源IPSi针对域名Dj的查询量占该域名Dj总查询量的比例,n为对域名Dj的查询IP总数,q(Dj,S)表示 来源IPS针对域名Dj查询量占S总查询量的比例,m为来源IPS查询的域名总数。
进一步的,根据全球递归服务探测数据生成<递归IP,来源IP>记录,构建所述递归 结构映射关系表。
进一步的,构建所述递归结构映射关系表的方法为:
1)注册一二级域名,搭建该二级域名对应的权威服务器,配置泛域名A记录;
2)向全球IP地址空间发送该二级域名的三级随机测试域名的A记录查询,每个IP 地址对应的测试域名各不相同,并记录返回应答的A记录,然后将成功返回DNS应答的IP称 为递归IP,登记为<递归IP,测试域名,应答A记录>,其中应答的A记录与步骤1)中配置的A记 录相符;
3)从该二级域名权威服务器日志抽取测试域名、来源IP记录,登记为<测试域名, 来源IP>;
4)以测试域名为关键字,连接合并步骤2)、3)得到的数据集,得到<递归IP,来源IP >的映射关系表。
进一步的,所述递归结构特征为:来源IP对应的递归IP个数、来源IP对应的设定重 点递归IP的个数、来源IP对应的递归IP服务的用户总数、来源IP相同IPv4CIDR/24地址块 的所有来源IP对应的递归IP个数、来源IP相同IPv4CIDR/24地址块的所有来源IP对应的重 点递归IP个数或来源IP相同IPv4CIDR/24地址块的所有来源IP对应的递归IP服务的用户 总数。
一种域名权威服务来源IP识别系统,其特征在于,包括查询记录特征统计模块、递 归结构特征统计模块、来源IP聚类识别模块;其中,
查询记录特征统计模块,用于从权威服务器的权威查询日志中抽取设定源IP的查 询记录特征特征;
递归结构特征统计模块,用于根据读取的全球递归服务探测数据构建一递归结构 映射关系表,然后根据该递归结构映射关系表进行递归结构特征抽取;
来源IP聚类识别模块,用于根据已抽取的查询记录特征和递归结构特征对设定来 源IP进行聚类,将设定来源IP划分成多个不同的子集,并为每一子集设定一响应策略;以及 当权威服务器收到一查询时,判断该查询对应IP所属的子集,然后根据该子集对应的响应 策略对该查询对应的IP进行处理。
如图所示,本发明的域名权威服务来源IP识别系统主要包含3个模块:查询记录特 征统计模块、递归结构特征统计模块、来源IP聚类识别模块。
查询记录特征统计模块负责读取域名权威查询日志,每一行查询日志都包含来源 IP,模块统计抽取每一个来源IP的多个特征,其中重点域名的定义可以根据权威服务的业 务特性灵活调整。系统最后综合使用多个特征识别来源IP,特征抽取规则包括但不限于:
(1)该来源IP每日查询量;
(2)该来源IP在某些特定域名的每日查询量;
(3)该来源IP针对重点域名的查询量占该源IP总查询量的比例;重点域名可以灵 活定义,例如权威服务器中“源IP个数超过N的域名”;
(4)该来源IP每日查询的域名个数;
(5)该来源IP每日查询的重点域名个数占该查询日志总体重点域名个数的比例;
(6)该来源IP查询的各个域名的熵的均值,每个域名的熵根据该域名对应的来源 IP分布计算(具体实施方式见后文)。
递归结构特征统计模块负责探测全球递归服务数据,根据探测数据得到<递归IP, 来源IP>组成本发明定义的递归结构映射关系表(具体实施方式见后文),基于该关系表数 据进行特征抽取计算。全球递归服务探测数据记录了向递归IP发起DNS查询后,最终负责向 权威服务迭代查询的来源IP。由<递归IP,来源IP>组成递归结构映射关系表,该关系标识了 递归服务器的汇聚程度,结合已知的递归IP重要程度、递归IP服务的用户数等相关信息,模 块以来源IP为关键字进行统计特征抽取,其中重点递归的定义可以根据权威服务的业务特 性灵活调整。系统最后综合使用多个特征识别来源IP,特征抽取规则包括但不限于:
(1)来源IP对应的递归IP个数;
(2)来源IP对应的重点递归IP的个数;重点递归可以灵活定义预先设定,例如电信 联通等运营商提供的递归服务器、Google等大型公司提供的公共递归服务器等等;
(3)来源IP对应的递归IP服务的用户总数;
(4)来源IP相同IPv4CIDR/24地址块的所有来源IP对应的递归IP个数;CIDR/24表 示公知的IP无类别域间路由选择前24位掩码地址块。
(5)来源IP相同IPv4CIDR/24地址块的所有来源IP对应的重点递归IP个数;
(6)来源IP相同IPv4CIDR/24地址块的所有来源IP对应的递归IP服务的用户总 数。
查询记录特征以及递归结构特征抽取完毕后,来源IP聚类识别模块负责根据已抽 取的特征对来源IP进行聚类。其中,所使用的聚类算法可以是K-MEANS、K-MEDOIDS等常用无 监督聚类算法,或者结合部分已知的来源IP类型信息调用决策树、SVM等算法进行有监督聚 类识别。
聚类识别完毕后,来源IP集合中的来源IP将被划分成多个不同的类型,例如运营 商递归服务器、互联网开放递归服务器、搜索引擎业务、电子邮箱业务、云服务、网络探测服 务等等不同用途的来源IP集合列表。在权威服务器收到查询时,根据已识别的来源IP所属 的类型,可以针对查询来源IP灵活采用不同的应答策略。例如拒绝服务攻击查询流量防御 时无需针对已知的运营商递归服务器来源IP进行重复验证,针对搜索引擎的大批量域名查 询流量进行单独分流服务等等。
与现有技术相比,本发明的积极效果为:
(1)能够精细化识别不同类型的来源IP,评估递归IP重要等级并对其进行相应处 理;
(2)整个识别过程独立于域名权威服务,不会对线上服务造成影响;
(3)特征抽取规则简单可用,聚类算法亦可以灵活选择。
附图说明
附图为本发明的识别系统结构图。
具体实施方式
本发明的域名权威服务来源IP识别系统需要构建3个模块:查询记录特征统计模 块、递归结构特征统计模块、来源IP聚类识别模块。具体实施方法示例如下:
查询记录特征统计模块
以CN国家权威域名服务为例,查询记录特征统计模块抽取一天的查询日志进行统 计分析。其中,查询量、域名个数、查询比例等特征均可通过简单分组统计获取,只有来源IP 的熵值特征需要进行二次统计提取,具体计算方法如下:
(1)根据每个域名对应的来源IP分布计算该域名的熵值:
n表示域名D的查询IP总数。
p(Si,D)表示某个来源IPSi针对域名D的查询量,占该域名D总查询量的比例。
(2)计算来源IP查询的所有域名熵的均值:
m表示来源IPS查询的域名总数。
q(Dj,S)表示来源IPS针对域名Dj查询量,占S总查询量的比例。
递归结构特征统计模块
递归结构特征统计模块需要<递归IP,来源IP>组成递归结构映射关系表,该关系 表的数据可以通过分布式的全球探测系统收集。该关系表构建流程示例如下:
(1)注册一个测试用的二级域名(例如dnsfortest.cn),搭建该二级域名对应的权 威服务器,配置泛域名A记录(例如*.dnsfortest.cn的A记录为218.241.118.118)。域名A记 录是域名资源记录的一种,标识了域名对应的IPv4地址。
(2)探测系统慢速向全球IP地址空间发送二级域名dnsfortest.cn的三级随机测 试域名的A记录查询,每个IP地址对应的测试域名各不相同,并记录返回应答的A记录,并将 能够成功返回DNS应答的IP称为递归IP,登记为<递归IP,测试域名,应答A记录>,其中应答 的A记录必须与(1)中配置的A记录相符。例如向IP1.2.4.8查询 test4.001002004008.dnsfortest.cn。
(3)从该二级域名权威服务器日志抽取探测系统的测试域名、来源IP记录,登记为 <测试域名,来源IP>。
(4)以测试域名为关键字,连接合并(2)(3)的数据集,得到<递归IP,来源IP>的映 射关系表。进行连接操作的SQL通用数据处理示例代码如下:
SELECTprobe_log.recur,authority_log.srcip
FROMprobe_log
LEFTOUTERJOINauthority_log
ONprobe_log.domain=authority_log.domain
其中probe_log表示(2)中的探测表,probe_log.recur表示递归IP,probe_ log.domain表示测试域名;authority_log表示(3)中的日志数据表,authority_log.srcip 表示来源IP,authority_log.domain表示测试域名。
(5)系统读取<递归IP,来源IP>的映射关系表,通过简单分组统计获取各项递归结 构特征。
来源IP聚类识别模块
来源IP聚类模块以来源IP为关键字,连接上述查询记录特征统计模块、递归结构 特征统计模块负责计算的特征值。根据本发明,连接后得到的来源IP聚类特征数据表中,每 个来源IP至少有12个特征值。进行连接操作的SQL通用数据处理示例代码如下(特征缺失时 默认取值为0):
SELECT*FROMquery_log_stat
LEFTOUTERJOINprobe_stat
ONquery_log_stat.srcip=probe_stat.srcip
其中query_log_stat表示查询记录特征统计模块的特征数据表,query_log_ stat.srcip表示来源IP;probe_stat表示递归结构特征统计模块的特征数据表,probe_ stat.srcip表示来源IP。
系统获得来源IP聚类特征数据表后,直接调用公知的K-MEANS、K-MEDOIDS等常用 无监督聚类算法,或者结合部分已知的来源IP类型信息调用公知的决策树、SVM等算法进行 有监督聚类识别,对来源IP进行分类,得到来源IP分类数据表。该数据表格式示例如下:
在权威服务器收到查询时,根据已识别的来源IP所属的类型,可以针对查询来源 IP灵活采用不同的应答策略。
机译: 一种方法,用于从互联网访问请求流量,客户请求,请求系统和请求系统进行查询的流量中,使用由带有特定域名的Web服务器提供的公共服务器,使用相同的IP,在专用网络上的多个客户端中,选择在多个客户端上选择的设备的数量。共享IP的状态
机译: 一种方法,用于从互联网访问请求流量,客户请求,请求系统和请求系统进行查询的流量中,使用由带有特定域名的Web服务器提供的公共服务器,使用相同的IP,在专用网络上的多个客户端中,选择在多个客户端上选择的设备的数量。共享IP的状态
机译: 域名系统作为多径移动策略的权威来源