首页> 中国专利> 一种互联网流量来源去向的分析方法

一种互联网流量来源去向的分析方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明提出了一种互联网流量来源去向的分析方法，其通过处理DNS日志来获得互联网流量的来源与去向，包括如下步骤：日志过滤步骤，过滤无法反映用户真实访问路径的DNS日志；日志切分步骤，对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的访问路径；以及数据汇总步骤，将所有所述切分后的访问路径进行汇总。通过本发明的分析方法，能够掌握互联网流量的来源和去向，从而能够更好地帮助网站进行网站流量的分析和优化；进一步地，通过完整地了解整个互联网的流量的流向情况，可以从全局的角度进行分析并了解其他网站的流量情况。

著录项

公开/公告号CN105704260A

专利类型发明专利
公开/公告日2016-06-22

原文格式PDF
申请/专利权人上海牙木通讯技术有限公司;
展开▼

申请/专利号CN201610231212.X
发明设计人张大顺;
展开▼

申请日2016-04-14
分类号H04L29/12(20060101);
代理机构上海立群专利代理事务所(普通合伙);
代理人毛立群;杨楷
地址 200030 上海市徐汇区番禺路1028号305室
入库时间 2023-12-18 15:37:03

法律信息

法律状态公告日

法律状态信息

法律状态
2019-05-21

授权

授权
2016-07-20

实质审查的生效 IPC(主分类):H04L29/12 申请日:20160414

实质审查的生效
2016-06-22

公开

公开

说明书

技术领域

本发明涉及互联网DNS域名解析领域，尤其涉及一种互联网流量来源去向的分析方法。

背景技术

所谓互联网流量的来源去向是指用户先访问了什么网站然后又去了什么网站等一系列的网站访问路径。关于如何确认网站的流量来源，业界的主流方式只有一种，就是在网站的页面上添加JavaScript监测代码。最常见的就是第三方检测工具，如google analytics和百度统计等。

上述统计方法有很大的局限性，每个网站只能知道访客上一个访问的网站，没有办法获悉这个访客之前访问的多个网站，更加没有办法了解这个访客离开自己网站后会去哪里。DNS(DomainNameSystem，域名系统)，是因特网上作为域名和IP地址相互映射的一个分布式数据库，能够使用户更方便的访问互联网，而不用去记住能够被机器直接读取的 IP数串。“DNS域名解析技术”是指：当用户需要访问一个网站时，他需要在浏览器中输入这个网站的域名。敲击回车后浏览器会先发起一个DNS请求，通过DNS技术，浏览器可以获取这个域名对应的服务器IP地址，然后再对这个IP地址发起HTTP请求。

DNS日志会记录每次DNS请求的应答内容，几乎能记录所有用户请求的域名信息。不过日志中会包含太多的异常和无效的信息，例如服务器也会发起DNS请求从而产生大量的域名信息，互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反应用户的真实访问路径的。

目前市场上没有能够很好分析互联网访客的整个访问路径的方法，而本发明则弥补了这一空缺，是一种通过对DNS日志的再处理来分析网站的流量分别来自哪些网站，离开后又去了哪些网站的方法。

发明内容

鉴于上述缺陷的存在，本发明提出了一种互联网流量来源去向的分析方法，通过本发明方法，尽可能地清洗掉日志中非人为访问的行为，能够有效地获得互联网流量的来源和去向。

本发明的一种互联网流量来源去向的分析方法，通过处理DNS日志来获得互联网流量的来源与去向，包括如下步骤：

日志过滤步骤，过滤无法反映用户真实访问路径的DNS日志；日志切分步骤，对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的访问路径；以及数据汇总步骤，将所有所述切分后的访问路径进行汇总。

优选地，日志过滤步骤通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。

优选地，去除DNS日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。

优选地，根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。

优选地，所述根据时间戳之差对日志进行切分是对根据源IP切分后的日志再根据 DNS日志的时间戳之间的差进行切分，如果两个DNS日志的时间戳之间的差大于规定时间长度，则切开所述两个DNS日志。

优选地，所述规定时间长度为3秒。

优选地，根据时间戳之差对DNS日志进行切分步骤后还包括合并步骤，对切分获得的访问路径中的域名转化成域，并将连续相同的域合并，以获得所述源IP的路径。

优选地，所述根据中心域进行切分是以中心域为基准对所述源IP的路径进行切分，切分后获得的访问路径为：来源域名n+…+来源域名1+中心域名+去向域名1+…+去向域名n，其中，所述中心域是根据用户/系统需求确定要重点分析的域。

优选地，所述数据汇总步骤中，对根据所述中心域切分步骤后获得的所述源IP的所有访问路径进行汇总。

通过本发明的分析方法，能够掌握互联网流量的来源和去向，从而能够更好地帮助网站进行网站流量的分析和优化；进一步地，通过完整地了解整个互联网的流量的流向情况，可以从全局的角度进行分析并了解其他网站的流量情况，做到知己知彼。

附图说明

图1(a)、图1(b)是本发明的互联网流量来源去向的分析方法的流程图；

图2(a)、图2(b)是通过本发明的互联网流量来源去向的分析方法获得的流量来源的示意图。

具体实施方式

以下，将结合附图和实施例对发明进行详细说明。以下实施例并不是对本发明的限制。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中。

如前所提到的，DNS(DomainNameSystem，域名系统)，是因特网上作为域名和IP 地址相互映射的一个分布式数据库，能够使用户更方便的访问互联网，而不用去记住能够被机器直接读取的IP数串。当用户访问一个网站时，先在浏览器中输入这个网站的域名，敲击回车后浏览器会先发起一个DNS请求，通过DNS技术，浏览器可以获取这个域名对应的服务器IP地址，然后再对这个IP地址发起HTTP请求。这就是DNS域名解析技术。

在上述域名解析的过程中，会产生DNS日志。DNS日志会记录每次DNS请求的应答内容，几乎能记录所有用户请求的域名信息。DNS日志的格式如下所示：

14.***.***.10|www.baidu.com|20141211035932|180.***.***.107； 180.***.***.108|0

源IP|域名|时间戳|解析IP|状态码

即DNS日志包括“源IP”，“域名”，“时间戳”，“解析IP”和“状态码”五部分内容。

由于DNS日志中包括了所有用户请求的域名信息，本发明人由此想到通过对DNS日志的再处理来分析网站的流量的来源和去向。但是DNS日志中也包括了很多异常和无效的信息，例如服务器也会发起DNS请求从而产生大量的域名信息，互联网爬虫甚至网络攻击都会产生大量的DNS请求。而这些请求是无法真实有效地反映用户的真实访问路径的。基于上述的情况，本发明人想到了通过尽可能地清洗掉日志中非人为访问的行为，来有效地获得互联网流量的来源和去向。

图1是本发明的互联网流量来源去向的分析方法的流程图。如图1所示，本发明的互联网流量来源去向的分析方法包括如下步骤。

首先，过滤无法反映用户真实访问路径的DNS日志(步骤S1)。如前所述，由于DNS请求中包括了很多无法真实有效地反映用户的真实访问路径的域名，因此需要进行清洗。例如通过设置黑白名单保留包含重点关注的域名请求的DNS日志以及去除包含服务器产生的非人为的域名请求的DNS日志。通过设置黑名单可以去除服务器产生的非人为的域名请求。通过设置白名单可以保留重点关注的某些域名。白名单优先级高于黑名单。另外，去除DNS 日志进一步包括去除企业IP访问的日志以及去除没有解析IP的日志。其中，去除企业IP，是因为企业IP会产生多人的同时访问日志，影响对个人访问轨迹的判断；去除没有解析IP的日志，即去除访问失败的日志。通过不同的维度进行日志过滤，从而可以获得反映用户真实访问路径的DNS日志。

接下来对日志过滤步骤后获得的DNS日志根据源IP、根据时间戳之差以及根据中心域依次进行切分，获得切分后的域(步骤S2)。

详细步骤如下：

1)根据源IP切分(步骤S21)。根据源IP对DNS日志进行切分是获得一段时间内相同源IP的连续的DNS日志。

例如，源IP1.1.1.1和源IP2.2.2.2是不同源IP所以将日志切分。如下所示：

源IP|域名|时间戳|解析IP|状态码

1.1.1.1|www.baidu.com|20141211035932|180.***.***.107；180.***.***.108| 0

1.1.1.1|www.qq.com|20141211035932|180.***.***.107；180.***.***.108|0

---------------------------------------日志切割线-----------------------------------------

2.2.2.2|www.baidu.com|20141211035932|180.***.***.107；180.***.***.108| 0

2.2.2.2|www.qq.com|20141211035932|180.***.***.107；180.***.***.108|0

2)接下来将按照源IP切分好的日志根据时间戳之差再进行切分(步骤S22)。根据时间戳之差切分是指对根据源IP切分后的日志再根据DNS日志的时间戳之间的差值进行切分。如果两个DNS日志的时间戳之间的差大于规定时间长度，则切开这两个DNS日志(切分的原因是日志的时间间隔过久则被认为是两个不同的行为)。该规定时间长度可以根据需要调整。本实施例中，所述规定时间长度为3秒，即时间戳相隔大于3秒会被切分开。

例如，对源IP2.2.2.2的DNS日志进一步根据其时间戳之差值进行切分，如下所示。 (时间戳20141211035932表示2014年12月11日3点59分32秒)

源IP|域名|时间戳|解析IP|状态码

2.2.2.2|www.baidu.com|20141211000001|180.***.***.107；180.***.***.108| 0

2.2.2.2|a.qq.com|20141211000002|180.***.***.107；180.***.***.108|0

2.2.2.2|b.baidu.com|20141211000003|180.***.***.107；180.***.***.108|0

2.2.2.2|c.tanx.com|20141211000004|180.***.***.107；180.***.***.108|0

2.2.2.2|c.allyes.com|20141211000005|180.***.***.107；180.***.***.108| 0