公开/公告号CN105354234A
专利类型发明专利
公开/公告日2016-02-24
原文格式PDF
申请/专利权人 武汉烽火网络有限责任公司;
申请/专利号CN201510646237.1
申请日2015-10-09
分类号G06F17/30(20060101);
代理机构北京捷诚信通专利事务所(普通合伙);
代理人王卫东
地址 430074 湖北省武汉市东湖高新东信路5号关东光通信产业大楼
入库时间 2023-12-18 14:21:19
法律状态公告日
法律状态信息
法律状态
2019-02-19
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20190125 变更前: 变更后: 申请日:20151009
专利申请权、专利权的转移
2018-10-09
授权
授权
2016-03-23
实质审查的生效 IPC(主分类):G06F17/30 申请日:20151009
实质审查的生效
2016-02-24
公开
公开
技术领域
本发明涉及深度包检测和大数据分析领域,具体是涉及一种基于深度包检测的网络实时大数据系统及大数据分析方法。
背景技术
网络的飞速发展是近代最为明显的特征之一,网络给社会带来的好处难以胜数,但随着网络的发展和云时代的到来,网络中产生的数据呈爆炸性增长,昭示着大数据时代已经到来。业内一般认为“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;或者说大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。也就是说,大数据需要新的技术和方法。
另一方面,被网络不断创造且持续存在于网络中的大数据包含的信息价值是不可估量的,但由于鱼龙混杂,金子隐于沙中,很难加以使用,使得处在网络中的各方既希望从大数据中收益,又无法轻松自如的从大数据中得到有价值的信息。
大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)决定了对它的处理需要与常规数据处理不同的方法。尽管关于大数据的分析和处理的研究在不断的深入进行中,也取得了丰硕的成果,但网络产生的数据的增长速度仍然超出了现有技术和方法的能力。
参见图1所示,当前的大数据系统或方法,一般由如下几个环节组成:数据采集、数据预处理、数据存储、数据分析/挖掘以及结果呈现。它们大多数将重点放在当前的数据处理技术的应用上,而忽视了其他技术(如网络技术)对大数据系统或方法的帮助。因此,它们通常具有以下缺陷:
(1)实时性差,由于网络中大数据的规模已达到了相当惊人的量级,而且网络产生的数据容量对时间分布也表现出随机性,峰值数据规模远超出均值,处理这些数据需要很长时间,现有方法多采用非实时方式,导致大数据系统的输出实时性差,降低了输出的价值。
(2)对数据处理硬件的要求很高。正因为大数据的规模太大,普通的硬件配置不能胜任对大数据的加工,因此,需要更强大、更高配置的硬件支持。
(3)分析过程弯路多、资源浪费严重。由于大数据中沙子(没有价值的数据)多、金子(有价值的信息)少,提炼金子需要全面检查各种沙子,甚至,多次检查同一种沙子,这使得分析过程曲折冗长,资源利用率差,分析处理效率低。
因此,在面对网络产生的大数据庞大数量的情况下,网络相关的应用对实时性要求较高,使得大数据相关技术面向网络实时分析时,面临着巨大的困难和挑战。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于深度包检测的网络实时大数据系统及大数据分析方法,结合深度包检测技术和大数据分析技术各自的优势和作用,将网络产生的海量大数据收集上来,提炼出上层应用需要的有价值的信息,既能满足网络相关应用的要求,又不会大幅增加硬件的投入。
本发明提供一种基于深度包检测的网络实时大数据系统,包括深度包检测控制单元、深度包检测单元、数据库单元、数据挖掘单元和联机分析处理单元,其中:
所述深度包检测控制单元用于:获取上层应用的信息需求;将上层应用的信息需求用特定的信息转换为网络数据收集的策略,并将所述策略下达给深度包检测单元;
所述深度包检测单元用于:根据所述策略从网络中收集相应的数据;同时,深度包检测单元将收集的数据提交到数据库单元中;
所述数据库单元用于:根据收集的数据建立数据库;
所述数据挖掘单元和联机分析处理单元用于:基于数据库中的数据,进行挖掘和联机分析处理,得到上层应用需要的信息,并将得到的信息提交给上层应用实体使用。
在上述技术方案的基础上,所述深度包检测单元仅收集上层应用感兴趣的数据,摒弃剩余的海量的对上层应用无价值的数据。
在上述技术方案的基础上,所述系统包括一个或多个深度包检测单元、一个或多个深度包检测控制单元,每个深度包检测控制单元控制一个或多个深度包检测单元。
在上述技术方案的基础上,所述深度包检测单元在处理网络中的某数据包时,如果发现某数据包匹配上已存在的策略、并且该策略指定的操作是送达数据库单元时,则将该数据包携带的数据提交给数据库单元。
在上述技术方案的基础上,所述深度包检测单元实现初步的信息解析和转换:将数据包映射为数据库单元的接口模块要求的结构,再由数据库单元的接口模块映射到数据库单元的存储结构。
在上述技术方案的基础上,所述数据库单元的接口模块适配与数据库关联的各单元或组件,即与数据库关联的各单元或组件不因数据库的改变而改变。
本发明还提供一种基于深度包检测的网络实时大数据分析方法,包括以下步骤:
S1、获取上层应用对信息的需求;
S2、将上层应用的信息需求转换为网络数据收集的策略;
S3、根据上述策略从网络中得到相应的数据;
S4、根据步骤S3收集的数据建立数据库,起到衔接深度包检测技术和大数据分析技术的作用;
S5、基于所述数据库,利用联机分析技术和数据挖掘技术,得到上层应用需要的信息;
S6、将步骤S5得到的信息提交上层应用实体使用。
在上述技术方案的基础上,步骤S3中仅收集上层应用感兴趣的数据,摒弃剩余的海量的对上层应用无价值的数据。
与现有技术相比,本发明的优点如下:
本发明中的大数据系统包括深度包检测单元、深度包检测控制单元、数据库单元、数据挖掘单元和联机分析处理单元,该大数据系统根据上层应用的需求,实时的收集网络中的大数据,实时的将大数据中蕴含的有价值的信息提取出来,并提交给上层应用实体使用。大数据分析方法包括以下步骤:获取上层应用的信息需求;将上层应用的信息需求转换为网络数据收集的策略;根据上述策略从网络中收集相应的数据;根据收集的数据建立数据库;基于上述数据库,分析和挖掘得到上层应用需要的信息;将得到的信息提交上层应用实体使用。本发明将深度包检测技术和大数据相关技术有机结合起来,利用深度包检测技术适用于网络和部分功能基于硬件实现的优势,以及大数据相关技术在数据处理上的优势,使得将两者结合起来的大数据系统和大数据分析方法既适用于现有网络,又在不大量增加硬件投入的前提下,提高大数据分析和处理的性能,为上层应用提供更好的支持。
附图说明
图1是现有技术中一般大数据分析处理方法的流程图。
图2是本发明实施例中基于深度包检测的网络实时大数据系统的结构框图。
图3是本发明实施例中基于深度包检测的网络实时大数据分析方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图2所示,本发明实施例提供一种基于深度包检测的网络实时大数据系统,包括深度包检测控制单元、深度包检测单元、数据库单元、数据挖掘单元和联机分析处理单元,其中:
深度包检测控制单元用于:获取上层应用的信息需求;将上层应用的信息需求用特定的信息转换为网络数据收集的策略,并将上述策略下达给深度包检测单元;
深度包检测单元用于:根据上述策略从网络中收集相应的数据;需要强调的是,仅收集上层应用感兴趣的数据,而摒弃剩余的海量的对上层应用无价值的数据;同时,深度包检测单元将收集的数据提交到数据库单元中;
数据库单元用于:根据收集的数据建立数据库;
数据挖掘单元和联机分析处理单元用于:基于数据库中的数据,进行挖掘和联机分析处理,得到上层应用需要的信息,并将得到的信息提交给上层应用实体使用。
该大数据系统包括一个或多个深度包检测单元、一个或多个深度包检测控制单元,每个深度包检测控制单元可以控制一个或多个深度包检测单元。
该大数据系统根据上层应用的需求,实时的收集网络中的大数据,实时的将大数据中蕴含的有价值的信息提取出来,并提交给上层应用实体使用。
参见图3所示,本发明实施例还提供一种基于深度包检测的网络实时大数据分析方法,包括以下步骤:
S1、获取上层应用对信息的需求,因为大数据分析的目的是为上层应用提供信息服务,因此,精确掌握上层应用对信息的需求是很重要的一步;
S2、将上层应用的信息需求转换为网络数据收集的策略,也就是说,将上述需求用相关网络设备能接受的表达方式表示;
S3、根据上述策略从网络中收集相应的数据:针对性的,仅收集上层应用感兴趣的数据,摒弃剩余的海量的对上层应用无价值的数据;
S4、根据步骤S3收集的数据建立数据库,这一步起到衔接深度包检测技术和大数据分析技术的作用;
S5、基于上述数据库,利用联机分析技术和数据挖掘技术,得到上层应用需要的信息;
S6、将步骤S5得到的信息提交上层应用实体使用。
下面对本发明实施例中的大数据系统、大数据分析方法进行详细阐述。
一、上层应用的信息需求获取
从图3可知,精确的掌握上层应用的需求是本发明实施例的第一步。网络中的大数据多种多样,但在大多数情况下,某个上层应用仅关注某一个数据领域,或者说大数据中极小的一部分。
举例来说,英语教学应用只关心与英语有关的大数据,甚至,它仅仅关心与英语有关的大数据的一部分。其它的对它来说就是垃圾或噪声。
因此,如果能够将上层应用的信息需求精准的理解并表示出来,同时在数据源的接口处按照上述信息需求对信息进行过滤,那么从数据源接口处到信息的终结处的所有中间处理单元或组件的负担都将大大减轻,处理性能和效率也将大大增强。
关于信息需求的表达方式有很多,只要易于让深度包检测控制单元理解和处理就可,所以可行的表达方式很丰富。
举例来说,搜索引擎采用的语法就是一种很好的表达方式。
二、策略的生成和下发
根据图3的流程,第二步是将上层应用的信息需求转换为深度包检测单元能够使用的策略,这是由深度包检测控制单元来完成的。
深度包检测单元可能包含一个或多个分布式单元,网络规模不同,单元的数量不同。
同样的深度包检测控制单元也可能存在多个单元的场景,这取决于深度包检测单元的数量和深度包检测控制单元。
一般来说,从上层应用得到的信息需求的表示方式和深度包检测单元的策略表示方式存在较大的差异。因为信息需求与上层应用的接口密切相关,而策略表示方式依赖于深度包检测单元的实现方式,甚至与采用的核心芯片相关。
表1给出了一种策略的简单表示方式。
表1、深度包检测设备的策略描述表
每条策略包含策略标识、策略激活的条件以及策略满足后的操作,这也就是说,对网络中的某个数据包,当该策略对应的条件被匹配上后,则执行该策略制定的操作。
三、有效数据的收集
图3的第三步是本发明实施例非常重要的一步,可以理解成大数据中数据源的接口。第三步由深度包检测单元实现。
需要说明的是,上述的深度包检测单元既可以是为实施本发明专门设计的网络设备,也可以是网络中已有的具有深度包检测功能的设备。因此,本发明实施例中有效数据收集的任务有可能只是深度包检测单元实现的众多功能的一部分。
当深度包检测单元在处理网络中的某数据包时,如果发现某数据包匹配上已存在的策略、并且该策略指定的操作是送达上述的数据库单元时,则需要将该数据包携带的数据提交数据库单元。
深度包检测单元将数据提交给数据库单元的方式很多,最简单直接的方式是将数据包不加修改的提交上去,留待数据库单元的接口模块去处理。最完善的方式是在深度包检测单元中完成数据包中信息的解析,形成与数据库单元存储结构匹配的信息集,这样数据库单元的接口模块处理时不需做太多的转换工作。
一般来说,根据深度包检测单元的性能和数据库单元的性能,灵活选择介于最简单的方式和最完善的方式之间的处理方式是更优的方案。也就是说,深度包检测单元实现初步的信息解析和转换,如将数据包映射为数据库单元的接口模块要求的结构,例如:K-V(K=KEY,关键值;V=Value,值)结构,再由数据库单元的接口模块映射到数据库单元的存储结构。
四、数据库的选用和设计
数据库的选用和设计也是本发明实施例的核心内容。
数据库单元的接口模块适配与数据库关联的各单元或组件,也就是说,与数据库关联的各单元或组件不因数据库的改变而改变。
由于网络中的大数据一般为非结构化的或准结构化的,要完全将这些大数据转换为结构化的数据几无可能。因此,传统的关系型数据库不适合于大数据相关的应用场景。通常,大数据相关的应用选用面向非结构化的NOSQL数据库。
当前,获得广泛应用的NOSQL数据库众多,例如:Casssandra、Riak、CouchDB、Neo4J、MongoDB、HBase、BigTable、DynamoDB等等,这些数据库都可以用来构建本发明实施例的数据库单元。
由于NOSAL数据库是面向非结构化的数据库设计的,其结构与传统的关系系数据库完全不同。
下面以BigTable为例对这类数据库做简单说明。
表2是BigTable基本存储结构的简单示意。
表2、BigTable数据库的存储结构表
归纳起来也可以理解为一种K-V结构,只是K是准结构化的,V是完全非结构化的。K由行值、列值、时戳三部分共同组成,其中行值、列值也可以理解为非结构的数据。V可以是包含文件、视频、声音在内的任何数据。
由于数据库单元可基于任何NOSQL数据库生成,那么期待深度包检测单元提交的数据能适应各种数据库不现实。因此,数据库单元的接口模块应负责完成提交上来的数据到数据库的转换和映射。
五、数据挖掘和在线分析处理
数据挖掘是在不知或不假设数据内蕴含某种规律联系的情况下,去找出数据中蕴含的规律和联系。
在线分析处理是已知或假设数据内蕴含某种规律联系的情况下,利用数据验证这个规律或联系。
不管是数据挖掘和在线分析处理,其结果就是找出对上层应用又价值的信息--规律或联系等等。这样上层应用将依据这些信息调整自己的决策和行为,以获得更大的效益、效能。
目前已应用的数据挖掘工具和在线分析处理工具很多,数据挖掘工具有QUEST系统、MineSet系统、Darwin等等,在线分析处理工具有Cognos、Hyperion、MicroStrategy等等,这些都可以用来设计本发明的数据挖掘单元和在线分析处理单元。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。
机译: 基于大数据采集和计算机可读记录介质的污水和废水质量区分处理系统及方法,提供基于大数据采集的污水和废水质量区分处理程序
机译: 基于自动信号处理的过程工厂,系统和方法,用于在过程工厂提供大数据库学习的系统和方法,用于自动在过程工厂中实现大数据库学习的系统
机译: 基于耳机形状的声音采集装置的基于大数据的实时噪声图提供系统