首页> 中国专利> 一种多源多模态海洋大数据的离线批处理方法及系统

一种多源多模态海洋大数据的离线批处理方法及系统

摘要

本发明公开了一种多源多模态海洋大数据的离线批处理方法及系统,通过采集流数据;对流数据进行数据规整;分割处理流数据;构建调度分配模型,将流数据输入到计算节点中通过调度分配模型对计算节点进行任务调度处理;在数据反复倾斜的情况下也能快速的检测并隔离出错节点,并动态的调度分配新的节点接管出错节点的计算任务,缩减了处理时间,能够根据趋势时间的智能的调度各个计算节点,避免了在节点复活后有可能会反复的进行重复调用该复活/死亡频繁的各个节点从而陷入死锁。

著录项

  • 公开/公告号CN113268505A

    专利类型发明专利

  • 公开/公告日2021-08-17

    原文格式PDF

  • 申请/专利权人 广东海洋大学;

    申请/专利号CN202110476164.1

  • 发明设计人 李昭;沈金伟;彭小红;

    申请日2021-04-29

  • 分类号G06F16/2455(20190101);G06F9/48(20060101);G06F9/52(20060101);

  • 代理机构44493 广州专理知识产权代理事务所(普通合伙);

  • 代理人邓易偲

  • 地址 524088 广东省湛江市麻章区海大路1号

  • 入库时间 2023-06-19 12:14:58

说明书

技术领域

本公开属于海洋大数据处理、批数据处理、数据传输领域,具体涉及一种多源多模态海洋大数据的离线批处理方法及系统。

背景技术

海洋大数据采集于各种Argo浮标、浮标、测绘设备等传感器、涵盖了海底地形数据、海洋遥感数据、船测数据、浮标数据、随着海洋监测设备的不断发展,但是由于这些数据采集的来源不同,数据结构不同,源自于不同的采集设备终端采集的多源异构的数据,在当前的大数据处理方法中,当将海量数据存储为数据源时,对于非实时业务数据,通常需要离线批处理。

对于处理这些业务数据的批处理系统通常也叫离线系统或者脱机系统,需要大量的输入数据,运行一个作业来处理它,并产生一些输出数据。工作通常需要一段较长的时间。批处理作业通常是周期性地运行的。当前,大数据的离线批量处理要求数据处理的延迟低,但处理的数据量大,占用更多的计算和存储资源,大数据的离线批处理一般通过spark或者Hadoop框架来实现。对于海量数据,通常采用spark或者Hadoop框架以提供带宽,内存,存储和其他资源,而无需快速响应(例如分钟级延迟和小时级延迟)。但是,由于海洋大数据通常是海量的多模式大数据,因此在需要快速响应处理和及时处理的环境中很难获得良好的结果,在spark或者Hadoop框架中采用MapReduce(映射化简),MapReduce作业是客户端需要执行的工作单元,它包含了输入数据、MapReduce程序和配置信息。Hadoop将作业分为若干个小任务(task)来执行,其中每个小任务又分为Map任务节点和Reduce任务节点,在MapReduce计算集群中,节点硬件(主机、磁盘、内存等)出错和软件出错是常态,现有的MapReduce计算节点(集群节点)的调度方法为:MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性;每个节点会周期性的返回它所完成的工作和最新的状态,如果一个节点保持沉默超过一个预设的时间间隔,主节点记录下这个节点状态为死亡,并把分配给这个节点的数据发到别的节点,虽然MapReduce能检测并隔离出错节点,并调度分配新的节点接管出错节点的计算任务,但是在目前的节点调度方法在数据倾斜严重的场景下,很容易导致处理时间过长,甚至在节点复活后有可能会反复的进行重复调用该复活/死亡频繁的各个节点从而陷入死锁。

发明内容

本发明的目的在于提出一种多源多模态海洋大数据的离线批处理方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。

为了实现上述目的,根据本公开的一方面,提供一种多源多模态海洋大数据的离线批处理方法,所述方法包括以下步骤:

S100,采集流数据;

进一步地,采集流数据的方法为:通过用于采集声呐数据、风力、地震、电磁、温度、湿度、噪声、光强度、压力、水质成分、移动物体的大小、速度和方向中任意一种或多种物理量的传感器的Argo浮标、浮标、测绘设备等设备采集的物理量数据的数据序列作为流数据。

S200,对流数据进行数据规整,数据规整包括时间格式化、字段的补齐、数据清理、数据集成、数据归约中任意一种或多种;

S300,通过MapReduce方法分割处理流数据;

进一步地,在S300中,分割处理流数据的方法为,通过MapReduce方法分割处理流数据:流数据的键值对为:<传感器编号,物理量,采集时间>,物理量包括声呐数据、风力、地震、电磁、温度、湿度、噪声、光强度、压力、水质成分、移动物体的大小、速度和方向中的任意一种或多种物理量,通过MapReduce算法将流数据分割成多个的数据流。

S400,构建调度分配模型;

进一步地,在S400中,构建调度分配模型的方法包括以下步骤:

S401,将MapReduce计算节点(MapReduce计算节点包括Map节点或Reduce节点,MapReduce计算节点建立在搭设好的Map/Reduce框架和Hadoop分布式文件系统上),简称为节点,节点集合为Node,其中,Node={Node

其中,对应的分割后待批处理的流数据处理任务包括但不限于:数据压缩、聚类、抽样、维数约减和数据变换中任意一种或多种;

S402,依次将Bath

S403,计算参考节点的参考处理量R,

S404,令Cu

S405,每隔设定的时间间隔T,检测各个Node

S500,将流数据输入到计算节点中通过调度分配模型对计算节点进行任务调度处理。

进一步地,在S500中,将流数据输入到计算节点中通过调度分配模型对计算节点进行任务调度处理的方法包括以下步骤:

为避免在数据的反复倾斜的情况下,导致的节点死锁问题,因此,需要根据以下预先计算趋势时间以智能的调度各个Map节点或Reduce节点;

S501,令Time

S502,依次计算得到各个Node

S503,当第i个节点Node

本发明还提供了一种多源多模态海洋大数据的离线批处理系统,所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:

数据采集单元,用于采集流数据;

数据规整单元,用于对流数据进行数据规整;

数据分割单元,用于分割处理流数据;

模型构建单元,用于构建调度分配模型;

调度处理单元,用于将流数据输入到计算节点中通过调度分配模型对计算节点进行任务调度处理。

本公开的有益效果为:本发明提供一种多源多模态海洋大数据的离线批处理方法及系统,在数据反复倾斜的情况下也能快速的检测并隔离出错节点,并动态的调度分配新的节点接管出错节点的计算任务,缩减了处理时间,能够根据趋势时间的智能的调度各个计算节点,避免了在节点复活后有可能会反复的进行重复调用该复活/死亡频繁的各个节点从而陷入死锁。

附图说明

通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:

图1所示为一种多源多模态海洋大数据的离线批处理方法的流程图;

图2所示为一种多源多模态海洋大数据的离线批处理系统结构图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为一种多源多模态海洋大数据的离线批处理方法的流程图,下面结合图1来阐述根据本发明的实施方式的一种多源多模态海洋大数据的离线批处理方法,所述方法包括以下步骤:

S100,采集流数据;

进一步地,采集流数据的方法为:通过用于采集声呐数据、风力、地震、电磁、温度、湿度、噪声、光强度、压力、水质成分、移动物体的大小、速度和方向中任意一种或多种物理量的传感器的Argo浮标、浮标、测绘设备等设备的采集的物理量数据的数据序列作为流数据。

S200,对流数据进行数据规整,数据规整包括时间格式化、字段的补齐、数据清理、数据集成、数据归约中任意一种或多种;

S300,通过MapReduce方法分割处理流数据;

进一步地,在S300中,所述通过MapReduce方法分割处理流数据的键值对为:<传感器编号,物理量,采集时间>,物理量包括声呐数据、风力、地震、电磁、温度、湿度、噪声、光强度、压力、水质成分、移动物体的大小、速度和方向中的任意一种或多种物理量,通过MapReduce算法将流数据分割成多个的数据流。

S400,构建调度分配模型;

进一步地,在S400中,构建调度分配模型的方法包括以下步骤:

S401,将MapReduce计算节点(MapReduce计算节点包括Map节点或Reduce节点,MapReduce计算节点建立在搭设好的Map/Reduce框架和Hadoop分布式文件系统上),简称为节点,节点集合为Node,其中,Node={Node

其中,对应的分割后待批处理的流数据处理任务包括但不限于:数据压缩、聚类、抽样、维数约减和数据变换中任意一种或多种;

S402,依次将Bath

S403,计算参考节点的参考处理量R,

S404,令Cu

S405,每隔设定的时间间隔T,检测各个Node

S500,通过调度分配模型对MapReduce的计算节点进行任务调度处理;

进一步地,在S500中,通过调度分配模型对MapReduce的计算节点进行任务调度处理的方法包括以下步骤:

为避免在数据的反复倾斜的情况下,导致的节点死锁问题,因此,需要根据以下预先计算趋势时间以智能的调度各个Map节点或Reduce节点;

S501,令Time

S502,依次计算得到各个Node

S503,当第i个节点Node

本公开的实施例提供的一种多源多模态海洋大数据的离线批处理系统,如图2所示为本公开的一种多源多模态海洋大数据的离线批处理系统结构图,该实施例的一种多源多模态海洋大数据的离线批处理系统包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种多源多模态海洋大数据的离线批处理系统实施例中的步骤。

所述系统包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下系统的单元中:

数据采集单元,用于采集流数据;

数据规整单元,用于对流数据进行数据规整;

数据分割单元,用于分割处理流数据;

模型构建单元,用于构建调度分配模型;

调度处理单元,用于将流数据输入到计算节点中通过调度分配模型对计算节点进行任务调度处理。

所述一种多源多模态海洋大数据的离线批处理系统可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种多源多模态海洋大数据的离线批处理系统,可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种多源多模态海洋大数据的离线批处理系统的示例,并不构成对一种多源多模态海洋大数据的离线批处理系统的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种多源多模态海洋大数据的离线批处理系统还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种多源多模态海洋大数据的离线批处理系统运行系统的控制中心,利用各种接口和线路连接整个一种多源多模态海洋大数据的离线批处理系统可运行系统的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种多源多模态海洋大数据的离线批处理系统的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号