首页> 中国专利> 基于hadoop的异地双活容灾方法、装置、设备和可读存储介质

基于hadoop的异地双活容灾方法、装置、设备和可读存储介质

摘要

本申请的实施例提供了基于hadoop的异地双活容灾方法、装置、设备和计算机可读存储介质。所述方法包括基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群;所述主集群和镜像集群分布在不同的机房,并保持心跳;通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件。以此方式,实现了异地双活容灾。

著录项

  • 公开/公告号CN114780293A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 北京科杰科技有限公司;

    申请/专利号CN202210445959.0

  • 发明设计人 刘拓;于洋;高经郡;

    申请日2022-04-26

  • 分类号G06F11/14;G06F11/07;G06F16/178;G06F16/182;G06F16/18;

  • 代理机构

  • 代理人

  • 地址 100020 北京市朝阳区阜通东大街1号院3号楼3层2单元120307

  • 入库时间 2023-06-19 16:06:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    发明专利申请公布

说明书

技术领域

本申请的实施例涉及跨集群数据传输领域,尤其涉及基于hadoop的异地双活容灾方法、装置、设备和计算机可读存储介质。

背景技术

当前,大多的双活容灾以单集群模式实现,即,利用hadoop的数据导入导出机制实现数据的备份。

但是,对于跨机房的集群,若其中一个机房出现故障,则另一个机房也会存在单点故障问题。即使进行了数据的备份,也不能快速恢复系统的使用。并且在实际应用中数据也很难进行实时备份,即,数据备份时需要确定目标数据的路径。

当进行任务计算时,不能充分有效利用集群资源,任务计算需要跨机房进行网络传输数据。

发明内容

根据本申请的实施例,提供了一种基于hadoop的异地双活容灾方案。

在本申请的第一方面,提供了一种基于hadoop的异地双活容灾方法。该方法包括:

基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群;所述主集群和镜像集群分布在不同的机房,并保持心跳;

通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件。

进一步地,所述通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件包括:

通过共享日志,进行事务日志的中转。

进一步地,所述共享日志包括由多个journalNode组成。

进一步地,所述主集群和镜像集群通过data pipeline方式进行传输。

进一步地,所述主集群和镜像集群各自的dataNode只向各自的nameNode汇报位置及状态信息。

进一步地,所述主集群和镜像集群的yarn资源调度相互独立。

在本申请的第二方面,提供了一种基于hadoop的异地双活容灾装置。该装置包括:

构建模块,用于基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群;所述主集群和镜像集群分布在不同的机房,并保持心跳;

同步模块,用于通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件。

进一步地,所述通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件包括:

通过共享日志,进行事务日志的中转。

在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。

在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。

本申请实施例提供的基于hadoop的异地双活容灾方法,通过基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群;所述主集群和镜像集群分布在不同的机房,并保持心跳;通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件,实现了异地双活容灾。

应当理解,发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:

图1示出了本申请的实施例提供的方法所涉及的系统架构图。

图2示出了根据本申请的实施例的基于hadoop的异地双活容灾方法的流程图;

图3示出了根据本申请的实施例的基于hadoop的异地双活容灾装置的方框图;

图4示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。

另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。

名词解析:

双活容灾:即灾备系统中使主生产端数据库和备机端数据库同时在线运行,处于可读可查询的状态的技术。

Hadoop:由Apache基金会所开发的分布式系统基础架构,是一个能够对大量数据进行分布式处理的软件框架。

图1示出了能够在其中实现本公开的实施例的示例性运行环境的示意图。在运行环境中包括基于hadoop框架的主集群primary cluster,以及与其对应的基于hadoop框架的镜像集群mirror cluster。

其中,所述primary cluster和mirror cluster分布在不同的机房,之间保持心跳。

图2示出了根据本公开实施例的基于hadoop的异地双活容灾方法的流程图。所述方法包括:

S210,基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群。

在一些实施例中,基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群,参考图1。

S220,通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件。

在一些实施例中,主集群primary cluster和镜像集群mirror cluster通过异步的方式同步日志和数据文件。

进一步地,通过共享日志sharedJournal进行事务日志editLog的中转;所述editLog包括NN-active读写的操作记录。

具体地,

通过active-nameNode将editLog写入sharedJounal;

primary cluster通过standby-nameNode从共享日志中获取事务日志;

mirror cluster通过active-nameNode从primary cluster的sharedJournal获取editLog;

mirror cluster通过active-nameNode再将editLog写入mirror cluster的sharedJournal;

最终,mirror cluster可通过standby-nameNode从mirror cluster的sharedJournal获取editLog,即,镜像集群通过standby-nameNode从主集群的共享日志中获取事务日志(mirror cluster用同样的方式将editLog同步给primary cluster,达到日志同步的效果)。

即,primary cluster和mirror cluster两个集群通过sharedJournal实现共享日志数据,用以达到数据实时同步的效果。

在一些实施例中,sharedJournal可由多个journalNode组成,优选为三个。即,由三个journalNode组成;所述journalNode可用于存放EditLog。

在一些实施例中,通过data pipeline(数据管道)的传输方式实现primarycluster和mirror cluster之间的数据文件同步。

在一些实施例中,在primary cluster和mirror cluster中,各自的dataNode仅向各自的nameNode汇报位置及状态信息。

在一些实施例中,primary cluster和mirror cluster的yarn资源调度相互独立,以避免在资源计算时出现夸机房网络IO。

根据本公开的实施例,实现了以下技术效果:

基于hadoop框架的主集群,构建hadoop框架的镜像集群,通过sharedJournal共享日志数据,达到了数据实时同步的效果。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。

图3示出了根据本申请的实施例的基于hadoop的异地双活容灾装置300的方框图如图3所示,装置300包括:

构建模块310,用于基于hadoop框架的主集群,构建与其对应的基于hadoop框架的镜像集群;所述主集群和镜像集群分布在不同的机房,并保持心跳;

同步模块320,用于通过异步的方式,同步所述主集群和镜像集群间的日志和数据文件。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

图4示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。

如图4所示,终端设备或服务器400包括中央处理单元(CPU)401,其可以根据存储在只读存储器(ROM)402中的程序或者从存储部分408加载到随机访问存储器(RAM)403中的程序而执行各种适当的动作和处理。在RAM 403中,还存储有系统400操作所需的各种程序和数据。CPU 401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

以下部件连接至I/O接口405:包括键盘、鼠标等的输入部分406;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分407;包括硬盘等的存储部分408;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分409。通信部分409经由诸如因特网的网络执行通信处理。驱动器410也根据需要连接至I/O接口405。可拆卸介质411,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器410上,以便于从其上读出的计算机程序根据需要被安装入存储部分408。

特别地,根据本申请的实施例,上文方法流程步骤可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分409从网络上被下载和安装,和/或从可拆卸介质411被安装。在该计算机程序被中央处理单元(CPU)401执行时,执行本申请的系统中限定的上述功能。

需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号