首页> 中国专利> 一种数据恢复的控制方法、节点、控制装置及容灾系统

一种数据恢复的控制方法、节点、控制装置及容灾系统

摘要

本发明提供了一种数据恢复的控制方法、节点、控制装置及容灾系统。所述控制方法包括:在所述恢复数据的过程中,控制装置收集地区间数据传输的性能指标;所述控制装置根据所述性能指标,判断地区间网络的拥塞程度;在所述拥塞程度超出预定的拥塞控制门限时,所述控制装置减少所述第一地区中同时通过地区间网络恢复数据的节点的数量。本发明能够在数据恢复过程中合理利用地区间的网络带宽,能够避免因网络拥塞恶化数据传输效率,从而减少容灾恢复过程所需时间。

著录项

  • 公开/公告号CN102143000A

    专利类型发明专利

  • 公开/公告日2011-08-03

    原文格式PDF

  • 申请/专利权人 中兴通讯股份有限公司;

    申请/专利号CN201110081138.5

  • 发明设计人 姬庆发;

    申请日2011-03-31

  • 分类号H04L12/24(20060101);G06F11/14(20060101);

  • 代理机构11243 北京银龙知识产权代理有限公司;

  • 代理人黄灿;姜精斌

  • 地址 518057 广东省深圳市南山区高新技术产业园科技南路中兴通讯大厦法务部

  • 入库时间 2023-12-18 03:04:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-06-03

    授权

    授权

  • 2012-09-05

    实质审查的生效 IPC(主分类):H04L12/24 申请日:20110331

    实质审查的生效

  • 2011-08-03

    公开

    公开

说明书

技术领域

本发明涉及数据容灾技术领域,具体涉及一种数据恢复的控制方法、节点、控制装置及容灾系统。

背景技术

为了提高数据的安全性,现有技术已广泛采用冗余备份的容灾系统。以用户数据为例,伴随通信网络技术发展和运营需求,在不同时期为了实现不同的业务,或完成不同的用途,运营商部署了很多的网元,而这些网元里都有各种各样的用户数据(User Data),这使运营商越来越难以发布新的业务,甚至管理这些数据也更加困难。为此,业界提出了统一用户数据模型的概念,即将同一用户分布在不同网元上的数据融合起来,存储在统一的用户数据存储网元:用户数据集中(UDC,User Data Convergence)节点。在这种实现方式下,不同网元/网络中的用户数据开放并共享为用户带来统一的用户体验。用户数据的集中存放和管理对数据的安全性的要求也随之提上日程,因此UDC在设计中充分的考虑了数据的冗余的因素并引入了地理级容灾特性。

在地理级容灾中,UDC节点中存放的用户数据将分布在多个地区且每个地区中可以同时保留数据的多个备份。当一个地区的设备出现损坏并被修复后,该地区的所有节点可以通过地区间的网络从其它正常地区的节点处恢复数据,完成容灾恢复过程。请参照图1,为现有技术的容灾恢复过程的示意图,假设第一地区的所有节点设备出现损坏,第一地区的每个节点设备在被修复后,都将会向第二地区的对应的节点发起数据恢复,从而在第一、第二地区之间可能同时存在6个数据恢复进程P1~P6。

地理级的容灾虽然有效的解决了因地理灾害和设备损坏而引起的业务中断,但由于引入了地区间数据恢复的机制以及运营商对容灾恢复时间的要求,这项技术对地区间传输网络的带宽、时延等参数提出了很高要求,这些要求往往超过了现网可提供的网络资源。

由于网络资源的限制加之故障恢复过程中需要进行数据恢复的所有节点都同时发起的容灾恢复过程,导致节点之间对有限带宽资源的激烈争抢,加剧了数据传输的时延、导致上层应用在数据在传输过程中出现超时并不断重传,最终恶化数据传输效率,进一步增加了容灾恢复过程的耗时。

发明内容

本发明所要解决的技术问题是提供一种数据恢复的控制方法、节点、控制装置及容灾系统,用以在数据恢复过程中合理利用地区间的网络带宽。

为解决上述技术问题,本发明提供方案如下:

一种数据恢复的控制方法,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接,所述控制方法包括:

在所述恢复数据的过程中,控制装置收集地区间数据传输的性能指标;

所述控制装置根据所述性能指标,判断地区间网络的拥塞程度;

在所述拥塞程度超出预定的拥塞控制门限时,所述控制装置减少所述第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述的控制方法,还包括:

在所述拥塞程度未超出所述拥塞控制门限时,所述控制装置增加第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述的控制方法中,

所述减少第一地区中同时通过地区间网络恢复数据的节点的数量包括:

所述控制装置根据各个节点对应的数据,将第一地区的节点划分成一个以上的节点组合,其中,每个节点组合中仅包括用于存储相同数据的节点;

所述控制装置判断所述节点组合中是否存在两个以上的、同时通过地区间网络恢复数据的节点;

在所述节点组合中存在两个以上的、同时通过地区间网络恢复数据的节点时,仅允许所述节点组合中的一个节点通过地区间网络恢复数据,中止所述节点组合中的其它节点通过地区间网络恢复数据。

优选地,上述的控制方法中,

所述减少第一地区中同时通过地区间网络恢复数据的节点的数量还包括:

在每个所述节点组合中通过地区间网络恢复数据的节点数量不多于1个时,所述控制装置更新地区间同时进行数据复制的节点的配额的数量,所述配额的数量小于所述第一地区中当前通过地区间网络恢复数据的节点的数量;

所述控制装置将所述配额授权给所述第一地区中对应数量的节点;

所述控制装置仅允许所述第一地区中获得配额授权的节点继续通过地区间网络恢复数据,中止所述第一地区中未获得配额授权的节点通过地区间网络恢复数据。

优选地,上述的控制方法中,还包括:

在所述节点组合中存在已完成数据恢复的节点后,控制所述节点组合中尚未完成数据恢复的节点通过地区内部网络,从所述已完成数据恢复的节点处恢复数据。

本发明还提供了一种数据恢复的控制装置,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接,所述控制装置包括:

收集单元,用于在所述恢复数据的过程中,收集地区间数据传输的性能指标;

第一判断单元,用于根据所述性能指标,判断地区间网络的拥塞程度;

第一控制单元,用于在所述拥塞程度超出预定的拥塞控制门限时,减少第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述的控制装置中,还包括:

第二控制单元,用于在所拥塞程度未超出所述拥塞控制门限时,增加第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述的控制装置中,所述第一控制单元包括:

划分单元,用于根据各个节点对应的数据,将第一地区的节点划分成一个以上的节点组合,其中,每个节点组合中仅包括用于存储相同数据的节点;

第二判断单元,用于判断所述节点组合中是否存在两个以上的、同时通过地区间网络恢复数据的节点;

第一处理单元,用于在所述节点组合中存在两个以上的、同时通过地区间网络恢复数据的节点时,仅允许所述节点组合中的一个节点通过地区间网络恢复数据,中止所述节点组合中的其它节点通过地区间网络恢复数据。

优选地,上述的控制装置中,所述第一控制单元还包括:

更新单元,用于在每个所述节点组合中通过地区间网络恢复数据的节点数量不多于1个时,更新地区间同时进行数据复制的节点的配额的数量,所述配额的数量小于所述第一地区中当前通过地区间网络恢复数据的节点的数量;

授权单元,用于将所述配额授权给所述第一地区中对应数量的节点;

第二处理单元,用于仅允许所述第一地区中获得配额授权的节点继续通过地区间网络恢复数据,中止所述第一地区中未获得配额授权的节点通过地区间网络恢复数据。

本发明还提供了一种容灾系统,包括:

设置在第一地区的节点和设置在第二地区的节点;

其中,同一地区的节点间通过地区内部网络连接,不同地区的节点间通过地区间网络连接;

所述容灾系统还包括以上所述的控制装置。

本发明还提供了另一种数据复制的控制方法,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接,所述控制方法包括:

所述第一地区中的第一节点,在通过地区间网络从第二地区的节点处恢复数据时,监测数据恢复过程中的数据传输的性能指标;

所述第一节点向控制装置发送所述性能指标,以使得所述控制装置基于各个节点发送的所述性能指标,判断地区间网络的拥塞程度,并在所述拥塞程度超出预定的拥塞控制门限时,减少所述第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述的控制方法中还包括:

所述第一节点接收所述控制装置下发的第一控制命令,所述第一控制命令指示仅允许第一节点组合中的一个节点通过地区间网络恢复数据,所述第一节点组合是所述第一节点所属的节点组合,且所述第一节点组合中仅包括第一地区中用于存储相同数据的节点;

所述第一节点根据所述第一控制命令,保持或中止本节点通过地区间网络恢复数据的过程。

优选地,上述的控制方法中,

在中止本节点通过地区间网络恢复数据的过程后,所述第一节点进一步判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点;

在所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,所述第一节点向所述控制装置申请进行异地恢复数据的许可,并在获得许可后,通过所述地区间网络进行数据恢复。

优选地,上述的控制方法中还包括:

所述第一节点接收所述控制装置下发的第二控制命令,所述第二控制命令指示仅允许获得配额授权的节点通过地区间网络恢复数据;

在中止本节点通过地区间网络恢复数据的过程后,所述第一节点判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点;

在所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,所述第一节点向所述控制装置申请进行异地恢复数据的配额,并在获得配额授权后,通过所述地区间网络进行数据恢复。

优选地,上述的控制方法中

在判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点之前,所述第一节点进一步判断所述第一节点组合中是否存在已完成数据恢复的节点;

在所述第一节点组合中存在已完成数据恢复的节点时,所述第一节点通过地区内部网络,从所述已完成数据恢复的节点处恢复数据;

在所述第一节点组合中不存在已完成数据恢复的节点时,所述第一节点判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点。

本发明还提供了一种第一节点,所述第一节点设置在第一地区中,所述第一节点包括:

监测单元,用于在本节点通过地区间网络从第二地区的节点处恢复数据时,监测数据恢复过程中的数据传输的性能指标;

上报单元,用于向控制装置发送所述性能指标,以使得所述控制装置基于各个节点发送的所述性能指标,判断地区间网络的拥塞程度,并在所述拥塞程度超出预定的拥塞控制门限时,减少第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述的第一节点中,还包括:

第一接收单元,用于接收所述控制装置下发的第一控制命令,所述第一控制命令指示仅允许第一节点组合中的一个节点通过地区间网络恢复数据,所述第一节点组合是所述第一节点所属的节点组合,且所述第一节点组合中仅包括第一地区中用于存储相同数据的节点;

第一控制单元,用于根据所述第一控制命令,保持或中止本节点通过地区间网络恢复数据的过程。

优选地,上述的第一节点中,还包括:

第一判断单元,用于在所述第一控制单元中止本节点通过地区间网络恢复数据的过程后,判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点;

第一处理单元,用于在所述第一判断单元判断所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,向所述控制装置申请进行异地恢复数据的许可,并在获得许可后,通过所述地区间网络进行数据恢复。

优选地,上述的第一节点中,还包括:

第二接收单元,用于接收所述控制装置下发的第二控制命令,所述第二控制命令指示仅允许获得配额授权的节点通过地区间网络恢复数据;

第二控制单元,用于根据所述第二控制命令,保持或中止本节点通过地区间网络恢复数据的过程;

第二判断单元,用于在所述第二控制单元中止本节点通过地区间网络恢复数据的过程后,判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点;

第二处理单元,用于在所述第二判断单元判断所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,向所述控制装置申请进行异地恢复数据的配额,并在获得配额授权后,通过所述地区间网络进行数据恢复。

优选地,上述的第一节点中,还包括:

第三判断单元,用于判断所述第一节点组合中是否存在已完成数据恢复的节点;

第三处理单元,用于在所述第一节点组合中存在已完成数据恢复的节点时,通过地区内部网络,从所述已完成数据恢复的节点处恢复数据。

从以上所述可以看出,本发明提供的数据恢复的控制方法、节点、控制装置及容灾系统,基于拥塞状态动态调节地区间恢复进程的数量,在地区间网络出现拥塞时,减少通过地区间网络进行数据恢复的节点的数量,从而数据恢复过程中合理利用地区间的网络带宽,能够避免因网络拥塞恶化数据传输效率,从而减少容灾恢复过程所需时间。

附图说明

图1为现有技术的容灾恢复过程的示意图;

图2为本发明实施例提供的一种数据恢复的控制方法的示意图;

图3为本发明实施例中一种数据恢复的示意图;

图4为本发明实施例中另一种数据恢复的示意图;

图5为本发明实施例提供的控制装置的结构示意图;

图6为本发明实施例提供的数据恢复的控制方法的详细流程图;

图7为本发明实施例中在启用“全部节点并行从异地恢复数据”的恢复策略时节点从异地恢复数据的流程图;

图8为本发明实施例中在启用“节点组合间并行从异地恢复数据”的恢复策略时节点从异地恢复数据的流程图;

图9为本发明实施例在采用配额管理方式时,节点在恢复数据成功后系统的判断流程图。

具体实施方式

本发明通过在地区间的容灾恢复过程中对数据传输性能进行监测,在网络拥塞时减少地区间同时并发的数据恢复的进程数量,从而实现对地区间网络带宽资源的合理利用。以下将结合附图,通过具体实施例对本发明做进一步的说明。

实施例一

本发明实施例所述的数据恢复的控制方法,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接。本实施例中还包括一控制装置,所述控制装置与各个地区的节点都能够进行通信,所述控制装置可以设置在任一地区中。

本实施例中,地区间网络可以采用因特网等公共网络,地区内部网络可以采用以太网等局域网络。通常,地区间网络的带宽小于地区内部网络的带宽,或者,在具有相同带宽时,地区间网络比地区内部网络需要付出更多费用。因此,对于同样的带宽,地区间网络比地区内部网络需要付出更多的代价,地区间的网络资源通常更为有限。

本实施例从控制装置的角度来说明本发明是如何实施的。

请参照图2,本发明实施例提供的一种数据恢复的控制方法,包括以下步骤:

步骤21,在所述恢复数据的过程中,控制装置收集地区间数据传输的性能指标。

这里,由控制装置来收集性能指标,具体收集方式可以是控制装置周期性地向各个节点去查询,或者是各个节点周期性地主动向控制装置上报,由控制装置汇总上报的性能指标。所述性能指标具体可以是地区间数据传输时的时延或丢包率等参数。

步骤22,所述控制装置根据所述性能指标,判断地区间网络的拥塞程度。

这里,地区间网络的拥塞程度包括出现拥塞和未出现拥塞(包括从拥塞恢复正常)等状况,在出现拥塞时还可以根据拥塞的严重程度进一步分成多个级别的拥塞。其中判断拥塞程度的方式有多种:

例如,可以在第一地区和第二地区之间的网络正常时,预定统计得到地区间数据传输的时延范围,然后,控制装置基于收集到的性能指标,判断地区间数据传输的时延是否已超出上述时延范围的最大值(也可以在上述时延范围中的最大值的基础上增加一个额外的富余量得到一个时延门限值),在时延超过上述最大值或时延门限值时,判断地区间网络出现拥塞;否则,判断地区间网络未出现拥塞,处于正常状态。

再例如,可以预先设置一个丢包率的门限值,然后,控制装置基于收集到的性能指标,判断地区间数据传输的丢包率是否超过该门限值,若是,则判断地区间网络出现拥塞;否则,判断地区间网络正常。

再例如,还可以综合考虑时延和丢包率来制定不同的判断策略,在丢包率和时延任一参数超过对应的门限时,即判断地区间网络出现拥塞。

判断地区间网络的拥塞状态恢复正常,则可以采用与以上判断方式相反的判断标准即可,此处不再赘述。

步骤23,在所述拥塞程度超出预定的拥塞控制门限时,所述控制装置减少所述第一地区中同时通过地区间网络恢复数据的节点的数量。

可以看出,本实施例动态调节地区间恢复进程的数量,在地区间网络出现拥塞时,减少通过地区间网络进行数据恢复的节点的数量,从而数据恢复过程中合理利用地区间的网络带宽,能够避免因网络拥塞恶化数据传输效率,从而减少容灾恢复过程所需时间。

本实施例所述的数据恢复的控制方法,在所述地区间的网络未出现拥塞(如网络一直正常或者网络从拥塞恢复为正常)时,还可以包括以下步骤:

步骤24,在所述拥塞程度未超出所述拥塞控制门限时,所述控制装置增加第一地区中同时通过地区间网络恢复数据的节点的数量。

这里的拥塞控制门限可以是根据网络实际应用环境所确定的一个数值,还可以是一个数值的范围,在拥塞程度低于该范围的下限时,可以执行上述步骤24;在拥塞程度高于该范围的上限时,可以执行上述步骤23。

另外,由于拥塞控制门限是本实施例自行设置的一个数值或范围,因此本实施例可以将该门限设置的比较低,即在网络实际未出现拥塞时,即启动拥塞控制过程,执行上述步骤23,减少所述第一地区中同时通过地区间网络恢复数据的节点的数量,这样可以为剩余的通过地区间网络恢复数据的节点提供更高的带宽,以加快这些节点的恢复速度。

可以看出,本实施例在所述地区间的网络恢复正常时,所述控制装置增加第一地区中同时通过地区间网络恢复数据的节点的数量,以充分利用地区间带宽,加快数据恢复过程。

以下参照图3和图4,说明上述步骤23中可以采用的减少节点数量的方式。

请参照图3,完整数据包括数据1~3共三个部分,第一地区同时保留完整数据的两个备份,其中,节点11~13分别用于存储数据1~数据3,形成一个数据备份;节点14~16分别用于存储数据1~数据3,形成另一个数据备份。第二地区的节点21~23分别用于存储数据1~数据3,形成一个数据备份。

假设第一地区的所有节点设备都出现损坏(这里仅是举例说明,本实施例并不要求第一地区的所有节点设备都出现损坏,在部分节点设备出现损坏时本实施例仍然适用)。在这些节点被修复后,将会同时通过第一、第二地区间的网络,从第二地区中对应的节点处恢复数据,以进行数据恢复。本实施例中,控制装置周期性地判断地区间网络是否出现拥塞,如果控制装置判断出地区间网络出现拥塞,那么控制装置可以通过以下步骤来减少同时通过地区间网络恢复数据的节点的数量:

步骤231,所述控制装置根据各个节点对应的数据,将第一地区的节点划分成一个以上的节点组合,其中,每个节点组合中仅包括用于存储相同数据的节点。

例如,在图3中,可以将用于存储数据1的节点11和节点14划分到节点组合1,将用于存储数据2的节点12和节点15划分到节点组合2,将用于存储数据3的节点13和节点16划分到节点组合3。

步骤232,所述控制装置判断所述节点组合中是否存在两个以上的、同时通过地区间网络恢复数据的节点。

这里,节点可以将自己当前状态上报给控制装置,或者控制装置主动去查询各个节点的状态,从而控制装置能够实时获得各个节点的状态,包括节点是否正在通过地区间网络恢复数据,节点是否已经完成数据恢复等。

步骤233,在所述节点组合中存在两个以上的、同时通过地区间网络恢复数据的节点时,仅允许所述节点组合中的一个节点通过地区间网络恢复数据,中止所述节点组合中的其它节点通过地区间网络恢复数据。

这里,在上述步骤232中判断出每个节点组合中的所有两个节点都在同时通过地区间网络恢复数据,可以在步骤233中中止节点组合中的一个节点通过地区间网络进行数据恢复,而仅允许其中一个节点通过地区间网络进行数据恢复。例如,控制装置可以向节点发送一第一控制命令,所述第一控制命令指示仅允许第一节点组合中的一个节点通过地区间网络恢复数据;这样,通过上述的第一控制命令,控制装置可以将当前地区间数据恢复的策略通知给各个节点;节点在接收到该第一控制命令后,判断是否允许本节点通过地区间网络恢复数据,进而决定继续或停止通过地区间网络进行数据恢复。

图3示出了仅允许节点组合中的一个节点通过地区间网络恢复数据的一种数据恢复的示意图,此时同时只有P10、P12、P14三个进程通过地区间网络恢复数据,在节点组合内部有1个节点完成数据恢复后,由进程P11、P13、P15,通过地区内部网络进行数据恢复。

这样,可以同时并发的通过地区间网络进行数据恢复的进程减少一半,从而可以大大减少数据恢复对地区间网络带宽的占用,提高地区间网络的数据传输效率。

在上述步骤233之后,虽然每个节点组合中最多只有1个节点通过地区间网络恢复数据,但仍然存在地区间网络依然拥塞的可能。控制装置通过周期性地监测判断地区间网络出现拥塞,并在通过以上步骤232判断出每个所述节点组合中通过地区间网络恢复数据的节点数量不多于1个,此时,本实施例还可以进一步通过以下步骤,来缓解地区间网络的拥塞程度:

步骤234,在每个所述节点组合中通过地区间网络恢复数据的节点数量不多于1个时,所述控制装置更新地区间同时进行数据复制的节点的配额的数量,所述配额的数量小于所述第一地区中当前通过地区间网络恢复数据的节点的数量。

这里,控制装置在发现每个所述节点组合中通过地区间网络恢复数据的节点数量不多于1个时,需要对配额的数据进行更新(在初次确定配额时,可以根据网络拥塞程度,设置一个初始的配额数量,该初始的配额数量要小于节点组合的数量),使得更新后的配额数量进一步减少。可以根据网络的拥塞程度不同,来确定当前需要减少的数额,在拥塞程度严重时,减少的数额较大;反之在拥塞程度不太严重时,减少的数额较小。

这里,所述控制装置还可以通过向节点发送一第二控制命令,所述第二控制命令指示仅允许获得配额授权的节点通过地区间网络恢复数据;这样,通过上述的第二控制命令,控制装置可以将当前地区间数据恢复的策略通知给各个节点;节点在接收到该第二控制命令后,判断本节点是否获得配额,进而决定继续或停止通过地区间网络进行数据恢复。

步骤235,所述控制装置将所述配额授权给所述第一地区中对应数量的节点。

这里,具体的授权方式可以是控制装置直接选定节点并给予授权,或者是由节点主动申请配额,控制装置在接收到申请后,根据当前剩余配额数量,来决定是否予以授权。

步骤236,所述控制装置仅允许所述第一地区中获得配额授权的节点继续通过地区间网络恢复数据,中止所述第一地区中未获得配额授权的节点通过地区间网络恢复数据。

这里,控制装置通过向未获得授权的节点发送一个中止指令,该节点在接收到该中止指令后,停止通过地区间网络进行数据恢复,从而中止第一地区中未获得配额授权的节点通过地区间网络恢复数据。

图4示出了配额管理后的一种恢复数据的示意图,假设配额数量为1,则地区之间同时仅允许一个进程恢复数据,依次为P21、P23和P25,在上一进程是否配额后,才开始下一进程。地区内部可以通过内部网络进行数据恢复。

通过上述步骤,本实施例可以进一步对网络拥塞进行缓解,改善地区间数据的传输效率。

本实施例中,控制装置根据收集到的节点状态信息,在节点组合中存在已完成数据恢复的节点时,控制所述节点组合中尚未完成数据恢复的节点通过地区内部网络,从所述已完成数据恢复的节点处恢复数据。这样可以充分利用带宽资源更充足的地区内部网络进行数据恢复,减少地区间数据恢复的数据量,提高数据恢复速度,减少容灾恢复所需时间。

从以上所述可以看出:

本实施例在地区间网络带宽充足的条件下,优先采用所有节点并行的恢复策略,以达到最快的恢复效果,缩短故障恢复的时间。

当网络带宽存在瓶颈时,本实施例采用节点组合之间并行,组合内分批恢复的策略,极大的减少了地区间IP网络带宽资源的占用以及各个节点恢复过程中对IP带宽资源的争抢。由于保证了每个数据节点组合中均有一个节点优先完成数据恢复并在恢复完成后立即投入运行,因此本流程的故障恢复时间与网络充足条件下的故障恢复时间相同,但极大的减少了地区间网络带宽的需求。

当网络带宽无法满足上述两种场景,本实施例将采用配额管理的方式动态调整节点组合之间的并发性,从而减少地区间带宽资源占用冲突、缩短数据恢复时间。与上述两种场景相比,采用配额的恢复管理方式能够最大限度的适用地区间网络带宽资源,在效率与实际有效带宽之间达到平衡。

基于以上的数据恢复的控制方法,本实施例还提供了一种数据恢复的控制装置,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接,请参照图5,所述控制装置包括:

收集单元,用于在所述恢复数据的过程中,收集地区间数据传输的性能指标;

第一判断单元,用于根据所述性能指标,判断地区间网络的拥塞程度;

第一控制单元,用于在所述拥塞程度超出预定的拥塞控制门限时,减少第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述控制装置还包括:

第二控制单元,用于在所拥塞程度未超出所述拥塞控制门限时,增加第一地区中同时通过地区间网络恢复数据的节点的数量。

具体的,所述第一控制单元具体包括:

划分单元,用于根据各个节点对应的数据,将第一地区的节点划分成一个以上的节点组合,其中,每个节点组合中仅包括用于存储相同数据的节点;

第二判断单元,用于判断所述节点组合中是否存在两个以上的、同时通过地区间网络恢复数据的节点;

第一处理单元,用于在所述节点组合中存在两个以上的、同时通过地区间网络恢复数据的节点时,仅允许所述节点组合中的一个节点通过地区间网络恢复数据,中止所述节点组合中的其它节点通过地区间网络恢复数据。

更进一步的,所述第一控制单元还包括:

更新单元,用于在每个所述节点组合中通过地区间网络恢复数据的节点数量不多于1个时,更新地区间同时进行数据复制的节点的配额的数量,所述配额的数量小于所述第一地区中当前通过地区间网络恢复数据的节点的数量;

授权单元,用于将所述配额授权给所述第一地区中对应数量的节点;

第二处理单元,用于仅允许所述第一地区中获得配额授权的节点继续通过地区间网络恢复数据,中止所述第一地区中未获得配额授权的节点通过地区间网络恢复数据。

优选地,所述第一控制单元还包括:

第三处理单元,用于在所述节点组合中存在已完成数据恢复的节点后,控制所述节点组合中尚未完成数据恢复的节点通过地区内部网络,从所述已完成数据恢复的节点处恢复数据。

本实施例还提供一种容灾系统,该容灾系统包括:

设置在第一地区的节点、设置在第二地区的节点和如上文所述的控制装置;

其中,同一地区的节点间通过地区内部网络连接,不同地区的节点间通过地区间网络连接;

其中,所述控制装置包括:

收集单元,用于在所述恢复数据的过程中,收集地区间数据传输的性能指标;

第一判断单元,用于根据所述性能指标,判断地区间网络的拥塞程度;

第一控制单元,用于在所述拥塞程度超出预定的拥塞控制门限时,减少第一地区中同时通过地区间网络恢复数据的节点的数量。

其中,所述第一控制单元具体结构如上文所述,此处不再赘述。

实施例二

本发明实施例所述的数据恢复的控制方法,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接。本实施例中还包括一控制装置,所述控制装置与各个地区的节点都能够进行通信,所述控制装置可以设置在任一地区中。

本实施例从第一地区的一个节点(为描述方便,以下称该节点为第一节点)的角度来说明本发明是如何实施的。

本发明实施例提供的一种数据恢复的控制方法,包括以下步骤:

步骤301,所述第一地区中的第一节点,在通过地区间网络从第二地区的节点处恢复数据时,监测数据恢复过程中的数据传输的性能指标;

步骤302,所述第一节点向控制装置发送所述性能指标,以使得所述控制装置基于各个节点发送的所述性能指标,判断地区间网络的拥塞程度,并在所述拥塞程度超出预定的拥塞控制门限时,减少所述第一地区中同时通过地区间网络恢复数据的节点的数量。

上述性能指标,还使得所述控制装置在基于所述性能参数判断出所述地区间网络未出现拥塞时,增加第一地区中同时通过地区间网络恢复数据的节点的数量。

这样,控制装置可以根据收集到的性能指标,在地区间网络拥塞时,通过减少第一地区中同时通过地区间网络恢复数据的节点的数量,来改善拥塞程度,提高地区间网络的数据传输效率。

本实施例中,第一节点还可以根据控制装置下发的控制命令,获取系统中当前采用的地区间数据恢复的策略,进而决定是否通过地区间网络恢复数据。此时,本实施例还可以包括以下步骤:

步骤311,所述第一节点接收所述控制装置下发的第一控制命令,所述第一控制命令指示仅允许第一节点组合中的一个节点通过地区间网络恢复数据,所述第一节点组合是所述第一节点所属的节点组合,且所述第一节点组合中仅包括第一地区中用于存储相同数据的节点;

步骤312,所述第一节点根据所述第一控制命令,保持或中止本节点通过地区间网络恢复数据的过程。

在上述步骤312之后,如果第一节点组合中没有通过地区间网络进行数据恢复的其它节点,则第一节点还可以向控制装置申请许可,以便于在获得许可后通过地区间网络恢复数据。此时,本实施例还可以包括以下步骤:

步骤313,在中止本节点通过地区间网络恢复数据的过程后,所述第一节点进一步判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点。

步骤314,在所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,所述第一节点向所述控制装置申请进行异地恢复数据的许可,并在获得许可后,通过所述地区间网络进行数据恢复。

步骤315,在所述第一节点组合中存在正在通过地区间网络进行数据恢复的第二节点时,所述第一节点可以进入等待状态,直到第二节点完成数据恢复后,可以通过地区内部网络从第二节点处恢复数据。当然,如果地区间带宽允许的话,在第二节点完成数据恢复并且第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,第一节点也可以通过地区间网络进行数据恢复。

在地区间网络拥塞比较严重时,控制装置还可以通过配额方式来进一步减少能够通过地区间网络进行数据恢复的节点的数量。此时,本实施例还可以包括以下步骤:

步骤321,所述第一节点接收所述控制装置下发的第二控制命令,所述第二控制命令指示仅允许获得配额授权的节点通过地区间网络恢复数据。

这样,通过第二控制命令,控制装置将当前的地区间数据恢复的策略通知给各个节点。各个节点根据自身是否获得配额,来决定是否继续地区间的数据恢复。

步骤322,如果第一节点判断出自身并未获得配额,则会中止通过地区间网络恢复数据;在中止本节点通过地区间网络恢复数据的过程后,所述第一节点判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点。

步骤323,在所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,所述第一节点向所述控制装置申请进行异地恢复数据的配额,并在获得配额授权后,通过所述地区间网络进行数据恢复。

以上说明了第一节点申请配额来进行地区间数据恢复的过程。

上述步骤313和步骤322中,在判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点之前,所述第一节点还可以进一步判断所述第一节点组合中是否存在已完成数据恢复的节点:

如果所述第一节点组合中存在已完成数据恢复的节点,则所述第一节点可以通过地区内部网络,从所述已完成数据恢复的节点处恢复数据,以减少通过地区间网络传输的数据量;

如果所述第一节点组合中不存在已完成数据恢复的节点时,所述第一节点才进一步判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点。

基于以上的数据恢复的控制方法,本实施例还提供了一种第一节点,所述第一节点设置在第一地区中,所述第一节点具体包括:

监测单元,用于在本节点通过地区间网络从第二地区的节点处恢复数据时,监测数据恢复过程中的数据传输的性能指标;

上报单元,用于向控制装置发送所述性能指标,以使得所述控制装置基于各个节点发送的所述性能指标,判断地区间网络的拥塞程度,并在所述拥塞程度超出预定的拥塞控制门限时,减少第一地区中同时通过地区间网络恢复数据的节点的数量。

优选地,上述上报单元所上报的性能参数,还使得所述控制装置在基于所述性能参数判断出所述地区间网络未出现拥塞时,增加第一地区中同时通过地区间网络恢复数据的节点的数量。

第一节点还可以根据控制装置下发的控制命令,确定当前地区间数据恢复的策略,进而决定如何进行数据恢复。例如,在通过策略限制每个节点组合中通过地区间网络进行数据恢复的节点数量时,上述的第一节点还包括:

第一接收单元,用于接收所述控制装置下发的第一控制命令,所述第一控制命令指示仅允许第一节点组合中的一个节点通过地区间网络恢复数据,所述第一节点组合是所述第一节点所属的节点组合,且所述第一节点组合中仅包括第一地区中用于存储相同数据的节点;

第一控制单元,用于根据所述第一控制命令,保持或中止本节点通过地区间网络恢复数据的过程。

第一判断单元,用于在所述第一控制单元中止本节点通过地区间网络恢复数据的过程后,判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点;

第一处理单元,用于在所述第一判断单元判断所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,向所述控制装置申请进行异地恢复数据的许可,并在获得许可后,通过所述地区间网络进行数据恢复。

再例如,在通过策略限制能够通过地区间网络进行数据恢复的节点组合的数量(通过授权配额进行限制)时,上述的第一节点还包括:

第二接收单元,用于接收所述控制装置下发的第二控制命令,所述第二控制命令指示仅允许获得配额授权的节点通过地区间网络恢复数据;

第二控制单元,用于根据所述第二控制命令,保持或中止本节点通过地区间网络恢复数据的过程;

第二判断单元,用于在所述第二控制单元中止本节点通过地区间网络恢复数据的过程后,判断所述第一节点组合中是否存在通过地区间网络进行数据恢复的节点;

第二处理单元,用于在所述第二判断单元判断所述第一节点组合中没有正在通过地区间网络进行数据恢复的节点时,向所述控制装置申请进行异地恢复数据的配额,并在获得配额授权后,通过所述地区间网络进行数据恢复。

为了尽可能地利用地区内部网络进行数据恢复,上述的第一节点还包括:

第三判断单元,用于判断所述第一节点组合中是否存在已完成数据恢复的节点;

第三处理单元,用于在所述第一节点组合中存在已完成数据恢复的节点时,通过地区内部网络,从所述已完成数据恢复的节点处恢复数据。

以上两个实施例分别从控制装置的角度和第一节点的角度说明了本发明的具体实施。为了帮助从整体上进一步了解本发明的内容,以下实施例通过方法整体流程图和部分流程的细化图,对本发明的具体实施进行说明。

实施例三

本实施例以UDC系统为例,仍然是第一地区的节点从第二地区的节点处进行数据恢复的过程。本实施例基于地区间网络的拥塞程度,动态调整地区间数据恢复的策略:

本发明实施例所述的数据恢复的控制方法,应用于第一地区的节点从第二地区的节点处恢复数据的过程中,其中,同一地区的节点之间通过地区内部网络连接,不同地区的节点之间通过地区间网络连接。本实施例中还包括一控制装置,所述控制装置与各个地区的节点都能够进行通信,所述控制装置可以设置在任一地区中。本发明实施例提供的一种数据恢复的控制方法,包括以下步骤:

步骤41,在所述恢复数据的过程开始时,控制第一地区的需要进行数据复制的所有节点,都通过地区间网络从第二地区对应的节点处恢复数据。即,本实施例启动数据恢复时,默认采用所有节点都从异地并发的数据恢复策略,以减少数据恢复时间。

步骤42,在所述恢复数据的过程中,控制装置收集地区间数据传输的性能指标,并根据所述性能指标,判断地区间网络是否出现拥塞:

如未出现拥塞,则保持当前的数据恢复策略,即采用所有节点都从异地并发的数据恢复策略;

如出现拥塞,则减少所述第一地区中同时通过地区间网络恢复数据的节点的数量,以在地区间网络带宽不足时采用优化的地区间数据恢复策略,从而高效利用有限带宽条件,达到较好的数据恢复效果。

在减少所述第一地区中同时通过地区间网络恢复数据的节点的数量后,本实施例仍然监测地区间拥塞情况,如果地区间拥塞消除,本实施例还可以进一步增加通过地区间网络恢复数据的节点的数量,例如,在启用“节点组合间并行从异地恢复数据”或“通过配额限制节点组合间并发的恢复过程的数量”的数据恢复策略下,如果地区间拥塞消除,则可以增加1或2个地区间并发恢复的进程。

下面结合图6对上述数据恢复的控制方法及其采用的数据恢复策略作进一步的详细描述。

图6是本实施例所涉及的针对网络带宽性能选择合适恢复策略的流程图。其具体步骤如下:

步骤401:UDC系统(具体可以由控制装置执行)定时启动对容灾恢复状态的检查,如果第一地区从故障后恢复需要通过IP网络从异地(如第二地区)的节点处恢复数据则进入步骤402,否则结束本流程。

步骤402:UDC系统在发起恢复流程前需要判断第一地区的恢复状态:如果当前地区还未发起恢复流程,则按照设计优先采用节点并行从异地恢复数据的恢复策略;如果第一地区已发起恢复流程则需要进一步判断当前网络的带宽性能以决定采用何种恢复策略。

步骤403:第一地区尚未进入恢复流程,UDC系统设置第一地区的恢复状态为“开始恢复”,并采用全部节点并行从异地恢复数据的恢复策略从异地节点恢复数据,即第一地区的所有节点都从异地并发恢复数据。

步骤404:由于第一地区已启动恢复流程,UDC系统在恢复过程中需要收集用户数据包传输过程中的性能参数,如时间延迟与超时信息,作为后续选择恢复策略的依据。

步骤405:UDC系统基于性能参数判断地区间网络是否拥塞,并且超过预定的拥塞控制门限,具体可以通过检查当前收集的时延信息是否与网络空闲时的时延有显著恶化,或频繁出现消息投递超时:若未出现网络质量恶化情况,则保持现有的恢复策略直到完成恢复过程,否则需要执行进一步的恢复策略调整。

步骤406:UDC系统在执行恢复策略调整前,需要确定当前已生效的恢复策略:

如果当前执行的恢复策略为全部节点并行从异地恢复数据,则调整恢复策略为节点组合间并行从异地恢复数据,然后进入步骤407执行,其中,节点组合间并行从异地恢复数据的恢复策略是指所有节点组合均并行从异地恢复数据,但在同一时刻每个节点组合中只能有一个节点从异地恢复数据;

如果当前执行的恢复策略为节点组合间并行从异地恢复数据,则调整恢复策略为:通过配额限制节点组合间并发的恢复过程的数量,进入步骤409执行,其中,通过配额限制节点组合间并发的恢复过程的数量的恢复策略是指在同一时刻允许每个节点组合中最多一个获得配额的节点从异地恢复数据,且配额的数量小于节点组合的数量;

如果当前执行的恢复策略为通过配额限制节点组合间并发的恢复过程的数量,则需要考虑强行回收已分配的配额,以减少并发数量,降低地区间带宽的占用,进入步骤411执行。

步骤407:中止正在执行的所有恢复过程并启用节点组合间并行从异地恢复数据的恢复策略。

步骤408:UDC系统构建节点组合,根据节点中存储的数据将本地区所有节点划分到不同的节点组合,每个组合当中仅有一个节点被赋予许可,能够通过地区间IP网络恢复数据,剩余节点均进入等待状态。当获得许可的节点完成数据恢复后,剩余节点使用地区内部网路从该节点恢复数据。所有节点数据恢复结束后容灾恢复流程结束。当然,这里也可以让每个节点组合中各个节点依次从异地恢复数据,但每个节点组合中同时最多只能1个节点从异地恢复数据。

步骤409:UDC系统切换恢复策略为通过配额限制节点组合间并发的恢复过程的数量时,将配置的配额数量授权给对应数量的节点,每个节点组合中同时最多只能有1个节点获得授权。获得配额授权的节点组合保持当前的恢复流程。

步骤410:UDC系统将强行中止未获得配额的节点组合发起的恢复流程,被强行中止恢复流程的节点组合将进入等待状态,直到已获得配额的节点组合完成异地恢复过程释放配额为止。

步骤411:在极端网路带宽下,UDC系统配置的配额数量已超过当前地区间带宽支持的最大数量。此时由于节点组合之间的并发访问导致网络质量继续恶化,UDC系统需要启动进一步优化动态缩减系统支持的最大配额数量:每次强行回收一个配额,被回收配额的节点组合将立即中止异地恢复流程释放带宽资源。系统将持续进行优化,直到系统可用的配额数量减少到1或系网络质量恢复正常为止。

请参照图7,图7是本实施例中在启用“全部节点并行从异地恢复数据”的恢复策略时节点从异地恢复数据的流程图,其具体步骤如下:

步骤501:在“全部节点并行从异地恢复数据”的恢复策略下,UDC系统不对节点的恢复行为作出任何限制,所有节点均可向异地可用节点发起恢复请求。在恢复过程中节点需要收集恢复数据传送过程中出现的时延与超时信息以供后续优化调整使用。

请参照图8,图8是本实施例中在启用“节点组合间并行从异地恢复数据”的恢复策略时节点从异地恢复数据的流程图,其具体步骤如下:

步骤601:在使用节点组合间并行从异地恢复数据的恢复策略时,节点在发起恢复前首先检查所在节点组合中是否存在可以作为恢复数据源的节点,如果存在,则通过地区内部的网路从该节点恢复数据,进入步骤603处理;否则进入步骤602继续处理。

步骤602:节点发起恢复请求时需要判定本节点组合内(本地区内按照规划存储相同用户数据的节点)是否已存在正从异地恢复数据的节点,如果不存在,则需要从UDC系统申请恢复许可并从异地节点恢复数据,进入步骤605处理;否则需要等待获得许可节的节点完成恢复后从该节点恢复数据。进入步骤604处理。

步骤603:节点通过地区内部的网路从本地数据源中恢复数据,以完成数据恢复。

步骤604:如果当前组合中已存正在执行恢复的节点且该节点未完成从异地恢复数据的流程,则组合内其它节点必须进入等待状态直到该节点完成恢复过程。

步骤605:由于当前节点组合未开始从异地恢复数据,则任何节点均可向系统申请向异地恢复数据的许可。

步骤606:获得许可的节点可在异地选择数据源并启动恢复流程。恢复过程中需要收集数据传输的时延和超时信息。

图10是本实施例中在启用“通过配额限制节点组合间并发的恢复过程的数量”的恢复策略时节点从异地恢复数据的流程图,其具体步骤如下:

步骤701:在通过配额限制节点组合间并发的恢复过程的数量的恢复策略下,节点在发起恢复前首先检查其所在节点组合中是否存在可以作为数据源的节点,如果存在则通过地区内部的网路从该节点恢复数据,进入步骤703处理;否则进入步骤702继续处理。

步骤702:节点发起恢复请求时需要判定本组合内(本地区内按照规划存储相同用户数据的节点组合)是否已存在正从异地恢复数据的节点,如果不存在,则需要从UDC系统申请异地恢复的配额,进入步骤705处理,否则需要等待获得许可节的节点完成恢复后从该节点恢复数据,进入步骤704处理。

步骤703:节点通过地区内部网路从本地数据源中恢复数据完成数据恢复。

步骤704:如果当前组合中已存在执行恢复的节点且该节点未完成从异地恢复数据的流程,则组合内其它节点必须进入等待状态直到该节点完成恢复过程。

步骤705:节点需要向系统申请异地恢复的配额,系统将检查目前剩余配额的数量以决定是否可以授予该组合从异地恢复数据的权限:如果系统存在可用的配额则授予该请求组合配额且可用配额数量减1;否则直接返回授权失败,该组合将进入等待状态,直到其它组合完成异地数据恢复释放配额为止。

步骤706:获得配额后,节点将通过地区间网络从异地恢复数据,在恢复过程中节点需要收集数据传输过程中的时延和超时信息。

图9是本实施例所涉及的采用配额管理方式下,节点在恢复数据成功后系统的判断流程图,其具体步骤如下:

步骤801:当组合内的一个节点完成恢复过程后,UDC系统需要检查本地区内是否所有节点均完成了恢复流程,如果已完成了恢复流程则需要重置整个地区的恢复状态。

步骤802:由于整个地区已完成了数据恢复,系统将复位整个地区的恢复状态为“未进行恢复”。

步骤803:系统需要检查完成恢复操作的节点是否从系统中申请了异地恢复的配额,如果已申请则需要回收配额。

步骤804:系统从完成恢复的节点上回收配额,整个系统的可用配额数加1。

进一步的,UDC系统可以支持动态增加并发恢复的数量。当系统启用配额管理后,如果网络的时延正常则可以提升系统的恢复并发数量缩短恢复的时间。每次动态调整时,系统将增加一个系统支持的配额,允许一个等待状态的组合向异地发起恢复请求。为了规避在边界条件下出现的调整震荡,系统需要将增加并发数量的调整时间间隔放大。

更进一步的,上述的解决方案是系统自动根据数据包传送时延和超时执行的动态调整,系统也可支持将上述的方案修改未手工执行上述3种恢复策略。管理员可以根据现网的网络质量手工选择合适的恢复策略。每个策略的控制流程与自动方式下的控制方式相同。

以上所述仅是本发明的实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号