首页> 中国专利> 集群模式下实现网络安全设备高可用性的方法

集群模式下实现网络安全设备高可用性的方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了集群模式下实现网络安全设备高可用性(HA)的方法，包括步骤：主网络安全设备节点监控集群系统中的网络安全设备节点；当有网络安全设备节点的在线状态改变时，集群系统重新分配网络负载。主网络安全设备节点监控集群系统中网络安全设备节点的工作链路；当有网络安全设备节点工作链路失效时，集群系统重新分配网络负载。避免由失效的网络安全设备和链路故障的网络安全设备处理的业务不能得到处理的情况，极大地提高网络安全设备的可用性，实现了网络安全设备的高可用性。对网络安全设备提供了网络会话保护，实现了网络会话的平滑接管，避免了因网络安全设备离线或者失效而造成的网络会话丢失，极大地提高了网络安全设备的可靠性。

著录项

公开/公告号CN1722664A

专利类型发明专利
公开/公告日2006-01-18

原文格式PDF
申请/专利权人联想网御科技(北京)有限公司;
展开▼

申请/专利号CN200410070903.3
发明设计人刘永锋;王刚;刘春梅;雷永成;刘天荣;肖为剑;
展开▼

申请日2004-07-13
分类号H04L12/00(20060101);H04L12/24(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人王学强
地址 100086 北京市海淀区中关村南大街6号中电信息大厦801-810室
入库时间 2023-12-17 16:50:55

法律信息

法律状态公告日

法律状态信息

法律状态
2016-09-07

未缴年费专利权终止 IPC(主分类):H04L12/00 授权公告日:20090729 终止日期:20150713 申请日:20040713

专利权的终止
2011-03-23

专利权人的姓名或者名称、地址的变更 IPC(主分类):H04L12/00 变更前: 变更后: 申请日:20040713

专利权人的姓名或者名称、地址的变更
2009-07-29

授权

授权
2006-03-08

实质审查的生效

实质审查的生效
2006-01-18

公开

公开

说明书

技术领域

本发明涉及网络和信息安全技术领域，特别是集群模式下实现网络安全设备高可用性(HA)的方法。

背景技术

随着计算机应用领域的不断扩展和网络通讯技术的突飞猛进，网络和信息安全技术越来越受到重视，对保障网络信息安全的网络安全设备整体性能的要求也越来越高。目前常用的网络安全设备有防火墙、虚拟个人网络(VPN)、网络入侵检测系统(NIDS)和安全套接字协议层(SSL)加速器等。

网络安全设备属于网关设备，一般所有流入流出的网络数据报文都必须流经网络安全设备，网络安全设备日渐成为限制网络带宽的瓶颈与系统的单一故障点。对网络安全设备的性能和可靠性有很高的要求，而网络安全设备集群模式是符合这一要求的较理想方案。网络安全设备常见的集群模式有三种，分别为主从热备模式、负载均衡模式和双机互备模式。

在主从热备模式下多个网络安全设备中有一个为主网络安全设备，其余网络安全设备为从网络安全设备，处于主从热备模式下的网络安全设备只有其中的主网络安全设备处于活动状态，并对收到的数据包进行处理。主从热备模式有两种实现方案，一种是所有网络安全设备都能够收到相同的数据包，只有主网络安全设备对数据包进行处理，从网络安全设备不对收到的数据包进行处理，但可以利用数据包更新内部状态；另一种是仅主网络安全设备能够收到数据包并且对数据包进行处理，从网络安全设备不能够接收数据包。

在负载均衡模式中，不区分主从网络安全设备，所有的网络安全设备都能够收到相同的数据包，集群控制程序根据集群中网络安全设备的状态确定负载分配方式，把配置下发给各网络安全设备，处于负载均衡模式下的网络安全设备都处于活动状态，但只对分配给其处理的数据包进行处理。

在双机互备模式下中，不区分主从网络安全设备，各网络安全设备都能够收到数据包，但每个网络安全设备收到的数据包并不相同，即单一数据包在同一时刻只发送给一台网络安全设备。在这种模式中，不进行主从判断，每个网络安全设备都对收到的数据包进行处理。

在主从热备模式、负载均衡模式或者双机互备模式下，网络安全设备可能会由于网卡工作不正常、内存或者CPU资源耗尽等网络安全设备自身的失效而导致由该网络安全设备处理的业务不能正常工作，从而会降低集群模式下网络安全设备的可用性。而且，网线接触不良、网络安全设备和周围关键设备或服务器的连接失败等其它原因也会造成由该网络安全设备处理的业务不能正常工作，从而也会降低集群模式下网络安全设备的可用性。并且，如果网络安全设备离线或者失效，该网络安全设备正在处理的网络会话会全部丢失，并不能保障网络安全设备的可靠性。

发明内容

有鉴于此，本发明的主要目的是提出实现集群模式下网络安全设备高可用性的方法，以实现集群模式下网络安全设备的高可用性。

为达到上述目的，本发明的技术方案是这样实现的：

一种集群模式下实现网络安全设备高可用性的方法，适用于包括不少于两个网络安全设备节点的集群系统，所述不少于两个网络安全设备节点包括主网络安全设备节点和至少一个从网络安全设备节点，包括以下步骤：

A1、主网络安全设备节点监控集群系统中的网络安全设备节点；

B1、主网络安全设备节点判断是否有网络安全设备节点的在线状态改变，如果有，主网络安全设备节点向每个从网络安全设备节点发送包括该从网络安全设备节点负载范围的负载分配消息，每个从网络安全设备节点根据所述负载分配消息确定自身的负载，如果没有则结束本流程。

所述的网络安全设备为防火墙、VPN、NIDS或SSL加速器。

在步骤A1中，主网络安全设备节点进一步向从网络安全设备节点广播包含该主网络安全设备节点的系统时间的同步时间消息，从网络安全设备节点在收到所述同步时间消息后，更新所述从网络安全设备节点的系统时间。

在步骤A1中，当网络安全设备节点有新的网络会话时，该网络安全设备节点将包含该新的网络会话的同步消息同步到其它的网络安全设备节点；当网络安全设备节点的网络会话消失时，该网络安全设备节点将包含所述消失的网络会话的同步消息同步到其它的网络安全设备节点。

在步骤A1中，如果有网络安全设备节点收到配置命令，该网络安全设备节点执行该配置命令，并向集群系统中其它网络安全设备节点广播该配置命令，所述集群系统中的其它网络安全设备节点接收并执行所述配置命令。

在步骤A1中，当有网络安全设备加入所述集群系统时，主网络安全设备节点向加入的网络安全设备发送同步配置命令，该加入的网络安全设备取主网络安全设备节点的配置，并执行所述的同步配置命令。

步骤B1所述的判断是否有网络安全设备节点的在线状态改变为：判断是否有网络安全设备节点离线、或是否有网络安全设备节点失效、或是否有新的网络安全设备节点加入。

步骤B1中所述发送负载分配消息为：主网络安全设备节点向每个从网络安全设备节点发送包括该从网络安全设备节点的负载哈希数值空间的负载分配消息；步骤B1中所述每个从网络安全设备节点根据所述负载分配消息确定自身的负载为：每个从网络安全设备节点根据所述负载哈希数值空间确定自身的负载。

该方法进一步包括，预先选定资源参数，并设定资源参数的失效阈值，步骤A1中所述主网络安全设备节点监控网络安全设备节点为：各网络安全设备节点周期性地采集自身的资源参数，并当有网络安全设备节点出现资源参数大于或者等于该资源参数失效的阈值时，该网络安全设备节点向主网络安全设备节点发送节点失效消息并设置自身失效；步骤B1中所述当有网络安全设备节点在线状态改变时，主网络安全设备节点向从网络安全设备节点发送负载分配消息，从网络安全设备节点根据负载分配消息确定自身的负载为：当主网络安全设备节点在收到节点失效消息后，向每个从网络安全设备节点发送包括所述从网络安全设备节点负载范围的负载分配消息，每个从网络安全设备节点根据所述负载分配消息确定自身的负载。

所述选定引起网络安全设备失效的资源参数为：选择CPU利用率、内存利用率、磁盘空间利用率、当前网络流量、当前网络会话连接数、响应时间、网络接口工作状态中的一种或者一种以上的任意组合。

A2、主网络安全设备节点监控集群系统中的网络安全设备节点的工作链路；

B2、主网络安全设备节点判断是否有网络安全设备节点的工作链路失效，如果有，主网络安全设备节点向每个从网络安全设备节点发送包括该从网络安全设备节点负载范围的负载分配消息，每个从网络安全设备节点根据所述负载分配消息确定自身的负载，如果没有则结束本流程。

所述的网络安全设备为防火墙、VPN、NIDS或SSL加速器。

在步骤A2中，主网络安全设备节点进一步向从网络安全设备节点广播包含所述主网络安全设备节点系统时间的同步时间消息，从网络安全设备节点在收到所述同步时间消息后，更新所述从网络安全设备节点的系统时间。

在步骤A2中，当网络安全设备节点有新的网络会话时，该网络安全设备节点将包含所述新的网络会话的同步消息同步到其它的网络安全设备节点；当网络安全设备节点的网络会话消失时，该网络安全设备节点将包含所述消失的网络会话的同步消息同步到其它的网络安全设备节点。

在步骤A2中，如果有网络安全设备节点收到配置命令，该网络安全设备节点执行该配置命令，并向集群系统中其它网络安全设备节点广播该配置命令，所述集群系统中的其它网络安全设备节点接收并执行所述配置命令。

在步骤A2中，当有网络安全设备加入所述集群系统时，主网络安全设备节点向加入的网络安全设备发送同步配置命令，该加入的网络安全设备取主网络安全设备节点的配置，并执行所述的同步配置命令。

该方法进一步包括，预先选定所述网络安全设备节点的工作链路的IP地址，并设定所选定的IP地址的权重以及工作链路失效阈值，步骤A2中所述主网络安全设备节点监控集群系统中网络安全设备的工作链路为：网络安全设备节点周期性地向所选定的IP地址发送请求包，当网络安全设备节点在预定时间内不能收到所选定的IP地址的回复包，则认定该IP地址失效，当失效的IP地址的权重之和超过或等于所述工作链路失效阈值时，该网络安全设备节点向主网络安全设备节点发送节点失效消息并设置自身失效；步骤B2中所述当有网络安全设备工作链路失效时，主网络安全设备节点向每个从网络安全设备节点发送负载分配消息，并且每个从网络安全设备节点根据负载分配消息确定自身的负载为：当主网络安全设备节点收到节点失效消息后，主网络安全设备节点向每个从网络安全设备节点发送包括该从网络安全设备节点负载范围的负载分配消息，并且每个从网络安全设备节点根据所述负载分配消息确定自身的负载。

所述选定网络安全设备工作链路的IP地址为：选择路由器的IP、非军事区(DMZ)服务器的IP、三层交换机的IP中的一项或者一项以上的任意组合。

所述周期性地向所选定的IP地址发送请求包为：周期性地向所选定的IP地址发送地址解析协议(ARP)请求包或者网间控制报文协议(ICMP)请求包。

从以上的技术方案可以看出，应用本发明后，集群系统中对网络安全设备进行了设备监控，当网络安全设备失效时重新分配集群系统的负载，从而保证了设备失效的网络安全设备的业务也能得到处理。集群系统中对网络安全设备的工作链路也进行了监控，当网络安全设备的工作链路失效时重新分配集群系统的负载，从而保证了工作链路失效的网络安全设备的业务也能得到处理。所以应用本发明后，无论发生网络安全设备自身的失效，还是发生网络安全设备的工作链路失效都可以确保该网络安全设备的业务能获得处理，所以极大地提高了集群模式下网络安全设备的可用性，实现了集群模式下网络安全设备的高可用性。

同时，当网络安全设备有网络会话消失或新的网络会话建立时，该网络安全设备将消失的网络会话或者新的网络会话同步到别的网络安全设备，从而对网络安全设备提供了网络会话保护，实现了网络会话的平滑接管，避免了因网络安全设备离线或者失效而造成的网络会话丢失，所以极大地提高了网络安全设备的可靠性。

同时，在对集群系统进行监控的过程中，对各网络安全设备的系统时间进行了同步，从而保证集群系统中各网络安全设备的时间保持一致；当有新的网络安全设备加入集群系统时，对新加入的网络安全设备进行同步配置，使得该新加入的网络安全设备和主网络安全设备的配置一致；并且，如果某个网络安全设备的配置进行了更改，其它网络安全设备的配置也会相应的更改，从而使得集群系统中所有网络安全设备的配置保持一致。因此，整个集群系统由实施相同的整体安全策略且共享相同配置的网络安全设备组成，所以当主网络安全设备和从网络安全设备之间切换时，不用迁移虚拟IP地址和虚拟MAC地址，而只用重新调整负载，从而显著地加快了切换速度。

附图说明

图1为本发明集群模式下实现网络安全设备高可用性的流程示意图。

图2为本发明一实施例的由设备失效引起网络安全设备节点失效操作的流程示意图。

图3为本发明一实施例的由链路失效引起网络安全设备节点失效操作的流程示意图。

图4为本发明一实施例的网络安全设备节点加入网络安全设备集群的流程示意图。

图5为本发明一实施例的网络安全设备节点离开网络安全设备集群的流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点表达得更加清楚明白，下面结合附图及具体实施例对本发明再作进一步详细的说明。

一般情况下，网络安全设备集群系统(以下简称集群系统)由不少于一个的网络安全设备节点(以下简称节点)组成，其中包括一个主网络安全设备节点(以下简称主节点)和不少于一个的从网络安全设备节点(以下简称从节点)。在集群系统中，每个节点中都设置有节点状态表，该节点状态表中包括所有节点在集群系统中的唯一标识、所有节点的优先级别和所有节点的同步状况。在集群系统中，每个节点都具有优先级，首先启动的为主节点，具有最高的优先级，其它节点的优先级按照该节点启动的先后顺序而确定，启动越早的节点优先级越高。图1为本发明的集群模式下实现网络安全设备高可用性的流程示意图。如图1所示，包括以下步骤：

步骤101：对各节点进行监控，并且各节点之间进行同步。

对各个节点的监控可包括心跳监控、设备监控或路径监控。

利用心跳监控来实时监测各节点的工作状态和动态控制管理整个集群系统。在集群系统中，主节点负责动态控管整个集群系统。主节点通过广播消息或组播消息将自己的心跳alive信息周期性地向各个从节点传播，从节点通过单播消息、或广播消息、或组播消息将自己的心跳alive信息周期性地传播给主节点。无论是主节点还是从节点，心跳alive信息的数据帧内容都包含该节点在同一个集群系统中的唯一标识和该节点的优先级。

如果主节点在规定时间内没有收到某一从节点的心跳alive信息，则认为该从节点已经离线，此时主节点在自身的节点状态表中删除该从节点，同时重新调整集群系统中各节点的负载。在重新分配负载后，主节点向从节点发送同步节点状态表消息，以将自身的节点状态表同步给集群系统中的其它节点。

如果主节点离线，具有下一优先级的从节点在规定时间内将收不到主节点的心跳alive消息，则该具有下一优先级的节点将自动升级为主节点以控管整个集群系统，并且在自己的节点状态表中删除原来主节点，同时重新调整集群系统中各节点的网络负载，然后向其它节点发送同步节点状态表消息，以将自身的节点状态表同步给集群系统中的其它节点。因此，在主节点离线或者失效后，从节点可以通过主动选择自身设备的节点状态表中优先级最高的节点来确定主节点，而不用被动重新确定主节点，所以可以加快整个集群系统的切换速度。

同时，如果某节点中出现对某项资源使用过高的状况，该网络安全设备节点就会出现故障和不能正常工作，所以需要对各个节点进行设备监控。

引起节点出现故障的资源包括CPU利用率、内存利用率、磁盘空间利用率、当前网络流量、当前网络会话连接数、响应时间和网络接口工作状态等。可选择引起节点出现故障的这些资源中的一项或者几项的组合作为资源参数，并设定各项资源参数的失效阈值。各网络安全设备通过周期性地采集这些资源参数的使用状况来监控各网络安全设备的状态。当有节点所选定的资源参数超过该项资源参数的预先设定的阈值时，该节点向网络安全设备集群系统中的其它节点发送节点失效消息，该节点失效消息中包含该节点在同一个网络安全设备集群系统中的唯一标识和节点失效指示。当失效的节点的所有资源参数又恢复到低于失效阈值时，该节点向网络安全设备集群系统中的其它节点发送节点激活消息，该节点激活消息中包含该节点在同一个网络安全设备集群系统中的唯一标识和节点激活指示。节点失效消息和节点激活消息是调节网络安全设备集群系统中节点优先级和网络负载的依据。

以上过程中对网络安全设备的设备监控进行了说明。优选地，在监控网络安全设备的同时，监控网络安全设备的工作链路。

当网络安全设备不能探测到路由器的IP地址、DMZ区服务器的IP地址或三层交换机的IP地址等周边的重要IP地址时，将会导致该网络安全设备虽然可以工作，但是该网络安全设备的工作链路实际上却已经不能正常使用。网络安全设备通过执行路径监控来监控各网络安全设备工作链路的连接状态。

预先选定网络安全设备工作链路的IP地址，并设定所选定的IP地址的权重以及工作链路失效阈值。各节点通过周期性地发送ARP请求包或者ICMP请求包来探测其周边设备的IP地址的连接状况，如果在规定时间内没有收到某一个IP地址的回应包，则该节点认为探测该IP地址失败，并认为该IP地址失效。当某节点的所有失效IP地址的权重之和超过或者等于预先设定的阈值时，说明该节点已经链路失效，则该节点向网络安全设备集群系统中的其它节点发送节点失效消息，该节点失效消息中包含该节点在同一个网络安全设备集群系统中的唯一标识和节点失效指示。当失效的节点又收到某曾经失效的IP地址的回应包时，则认为该IP地址没有失效而又恢复正常。当已链路失效的节点的失效IP地址的权重之和又低于预先设定的阈值时，说明该节点的链路又恢复正常。此时，该节点向网络安全设备集群系统中的其它节点发送节点激活消息，该节点激活消息中包含该节点在同一个网络安全设备集群系统中的唯一标识和节点激活指示。

在集群系统中，对各节点进行监控，并且各节点之间进行同步。各节点之间的同步包括增量配置同步、时间配置同步和实时会话同步。

增量配置同步为当集群系统正常运转时，如果某个节点的配置进行了更改，则该节点向整个集群系统的其它节点主动广播更改的配置命令消息。其它节点收到该消息后，解析出传播过来的配置命令并执行该配置命令，从而使得整个集群系统中所有节点的配置始终保持一致。

时间配置同步为主节点周期性地向各个从节点广播包含主节点系统时间的同步时间消息。从节点在收到主节点发送过来的同步时间消息后，更新自身的系统时间，从而保证集群系统中各节点的时间时钟保持一致。

当集群系统中有节点设备失效或节点的工作链路失效时，为了防止该节点正在处理的网络会话全部丢失，各节点之间需要有会话同步。当集群系统中任何节点一旦有新的网络会话建立，该节点将包含新的网络会话状态的网络报文通过链路层的广播报文同步到集群系统中的其它节点，而一旦有网络会话消失，节点会将包含消失的网络会话状态的网络报文通过链路层的广播报文同步到集群系统中的其它节点，从而实现会话同步。无论是建立新的网络会话或者网络会话消失，网络报文中都包含该网络会话及其哈希数值、该网络会话的状态、集群系统的唯一标识、网络同步会话标识等信息。

步骤102：判断集群系统中是否有节点的在线状态改变，如果有则执行步骤103，否则再次执行步骤101。

在对节点的心跳监控中，如果在预定时间内不能收到该节点的心跳alive信息，则判定该节点离线；在对节点的设备监控中，如果该节点选定的资源参数的使用权重超过该资源参数的阈值，则判定该节点设备失效；在对节点的路径监控中，如果某节点的失效IP地址的权重之和超过或者等于工作链路失效阈值时，则判定该节点链路失效。同时，在集群系统的工作中，还可能有新的节点加入或失效的节点又恢复正常。无论节点离线、节点设备的链路失效、节点设备失效、新节点加入或失效的节点又恢复正常，都认为该节点的在线状态已经改变。

步骤103：对在线状态改变的节点进行处理，重新分配各个节点的负载，结束本流程。

当主节点离线时，具有下一优先级的从节点升级为主节点以控管整个集群系统，并且该已经升级为主节点的节点在自身的节点状态表中删除原来主节点，同时重新调整集群系统中各节点的网络负载。当从节点离线时，主节点在自身的节点状态表中删除该从节点，并重新调整集群系统中各节点的网络负载。

当某个节点选定的资源的使用状况超过预定义的阈值时，该节点设置自身为失效，同时将节点失效消息广播给集群系统中所有其它节点。在主节点的控管下，集群系统重新分配网络负载和同步节点状态表。当该设备失效的节点发现自身的资源又重新小于阈值时，该节点将向集群系统的主节点发送节点激活消息，主节点接收到该消息后重新向该节点分配网络负载和同步节点状态表，并使该节点恢复到有效状态。

当某节点所选定的IP地址的失效权重之和等于或者超过预工作链路失效阈值时，则该节点链路失效。于是该节点设置自身为失效，同时将节点失效消息广播给集群系统中所有其它节点，集群系统在主节点的控管下重新分配网络负载和同步节点状态表。并且，当该链路失效的节点发现IP地址的失效权重之和又重新低于工作链路失效阈值时，该节点将向集群系统的主节点发送节点激活消息，主节点接收到该消息后重新向该节点分配网络负载和同步节点状态表，并使该节点恢复到有效状态。

当有新的节点加入、节点设备失效、节点链路失效、节点离线或者从节点失效重新恢复正常时，需要重新分配整个集群系统的网络负载。当集群系统工作在主从热备模式时，由主节点分配整个集群系统的网络负载。当集群系统工作在负载均衡模式或双机互备模式下时，认为第一个启动的节点为主节点，并且也由该主节点分配网络负载。其中：当集群系统中有节点离线、节点设备失效、或节点设备的链路失效时，每个正常的节点原来处理的负载仍然由该节点处理，而原来由设备失效的节点或链路失效的节点所处理的负载将由集群系统中的其它节点处理；当有新的节点加入或者原来失效的节点又恢复正常时，部分由原来集群系统中各节点处理的负载将由该新节点或者恢复正常的节点处理。

按照以上网络负载分配的原则，可以通过IP报文HASH算法等各种不同的具体算法来分配网络负载。例如：主节点根据集群系统中节点的个数、节点的优先级别、节点资源的利用状况和节点当前负载等信息为每个节点分配一定范围的HASH负载数值空间，并向每个从节点发送包括该从节点的HASH负载数值空间的同步负载分配消息以分配网络负载。从节点接收主节点发送的同步负载分配消息后，根据该同步负载分配消息分配自身的负载HASH数值空间，从而确定从节点的网络负载。在根据负载HASH数值空间完成负载同步后，从节点向主节点发送负载同步回复消息。

下面以一个具体的例子来说明分配网络负载的过程。

假设集群系统中原来有三个节点，分别为节点A、节点B、节点C，节点A的优先级最高，为集群的主节点，节点B的优先级比节点A低但比节点C高，节点C的优先级最低。整个集群的网络负载可以分成16份，集群中三个节点的HASH负载空间为(5，5，6)，具体的HASH数值空间为HASH[16]＝{A，A，A，A，C，B，B，B，A，B，C，C，B，C，C，C}即节点A要处理整个集群系统的5/16负载，节点B处理整个集群系统的5/16负载，节点C处理整个集群系统的6/16负载，如果某个IP报文的hash值为15，而HASH[15]＝C，即落在节点C的负载空间，则该IP报文被节点C处理，其他节点收到该报文会丢弃掉。当节点C离线时，则节点A和节点B的HASH负载空间被调整为(8，8)，则HASH[16]＝{A，A，A，A，A，B，B，B，A，B，A，A，B，B，B，B}即节点A和节点B共同处理整个集群系统的负载，并且节点A原来处理的负载仍然由节点A处理，节点B原来处理的负载仍然由节点B处理，而节点C原来处理的负载会被节点A和B接管，即hash值为15的IP报文将会被节点B处理，因为HASH[15]＝B；如果原来有3个节点，当有新的节点加入或者有失效的节点又恢复正常时，假设该节点为节点D，则4个节点的HASH负载空间为(4，4，4，4)，则HASH[16]＝{A，A，A，A，C，B，B，B，D，B，C，C，C，D，D，D，}，即原来A、B、C处理的部分负载将由该节点D处理，即hash值为15的IP报文将会被新加入的节点D处理，因为HASH[15]＝D，落在新加入节点D的负载空间里。

主节点通过向从节点发送同步节点状态表消息来向从节点同步节点状态表。从节点在收到同步节点状态表消息并完成节点状态表同步后向主节点回应同步节点状态表回复消息。

以上过程说明了本发明的集群模式下实现网络安全设备高可用性的步骤，下面详细说明由设备失效引起节点失效操作的步骤。

预先在CPU利用率、内存利用率、磁盘空间利用率、当前网络流量、当前网络会话连接数、响应时间和网络接口工作状态等资源参数中选择若干项资源参数，然后分别为这些资源参数设定失效阈值。基于图1所示流程，图2为本发明一实施例的由设备失效引起节点失效操作的流程示意图。如图2所示，包括以下步骤：

步骤201：节点周期性地探测自身的资源利用情况。

在节点探测自身的资源利用情况中，节点探测的网络接口可以包括实际的物理接口或者逻辑冗余接口。逻辑冗余接口包含一对物理接口，分别为主接口和从接口。如果逻辑冗余接口的主接口失效，则从接口接管主接口工作，而逻辑冗余接口并没有失效，只有当逻辑冗余接口的主从接口都失效时，该逻辑冗余接口才失效。

步骤202：判断是否有资源参数超过该资源参数的失效阈值，如果是则执行步骤203及其后续步骤，否则重新执行步骤201。

步骤203：节点将自身设置为失效，同时将节点失效消息广播给集群系统中的所有节点。

步骤204：判断集群系统是否处于稳定状态，如果是，则执行步骤205及其后续步骤，否则结束本流程。处于稳定状态的集群系统是指该集群系统中所有节点的负载分配和节点状态表同步全部完成。只有当集群系统处于稳定状态时，集群系统才可开始处理节点的离线或者加入。

步骤205：主节点设置集群系统进入非稳定状态。主节点在完成设置集群系统进入非稳定状态后，此时集群系统就不处理任何其它节点的离线或者加入。

步骤206：主节点在节点状态表中设置有资源参数超过该资源参数的失效阈值的节点失效。

步骤207：主节点重新分配负载、同步新的节点状态表和重新设置集群系统进入稳定状态，并结束本流程。

下面详细说明由链路失效引起节点失效操作的详细过程。

集群系统中的各节点通过周期性地发送ARP请求或者ICMP请求包来探测其周边设备的IP地址连接状况，如果在规定时间内没有收到某一个IP地址的回应包，则认为探测该IP地址失败。在实际应用中，可以给要探测的IP地址加上权重并且设置链路失效阈值，以表示该IP地址的重要程度。当探测失败的IP地址的权重之和超过预先定义的链路失效阈值时，则集群系统认为该节点出现链路失效，该节点主动将自身失效，同时将节点失效消息广播给集群系统中所有节点。然后，集群系统在主节点的控管下重新分配网络负载和同步节点状态表。

基于图1所示流程，图3为本发明一实施例的由链路失效引起节点失效操作的流程示意图。如图3所示，包括以下步骤：

步骤301：节点周期性地探测自身的链路有效情况；

步骤302：判断失效的IP地址的权重之和是否超过链路失效阈值，如果超过则执行步骤303及其后续步骤，否则重新执行步骤301；

步骤303：节点将自身设置为失效，同时将节点失效消息广播给集群系统中的所有节点。

步骤304：判断集群系统是否处于稳定状态，如果是则执行步骤305及其后续步骤，否则结束本流程。处于稳定状态的集群系统是指该集群系统中所有节点的负载分配和节点状态表同步全部完成。只有当集群系统处于稳定状态时，集群系统才可开始处理节点的离线或者加入，而当集群系统进入为非稳定状态时，集群系统不处理任何其它节点的离线或者加入。

步骤305：主节点设置集群系统进入非稳定状态。主节点完成设置集群系统进入非稳定状态后，集群系统不处理任何其它节点的离线或者加入。

步骤306：主节点在主节点状态表中设置该失效的IP地址的权重之和超过链路失效阈值的节点失效；

步骤307：主节点重新分配负载，同步新的节点状态表，主节点设置集群系统进入稳定状态，并结束本流程。

以上过程中，详细说明了节点之间进行同步和对各节点进行监控的步骤。当网络安全设备集群系统在正常工作时，如果有新的节点加入或者有节点离线，集群系统的负载、配置和节点状态表需要同步。

当一台新的节点加入集群系统时，主节点首先发送同步配置要求消息给新加入的节点，新加入节点收到该消息后主动取主节点的所有配置和安全策略等到本地，并使之生效，从而完全和主节点的配置一致。

图4为本发明一实施例的网络安全设备节点加入集群系统的流程示意图。如图4所示，包括以下步骤：

步骤401：主节点接收整个集群系统中各从节点的心跳alive消息，周期性地检查节点状态表。

步骤402：主节点在收到从节点的心跳alive消息后，主节点判断节点状态表中是否包括所有发送心跳alive信息的节点，如果不包括则执行步骤403及其后续步骤，包括则重新执行步骤401。主节点收到新加入的节点的心跳alive信息后，首先判断节点状态表中是否有该节点。

步骤403：该从节点加入集群系统。

步骤404：判断集群系统是否处于稳定状态，如果是则执行步骤405及其后续步骤，否则结束本流程。处于稳定状态的集群系统是指该集群系统中所有节点的负载分配和节点状态表同步全部完成。只有当集群系统处于稳定状态时，集群系统才可开始处理节点的离线或者加入。当集群系统进入为非稳定状态后，集群系统就不处理任何其它节点的离线或者加入。

步骤405：主节点设置集群系统进入非稳定状态。当集群系统进入非稳定状态后，集群系统不处理任何其它节点的离线或者加入。

步骤406：主节点在节点状态表中增加该节点。

步骤407：主节点对新加入的节点进行配置同步、负载同步，并且对所有节点进行节点状态表同步，集群系统进入稳定状态，并结束本流程。

图5为本发明一实施例的网络安全设备节点离开集群系统的流程示意图。如图5所示，包括以下步骤：

步骤501：主节点接收整个集群系统中各从节点的心跳alive信息，周期性地检查节点状态表。

步骤502：主节点判断在预定的时间内是否收到所有节点的心跳alive信息，如果是重新执行步骤501，否则执行步骤503及其后续步骤。

步骤503：没有发出心跳alive消息的节点离线。

步骤504：判断集群系统是否处于稳定状态，如果是则执行步骤505及其后续步骤，否则结束本流程。处于稳定状态的集群系统是指该集群系统中所有节点的负载分配和节点状态表同步全部完成。只有当集群系统处于稳定状态时，集群系统才可开始处理节点的离线或者加入。

步骤505：主节点设置集群系统进入非稳定状态。当集群系统进入非稳定状态后，集群系统不处理任何其它节点的离线或者加入。

步骤506：主节点在节点状态表中删除离线的节点；

步骤507：主节点重新分配负载和同步新的节点状态表，主节点设置集群系统进入稳定状态，并结束本流程。

以上过程中，应用本发明后，利用监控网络安全设备和监控网络安全设备的工作链路，保证了无论发生网络安全设备自身的失效，还是发生网络安全设备的工作链路失效都可以确保该网络安全设备的业务可以获得处理，所以极大地提高了集群模式下网络安全设备的可用性，实现了集群模式下网络安全设备的高可用性。

并且，可根据集群系统中节点的个数、各节点的优先级和各资源的利用情况来动态地分配负载，从而又保证了集群系统的主动负载均衡。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 集群模式下实现网络安全设备高可用性的方法 [P] . 中国专利： CN100521603C . 2009.07.29
2. 一种集群模式下的网络安全设备同步方法 [P] . 中国专利： CN100375437C . 2008.03.12
3. METHOD FOR THE PRODUCTION OF A DATA PROCESSING CLUSTER AND COMPUTER SYSTEM FOR OPERATING IN CLUSTER MODE [P] . 世界知识产权组织专利： WO2004074959A3 . 2005-04-14

机译：产生数据处理集群的方法和在集群模式下运行的计算机系统
4. METHOD FOR THE PRODUCTION OF A DATA PROCESSING CLUSTER AND COMPUTER SYSTEM FOR OPERATING IN CLUSTER MODE [P] . 世界知识产权组织专利： WO2004074959A2 . 2004-09-02

机译：产生数据处理集群的方法和在集群模式下运行的计算机系统
5. Deterministic computing systems, methods, and program storage devices (distributed, fault tolerant, and high availability computing systems) to achieve distributed, fault tolerant, and high availability [P] . 日本专利： JP5373770B2 . 2013-12-18

机译：确定性计算系统，方法和程序存储设备（分布式，容错和高可用性计算系统）以实现分布式，容错和高可用性