首页> 中国专利> 一种高端容错计算机系统及实现方法

一种高端容错计算机系统及实现方法

摘要

本发明提供了一种高端容错计算机系统及实现方法,该系统包括N个单结点原型验证系统和M个交叉开关互联路由器芯片组,每个所述交叉开关互联路由器芯片组均用于实现所述N个单结点原型验证系统之间互联,各所述交叉开关互联路由器芯片组之间不做转接,M,N均为大于等于2的正整数,所述单结点原型验证系统包括:计算板,为一4路紧耦合计算板;芯片验证板,包括2个结点控制器芯片组,其中:每一结点控制器芯片组包括2个现场可编程门阵列(FPGA)芯片,共同承载1个结点控制器的逻辑;互联板,包括2个FPGA芯片,其中:每个FPGA芯片提供一个高速互联端口,用于实现所述计算板中的2路与1个所述结点控制器芯片组之间的协议互联。

著录项

  • 公开/公告号CN102129418A

    专利类型发明专利

  • 公开/公告日2011-07-20

    原文格式PDF

  • 申请/专利权人 浪潮(北京)电子信息产业有限公司;

    申请/专利号CN201110053727.2

  • 发明设计人 王恩东;胡雷钧;李仁刚;

    申请日2011-03-07

  • 分类号G06F15/173(20060101);G06F15/167(20060101);

  • 代理机构11262 北京安信方达知识产权代理有限公司;

  • 代理人栗若木;王漪

  • 地址 100085 北京市海淀区上地信息路2号2-1号C栋1层

  • 入库时间 2023-12-18 02:56:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-04-17

    授权

    授权

  • 2011-08-31

    实质审查的生效 IPC(主分类):G06F15/173 申请日:20110307

    实质审查的生效

  • 2011-07-20

    公开

    公开

说明书

技术领域

本发明涉及高端计算机设计领域,具体涉及一种高端容错计算机系统及实现方法。

背景技术

随着计算机技术的飞速发展,为了满足经济社会发展的需要,高可靠的计算机系统成为制约社会发展关键领域的瓶颈之一。金融、电信等关键领域对计算机系统的可靠性要求极高,因此需要构建高可靠的庞大的多路计算机系统,以便更好适应当今各领域的应用需求,但是另一方面也陷入了多路计算机系统互联带来的系统可靠性的技术难题中,计算机系统的处理器数量不断增多,越来越高的集成密度使系统可靠性设计难度加大。

发明内容

本发明要解决的技术问题是,提供一种高端容错计算机系统及实现方法,能够有效实现全局存储器共享,均衡系统传输带宽和延迟,有效解决了多路CPU系统集成可靠性的问题,具有很高的技术价值。

为了解决上述技术问题,本发明提出一种高端容错计算机系统,包括N个单结点原型验证系统和M个交叉开关互联路由器芯片组,每个所述交叉开关互联路由器芯片组均用于实现所述N个单结点原型验证系统之间互联,各所述交叉开关互联路由器芯片组之间不做转接,M,N均为大于等于2的正整数,其中:

所述单结点原型验证系统包括:

计算板,为一4路紧耦合计算板;

芯片验证板,包括2个结点控制器芯片组,其中:每一结点控制器芯片组包括2个现场可编程门阵列(FPGA)芯片,共同承载1个结点控制器的逻辑;

互联板,包括2个FPGA芯片,其中:每个FPGA芯片提供一个高速互联端口,用于实现所述计算板中的2路与1个所述结点控制器芯片组之间的协议互联。

进一步地,上述系统还可具有以下特点:

所述4路紧耦合计算板包括4个CPU,所述4个CPU内部互联,彼此共享存储器;

所述N个单结点原型验证系统中的各CPU之间经所述交叉开关互联路由器芯片组彼此互联,共享存储器。

进一步地,上述系统还可具有以下特点:

所述结点控制器的逻辑包括:高速缓冲存储器(Cache)一致性控制和互联网络接口控制。

进一步地,上述系统还可具有以下特点:

所述芯片验证板具有网络接口(NI);

所述多个单结点原型验证系统经各自的芯片验证板上的NI接口与所述交叉开关互联路由器芯片组相连。

进一步地,上述系统还可具有以下特点:

N的取值为8;

M的取值为4。

为了解决上述技术问题,本发明还提出一种高端容错计算机系统的实现方法,包括:

选择计算板,所述计算板为一4路紧耦合计算板;

选择芯片验证板,所述芯片验证板包括2个结点控制器芯片组,其中:每一结点控制器芯片组包括2个现场可编程门阵列(FPGA)芯片,共同承载1个结点控制器的逻辑;

选择互联板,所述互联板包括2个FPGA芯片,其中:每个FPGA芯片提供一个高速互联端口,用于实现所述计算板中的2路与1个所述结点控制器芯片组之间的协议互联;

将所述计算板中的2路经所述互联板中的1个FPGA芯片连接至所述计算板中的一个结点控制器芯片组,将所述计算板中的另外2路经所述互联板中的另外1个FPGA芯片连接至所述计算板中的另外一个结点控制器芯片组,从而组成一个单结点原型验证系统;

将N个所述单结点原型验证系统中的每一个单结点原型验证系统分别与M个交叉开关互联路由器芯片组中的每一个交叉开关互联路由器芯片组相连,各交叉开关互联路由器芯片组之间不做转接,任意一个交叉开关互联路由器芯片组实现与其连接的N个所述单结点原型验证系统内部互联,以构成一个N结点4*N路系统;M,N均为大于等于2的正整数。

进一步地,上述方法还可具有以下特点:

所述4路紧耦合计算板包括4个CPU,所述4个CPU内部互联,彼此共享存储器;

所述N个单结点原型验证系统中的各CPU之间经所述交叉开关互联路由器芯片组彼此互联,共享存储器。

进一步地,上述方法还可具有以下特点:

所述结点控制器的逻辑包括:高速缓冲存储器(Cache)一致性控制和互联网络接口控制。

进一步地,上述方法还可具有以下特点:

所述芯片验证板具有网络接口(NI);

在将所述N个所述单结点原型验证系统互联时,是将所述N个单结点原型验证系统经各自的芯片验证板上的NI接口与所述交叉开关互联路由器芯片组相连。

进一步地,上述方法还可具有以下特点:

N的取值为8;

M的取值为4。

本发明提供的一种高端容错计算机系统及实现方法,能够有效实现全局存储器共享,均衡系统传输带宽和延迟,有效解决了多路CPU系统集成可靠性的问题,具有很高的技术价值。

附图说明

图1是本发明实施例一种高端容错计算机系统方框图;

图2是本发明实施例一种高端容错计算机系统的实现方法流程图。

具体实施方式

下面将结合附图来详细说明本发明实施方案。

参见图1,该图示出了本发明实施例一种高端容错计算机系统示意图,包括N个单结点原型验证系统和M个交叉开关互联路由器芯片组(NR),每个所述交叉开关互联路由器芯片组均用于实现所述N个所述单结点原型验证系统内部互联,以构成一个N结点4*N路系统,各所述交叉开关互联路由器芯片组之间不做转接,从而保证M个交叉开关互联路由器芯片组构成的M套平行网络彼此独立,M,N均为大于等于2的正整数,其中:

所述单结点原型验证系统包括:

计算板,为一4路紧耦合计算板;

芯片验证板,包括2个结点控制器芯片组,其中:每一结点控制器芯片组包括2个现场可编程门阵列(FPGA)芯片,共同承载1个结点控制器的逻辑;

互联板,包括2个FPGA芯片,其中:每个FPGA芯片提供一个高速互联端口,用于实现所述计算板中的2路与1个所述结点控制器芯片组之间的协议互联。

其中,在图1中,互联板和芯片验证板构成2个结点控制器(NC),每个结点控制器包括芯片验证板上的一个结点控制器芯片组和互联板上的一个FPGA芯片,实现对计算板上的2路CPU的控制。

其中,所述4路紧耦合计算板包括4个CPU,所述4个CPU内部互联,彼此共享存储器;所述N个单结点原型验证系统中的各CPU之间经所述交叉开关互联路由器芯片组彼此互联,共享存储器,即整个N结点4*N路系统内部的4*N个CPU彼此共享存储器。

其中,所述结点控制器的逻辑包括:高速缓冲存储器(Cache)一致性控制和互联网络接口控制。

其中,互联板的2个FPGA芯片除了实现物理层逻辑,保证互连链路握手初始化以及信号传输质量外,还可以为验证工作提供了多种调试手段和测试方法。

其中,所述交叉开关互联路由器芯片组可以通过例如PCIe接口、NI(Network Interface)接口、光接口、AMD HT接口、Intel QPI接口、以及自主开发的其他协议接口等高速接口实现多个所述单结点原型验证系统内部互联,实现多CPU系统集成,有效实现全局存储器共享,有效解决了多路CPU系统中超大规模集成电路设计验证复杂度的问题,在保证计算机系统验证和高端服务器关键芯片组验证的基础上,实现了高端计算机系统性能的要求,具有很高的技术价值。同时板级多级互连为调试验证提供了大量的调试接口和验证手段,大大减少了验证难度和复杂度,节约了项目研制开销,缩短了项目研制周期。

本发明巧妙地采用多单元板互连方式实现大规模结点控制器芯片组FPGA验证,经过深入研究和反复试验,最终设计出上述实施例所述的单结点原型验证系统,其为一4路单结点系统,其中:

在选择系统最小的计算单元时,从实现最的优化角度出发,充分考虑到4路以上会增加计算板规模不利于制版,4路以下会增加计算板数量,不利于全系统集成,因此,综合考虑后选择4路紧耦合计算板作为系统最小的计算单元。

自主设计逻辑验证单元,即结点控制器芯片组,实现系统Cache一致性控制和互联网络接口控制:通过采用2片大容量高端FPGA芯片实现1个结点控制器芯片组逻辑,从而有效保证结点控制器芯片组FPGA验证覆盖率,确保对结点控制器逻辑进行全面验证,为芯片ASIC实现打下基础。其中,基于选定的计算单元(即4路紧耦合计算板)的设计规格和接口,需为所述计算单元配备2个结点控制器芯片组,分别负责两路CPU的互连。

基于选定的计算单元(即4路紧耦合计算板)的设计规格和接口,选择4端口互连单板完成计算单元与逻辑验证单元的4端口协议互连,以2片高端FPGA芯片分别提供2个高速互联端口,保证整个系统的高速互联协议,且能为逻辑验证提供丰富的调试接口和验证手段。

上述单结点原型验证系统还具有很好的扩展性,能够方便地将多个上述单结点原型验证系统级联,从而实现多CPU系统集成,有效实现全局存储器共享,有效解决多路CPU系统中超大规模集成电路设计验证复杂度的问题,具有很高的技术价值。

进一步地,本发明针对多路计算机系统集成密度高的结构特点,为提高系统性能,减少设计难度和设计复杂度,提高设计的可复用特性,在上述单结点原型验证系统的基础上,采用系统互联路由器芯片组实现N个同构的单结点原型验证系统内部互联,以构成一个N结点4*N路系统,从而实现紧耦合共享存储器的设计要求。同时,N个单结点原型验证系统对称的同构结构实现了系统处理器间互访同步长,保证了紧耦合共享存储器系统的性能,并且对称的同构结构也大大减少了多路系统的设计复杂度,提高了设计的可重用性,并且为设计验证和板级调试工作节省了大量项目研制时间,缩短了项目研制周期。

进一步地,本发明充分考虑多路处理器系统集成的特点和系统高可靠的设计要求,在上述N结点4*N路系统的基础上,使用M个交叉开关互联路由器芯片组平行同构扩展出M个同构的N结点4*N路系统,由于各所述交叉开关互联路由器芯片组之间不做转接,从而保证M个交叉开关互联路由器芯片组构成的M个N结点4*N路系统彼此独立,这种容错机制大大提高了高端计算机系统的可靠性,提高了其特殊领域应用的容错机制。

较佳地,本发明还针对32路的高端系统的特点,充分考虑系统效率、设计复杂性,以及成本,从实现最优化的角度出发,经反复试验及比较后,提供一种最合理的32路高端容错计算机系统,即,选择8个所述单结点原型验证系统,采用上述方式组成8结点32路原型验证系统,并使用4个交叉开关互联路由器芯片组平行同构扩展出4个8结点32路系统,如图1所示。这是根据系统可靠性的要求提出来的,经反复试验比较后,发现平行同构扩展出的8结点32路原型验证系统的数量小于4套时,系统可靠性较低,大于4套可靠性会越高,但是系统规模太大,对机箱、散热等架构设计带来难度,综合考虑可以选择4套为最佳选择。图1中,包括4套平行同构的8结点32路系统,结合系统自适应路由机制,保证系统在3套网络发生故障时,仍能够使用唯一的非故障网络进行通信,从而大大提高了高端计算机系统的可靠性,提高了其特殊领域应用的容错机制;对于每一个8结点32路系统而言,则是以单结点4路原型验证系统为基础,分析互联芯片组结构特点,以及协议处理能力和处理机制,扩展实现的,整个32路系统中的16个结点控制器芯片组实现整个系统的Cache一致性控制和互连网络接口控制。

本发明实施例还提供了一种高端容错计算机系统的实现方法,如图2所示,包括:

步骤S201:选择计算板,所述计算板为一4路紧耦合计算板;

所述4路紧耦合计算板包括4个CPU,所述4个CPU内部互联,彼此共享存储器。

步骤S202:选择芯片验证板,所述芯片验证板包括2个结点控制器芯片组,其中:每一结点控制器芯片组包括2个现场可编程门阵列(FPGA)芯片,共同承载1个结点控制器的逻辑;

所述结点控制器的逻辑包括:高速缓冲存储器(Cache)一致性控制和互联网络接口控制。

步骤S203:选择互联板,所述互联板包括2个FPGA芯片,其中:每个FPGA芯片提供一个高速互联端口,用于实现所述计算板中的2路与1个所述结点控制器芯片组之间的协议互联;

步骤S204:将所述计算板中的2路经所述互联板中的1个FPGA芯片连接至所述计算板中的一个结点控制器芯片组,将所述计算板中的另外2路经所述互联板中的另外1个FPGA芯片连接至所述计算板中的另外一个结点控制器芯片组,从而组成一个单结点原型验证系统;

步骤S205:将N个所述单结点原型验证系统中的每一个单结点原型验证系统分别与M个交叉开关互联路由器芯片组中的每一个交叉开关互联路由器芯片组相连,各交叉开关互联路由器芯片组之间不做转接,任意一个交叉开关互联路由器芯片组实现与其连接的N个所述单结点原型验证系统内部互联,以构成一个N结点4*N路系统;M,N均为大于等于2的正整数。

在所述构成的一个N结点4*N路系统中,N个单结点原型验证系统中的各CPU之间经所述交叉开关互联路由器芯片组彼此互联,共享存储器,即整个N结点4*N路系统内部的4*N个CPU彼此共享存储器。

其中,在执行步骤S205时,所述交叉开关互联路由器芯片组可以通过例如PCIe接口、NI(Network Interface)接口、光接口、AMD HT接口、Intel QPI接口、以及自主开发的其他协议接口等高速接口实现多个所述单结点原型验证系统内部互联,实现多CPU系统集成,有效实现全局存储器共享。

其中,针对32路的高端系统的特点,在执行步骤S205时,可以选择8个所述单结点原型验证系统,组成8结点32路原型验证系统,并使用4个交叉开关互联路由器芯片组平行同构扩展出4个8结点32路系统,以最合理的方式提供32路系统的可靠性和容错性。

当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号