首页> 中国专利> 一种双翼可扩展多处理器紧耦合共享存储器体系结构

一种双翼可扩展多处理器紧耦合共享存储器体系结构

摘要

本发明提供一种双翼可扩展多处理器紧耦合共享存储器体系结构是在一个p处理器规模的紧耦合共享存储器体系结构内,包含j个处理器模块PM,其中每个处理器模块由i个处理器C耦合交叉连接而成,且每处理器只有一条链路与结点控制器NC直接连接;每个处理器模块PM包含2个成对结点控制器NC,每个结点控制器NC通过m条链路与处理器连接,并通过n条链路与互连网络连接;互连网络共有两组,每组互连网络由k个q端口交叉开关路由芯片NR组成。通过上述连接方式,构成双翼可扩展多处理器紧耦合共享存储器体系结构。本发明体系结构的优点在于:在保持处理器规模可扩展的前提下,实现处理器带宽与网络带宽的平衡,同时保持较低的互连网络平均延迟。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-02-12

    著录事项变更 IPC(主分类):G06F15/173 变更前: 变更后: 申请日:20080107

    著录事项变更

  • 2014-02-12

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F15/173 变更前: 变更后: 申请日:20080107

    专利权人的姓名或者名称、地址的变更

  • 2010-11-03

    授权

    授权

  • 2008-09-03

    实质审查的生效

    实质审查的生效

  • 2008-07-09

    公开

    公开

说明书

1、技术领域

本发明涉及计算机领域,是一种共享存储器体系结构,具体地说是指一种双翼可扩展多处理器紧耦合共享存储器体系结构。

2、技术背景

紧耦合共享存储器体系结构有多种实现方法。常见的有对称多处理机(SMP)结构和非一致性存储器访问(NUMA)结构。如果存储器在物理上集中放置,任意处理器访问集中存储器的延迟都相等,则称为对称多处理机。目前大多数2~4路Intel Xeon和Itanium系统都是通过共享系统总线方式实现的SMP。但是由于总线驱动能力和存储器带宽的限制,SMP系统规模难以做大,一般只限于2~8路。采用NUMA结构的计算机系统,其存储器在物理上分布,处理器访问本地存储器延迟小,而访问远地存储器延迟大。其互连方式通常采用两级互连,第一级通过共享总线或点到点直连方式连接2~4个CPU,连同结点控制器构成一个处理器子系统,而处理器子系统间则使用定制或通用互连网络,构成更大的系统。

对于构建构建大规模多处理器系统,通常需要采用非一致性存储器访问(NUMA)结构。在这一体系结构的设计中,作为互连网络的核心交叉开关路由芯片NR,由于技术和工艺等问题,端口数目的增加具有一定的限制(目前最大可做到16端口)。另~方面,由于结点控制器NC在物理空间上距离处理器较近,而距离互连网络(路由芯片NR)较远,因而对于单个链路,两侧实际带宽会出现不匹配的问题,即单链路处理器端实际带宽要高于互连网络端实际带宽。

在这种前提下,如果系统内处理器规模增加一倍,可以采用如下两种方法。一种方法是:每个结点控制器NC通过n条链路连接处理器,通过另n条链路与交叉开关路由芯片相连接,由此为基础构建两倍处理器规模的紧耦合共享存储器体系结构。由于单链路处理器端实际带宽要高于互连网络端实际带宽,因而结点控制器NC两侧的处理器带宽与网络带宽会出现不匹配的情况,即这种方法是以牺牲处理器带宽与网络带宽不匹配为代价,来获取较低的网络通信延迟。

另一种方法是:每个结点控制器NC通过m条链路连接处理器,通过另n条链路与交叉开关路由芯片相连接,为保持处理器带宽与网络带宽基本匹配,需要m<n;但由此会明显增加结点控制器NC的数量,由于交叉开关路由芯片NR最大端口数有限(目前为16个),因而需要通过级联交叉开关路由芯片NR构建提供更多端口数量的互连网络才可以,从而会增加网络互连跳步,即这种发发是以牺牲网络通信延迟为代价,来获得处理器带宽与网络带宽的相对平衡。

当处理器规模扩展时,采用上述方法构建多处理器紧耦合共享存储器结构,总会带来或者处理器带宽与网络带宽不匹配,或者增加网络平均延迟的问题,似乎带宽匹配和互连单跳步两者不能兼得。那么能否有其他的方法,当处理器规模增加时,即要保持处理器带宽与网络带宽相匹配,又能最大限度减少互连网络平均延迟呢?这正是业内科技人员要解决的问题。

3、发明内容

本发明的目的是提供一种双翼可扩展多处理器紧耦合共享存储器体系结构。

本发明的目的是按以下方式实现的,在一个有p个处理器组成的紧耦合共享存储器体系结构内,设置j个处理器模块PM,其中每个处理器模块PM由i个处理器C耦合交叉连接而成,且每处理器C只有一条链路与结点控制器NC直接连接;每个处理器模块PM还包含2个成对结点控制器NC,每个结点控制器NC通过m条链路与处理器连接,并通过n条链路与互连网络连接;互连网络共有两组,每组互连网络连接k个q端口的交叉开关路由芯片NR,构成双翼可扩展多处理器紧耦合共享存储器体系结构。

体系结构内处理器数量是p=i*j,为实现处理器之间通信的无阻塞性,则需要i=2m,即m=i/2,同时为实现网络传输的无阻塞性,则需要n*j=q*k。假定处理器单链路带宽为a,网络单链路带宽为b,由于结点控制器NC距离处理器端较近,通常实际带宽a>b,因而为保持处理器带宽与网络带宽的相对平衡,即am=bn,则要求m<n。在保持系统规模高可扩展的前提下,实现处理器带宽与网络带宽相对平衡,并同时保持较低的互连网络平均延迟。

本发明的体系结构所具有的有益效果是,通过m条链路连接处理器C,通过另n条链路与交叉开关路由芯片NR相连接,其中m<n,同时通过两翼的两套互连网络来构建p个处理器紧耦合共享存储器体系结构,在保持系统规模高可扩展的前提下,实现处理器带宽与网络带宽相对平衡,并同时保持较低的互连网络平均延迟。在保留现有技术优点的同时,又能有效降低现有技术所存在的负面问题。

4、附图说明

附图1是双翼可扩展多处理器紧耦合共享存储器体系结构示意图;

附图2是双翼可扩展64处理器紧耦合共享存储器体系结构示意图;

附图3是传统技术的一种构建64处理器紧耦合共享存储器体系结构的拓扑结构示意图;

附图4是传统技术的另一种构建64处理器紧耦合共享存储器体系结构的拓扑结构示意图。

5、具体实施方式

参照说明书附图对本发明的方法做以下详细的说明:

实施例1,

如附图2所示构建64路处理器为例,阐述双翼可扩展多处理器紧耦合共享存储器体系结构的具体实现方式。

在一个64处理器规模的紧耦合共享存储器体系结构内,即p=16,在每个处理器模块由4个处理器C耦合交叉连接而成,即i=4,由于p=i*j,因而系统内处理器模块(PM)的数量j=p/i=16。

每个处理器模块PM包含2个成对结点控制器NC,每个结点控制器NC通过m条链路与处理器C连接,为实现处理器之间通信的无阻塞性,则需要i=2m,即m=i/2=2,即单个结点控制器NC通过2条链路与处理器连接。

假定处理器单链路带宽为a,网络单链路带宽为b,由于结点控制器NC距离处理器端较近,通常实际带宽a>b,因而为保持处理器带宽与网络带宽的相对平衡,即am=bn,则要求m<n。以

目前技术实现的单链路处理器带宽和单链路网络通信带宽分别为25.6GB/s和15GB/s为例,n=am/b=25.5*2/15=3.4,满足条件的最小n整数值为4,即n=4。

每个结点控制器NC还通过n条链路与互连网络连接,互连网络共有两组,每组互连网络由k个q端口交叉开关路由芯片NR组成。为实现网络传输的无阻塞性,则需要n*j=q*k,由于技术上和工艺上的限制,目前交叉开关路由芯片NR端口数最大只能做到16端口,即q=16,因而单翼互连网络内部交叉开关路由芯片NR数量k=n*j/q=4*16/16=4,即单翼互连网络包含4个交叉开关路由芯片NR。通过上述连接方式,构成双翼可扩展64处理器紧耦合共享存储器体系结构。

下面通过描述方法一与方法二的构建方式,通过对比分析,来阐述本发明体系结构的优异特性。

实施例2、

当由32处理器系统扩展到64处理器系统时,在交叉开关路由芯片NR端口数为16的前提下,通常会通过以下两种方式实现:

一种方法如图3所示,采用单个结点控制器NC通过4条链路连接处理器C,通过另4条链路连接交叉开关路由芯片NR,即m=n=4,考虑到网络传输的无阻塞性,则需要n*j=q*k,k=n*j/q=4*16/16=4,即互连网络内部交叉开关路由芯片NR数量为4。同时,单个结点控制器NC一侧的处理器带宽am=25.5GB/s*4=102GB/s,另一侧的网络带宽bn=15GB/s*4=60GB/s,从而带来处理器带宽与网络带宽严重不匹配的问题。因而采用这种方式,是以牺牲处理器带宽与网络带宽不匹配为代价,来获取较低的网络通信延迟的。

另一种方法是如图4所示,在每个处理器模块内部,由2个处理器C通过QPI通道耦合交叉连接而成,即i=2,由于p=i*j,因而系统内处理器模块PM的数量j=p/i=32。

每个处理器模块PM包含1个结点控制器NC,单个结点控制器NC通过m条链路与处理器连接,为实现处理器之间通信的无阻塞性,则需要m=i=2,即单个结点控制器NC通过2条链路与处理器连接。同时,为保持处理器带宽与网络带宽的相对平衡,即am=bn,则要求m<n。这里m=2,a=25.6GB/s,b=15GB/s,从而满足条件的最小n整数值为4,即n=4。考虑到网络传输的无阻塞性,则需要n*j=q*k=4*32=128,即互连网络需要提供128个通信链路,因而无法通过一级16端口交叉开关路由芯片NR实现,只能通过二级级联方式构建128端口数量的互连网络,从而提高了互连网络通信平均延迟。综上,采用这种方式,是以牺牲网络通信平均延迟为代价,来获得处理器带宽与网络带宽的相对平衡的。

与上述两种方法相比,本发明的体系结构的优势在于:在保持系统从32处理器规模到64处理器规模可扩展的前提下,实现了处理器带宽与网络带宽相对平衡,同时保持较低的互连网络平均延迟。即在保持方法一中处理器带宽与网络带宽相对平衡的特性基础上,互连网络平均延迟与方法二相比约降低50%左右。

本发明的方法是:

如附图1所示,在一个有p个处理器组成的紧耦合共享存储器体系结构内,设置j个处理器模块PM,其中每个处理器模块PM由i个处理器C耦合交叉连接而成,且每处理器C只有一条链路与结点控制器NC直接连接;每个处理器模块PM还包含2个成对结点控制器NC,每个结点控制器NC通过m条链路与处理器连接,并通过n条链路与互连网络连接;互连网络共有两组,每组互连网络连接k个q端口的交叉开关路由芯片NR,构成双翼可扩展多处理器紧耦合共享存储器体系结构。

体系结构内处理器数量是p=i*j,为实现处理器之间通信的无阻塞性,则需要i=2m,即m=i/2,同时为实现网络传输的无阻塞性,则需要n*j=q*k。假定处理器单链路带宽为a,网络单链路带宽为b,由于结点控制器NC距离处理器端较近,通常实际带宽a>b,因而为保持处理器带宽与网络带宽的相对平衡,即am=bn,则要求m<n。在保持系统规模高可扩展的前提下,实现处理器带宽与网络带宽相对平衡,并同时保持较低的互连网络平均延迟。

处理器带宽与网络带宽的平衡,具体是指:当处理器规模增加一倍时,如果采用单个结点控制器NC通过n条链路连接处理器C,通过另n条链路连接交叉开关路由芯片NR的方式构建的紧耦合共享存储器体系结构的双翼可扩展多处理器p,虽然网络通信平均延迟较低,但处理器带宽与网络带宽的不匹配会严重影响系统性能。与这种方式相比,本系统结构具有更好的处理器带宽与网络带宽相对平衡的特性。

较低的互连网络平均延迟,具体是指:当处理器规模增加一倍时,如果采用单个结点控制器NC通过m条链路连接处理器C,通过另n条m<n链路连接交叉开关路由芯片NR构建p处理器紧耦合共享存储器体系结构,虽然处理器带宽与网络带宽相对平衡,但必须通过级联交叉开关路由芯片NR构建提供更多端口数量的互连网络,从而增加互联网络平均延迟。与这种方式相比,本发明的方法和体系结构具有较低的互连网络平均延迟。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号