首页> 中国专利> 用于100Gbps以太网的链路训练和训练帧

用于100Gbps以太网的链路训练和训练帧

摘要

公开了用于实现包括100Gbps以太网链路的下一代高速以太网链路的链路训练的方法、装置和系统。从发送端口发送训练帧以供在接收端口处接收,且每一训练帧包括帧标记部分、控制信道部分和训练模式部分。使用伪随机比特模式实现用于训练帧的训练模式部分的四水平信令,其包括低水平信号、第一和第二中间水平信号和高水平信号,同时仅有低水平和高水平信号用于训练帧的帧标记和控制信道部分。四水平信令可以采用PAM4编码。可以在其中实现链路训练技术的装置和系统的示例包括刀片服务器和网络路由器以及交换机。

著录项

  • 公开/公告号CN104322014A

    专利类型发明专利

  • 公开/公告日2015-01-28

    原文格式PDF

  • 申请/专利权人 英特尔公司;

    申请/专利号CN201380026885.6

  • 发明设计人 K·C·拉斯特德;A·O·兰;

    申请日2013-06-05

  • 分类号H04L12/28(20060101);H04L29/10(20060101);

  • 代理机构31100 上海专利商标事务所有限公司;

  • 代理人张欣

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-17 04:48:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-10-26

    授权

    授权

  • 2015-02-25

    实质审查的生效 IPC(主分类):H04L12/28 申请日:20130605

    实质审查的生效

  • 2015-01-28

    公开

    公开

说明书

发明领域

本发明的领域总体上涉及基于以太网的互连,且特别地但不排他地涉及实现 用于100GHz以太网链路的链路训练的技术。

背景信息

自从微处理器问世以来,计算机系统已经变得越来越快。大致遵循摩尔定律 (公司联合创始人戈登·摩尔1965年发表的文章,预测集成电路的 晶体管数量每两年翻一番),这种速度增加已经以相当均匀的速率上升达接近三十 年。与此同时,存储器和非易失性存储两者的大小也已经稳定地增加,使得现今的 个人计算机中很多都比10-15年以前的超级计算机更加强大。另外,同样也可以看 到网络通信的速度天文数字般地增加。

处理器速度、存储器、存储和网络带宽技术的增加已经引起具有更加丰富的 能力的网络的构建和部署。最近,基于云的服务的问世,例如由亚马逊(例如,亚 马逊弹性计算云(EC2)和简单存储服务(S3))和微软(例如,Azure和Office 365) 提供的那些服务,已经引起除了大数据中心的部署之外的用于公共网络基础设施的 额外网络构建,用于支持采用私有网络基础设施的这些服务。

典型的数据中心部署包括大量的服务器机柜,每一个都容纳多个机架式服务 器或刀片服务器。通常使用以太网(IEEE 802.3)协议在铜线电缆上促成在机架式服 务器之间的通信。除了使用有线电缆的选项之外,刀片服务器和网络交换机和路由 器可以被配置为支持机柜中的刀片或板卡之间在电背板或中板互连上的通信。

近年来,在铜布线上的以太网连接的速度已经达到了每秒10千兆位(Gpbs) 和40Gpbs的水平。此外,IEEE(电气和电子工程师学会)目前正在开发规范(IEEE  802.3bj),此规范定义被称为100GBASE-KP4的新的背板PHY类型,其所针对的 目标是在电气背板上实现100Gbps的带宽,这种带宽在7GHz下有高达33dB的损 耗。IEEE也正在定义用于在电缆连接上的新的100Gbps的类似规范。促成100Gbps 链路的成功实现的一个重要方面是链路训练。

附图简述

当结合附图阅读时,通过参考下列详细描述更容易理解且也将更容易明白本 发明的前述方面和许多随之而来的优势本发明,附图中,除非特别指出,贯穿各图, 类似的标号指示类似的部分:

图1是说明根据一种实施例的100GBASE-KP4链路的结构的示意图;

图2是说明用于PAM4编码的映射的图;

图3是用于10GBASE-KR PHY的训练状态图;

图4a是示出根据一种实施例的训练帧的各组件的框图;

图4b是说明根据一种实施例的训练帧和示例性信令的示意图;

图5a示出根据一种实施例的用于训练帧的帧标记和系数更新部分的示例性结 构;

图5b示出根据一种实施例的用于训练帧的状态报告部分的示例性结构;

图6是说明差分曼彻斯特编码的图;

图7是说明用于系数更新字段中的单元的示例性编码的表;

图8是说明用于状态报告字段中的单元的示例性编码的表;

图9a是说明在OSI参考模型的数据链路和物理层和对应于IEEE P802.3bj草 案1.0版中所定义的100GBASE-KP4的当前草案的IEEE 802.3LAN CSMA/CD  LAN模型层之间的关系的示意图;

图9b是说明图9a中经选择的LAN CSMA/CD层的进一步细节的示意图;

图10是说明在连接发送(link up transmit)操作期间由PMA子层执行的操作 的发送改编(adaption)过程图。

图10a是说明根据一种实施例在训练帧的帧标记和控制信道部分的传送期间 由PMA子层执行的操作的发送改编过程图;

图10b是说明根据一种实施例在训练帧的训练模式部分的传送期间由PMA子 层执行的操作的发送改编过程图;

图11是说明在连接接收(link up receive)操作期间由PMA子层执行的操作 的接收改编过程图。

图11a是说明根据一种实施例在训练帧的帧标记和控制信道部分的接收期间 由PMA子层执行的操作接收改编过程图;

图11b是说明根据一种实施例在训练帧的训练模式部分接收期间由PMA子层 执行的操作的发送改编过程图;

图12a和12b是根据一种实施例的数据结构图,其说明训练帧的帧标记和系 数更新部分,且进一步说明各自的奇偶校验方案;

图13是说明根据一种实施例的训练帧的数据结构图;

图14是说明对应于示例性训练帧的仿真的信令的图;

图15图是说明选自可能的4095种初始化状态的四种PRBS12初始化状态的 选择的图;

图16a是其中安装有多个服务器刀片的示例性刀片服务器机箱的正面立体视 图;

图16b是图16a的刀片服务器机箱的后方立体视图;

图16c是安装有对应于图16a和16b的多个机架式刀片服务器机箱的示例性 刀片服务器机柜立体正面视图;以及

图17示出根据一种实施例的典型的服务器刀片的组件的细节。

详细描述

在此描述用于实现下一代高速以太网链路的训练的方法和装置的实施例。在 下列描述中,陈述众多特定细节(例如100Gbps以太网链路的实现)以提供对本 发明的各实施例的透彻理解。然而,相关领域中的技术人员将认识到,无需特定细 节中的一个或多个,或借助于其他方法、组件、材料等等,可以实践本发明。在其 他实例中,不详细示出或描述公知的结构、材料或操作,以避免模糊本发明的各方 面。

贯穿本说明书对“一种实施例”或“一个实施例”的引用意味着,结合该实 施例描述的具体的特征、结构或特性被包括在本发明的至少一种实施例中。因而, 贯穿本说明书,短语“在一种实施例中”或“在一个实施例中”在各种场合下的出 现并不必定都是指相同的实施例。此外,在一个或多个实施例中,可以以任何合适 的方式组合具体的特征、结构或特性。

在此公开了用于促成包括所建议的100GBASE-KP4PHY的高速以太网链路 的链路训练的实施例。为了与现有训练机制保持兼容,用于100GBASE-KP4PHY 的链路训练的一些方面与为IEEE 10GBASE-KR PHY定义的相似方面是共用的, IEEE 10GBASE-KR PHY针对10Gbps链路,且当前用于诸如交换机和路由器等的 各种类型的装备。另外,也有在IEEE Std 802.3ap-2007中所定义的其他共同方面。 尽管在此可以标识和简要讨论这些共同方面,但在此一般不提供这些方面如何操作 或实现的相应详尽讨论,以免模糊各实施例的各发明方面。在IEEE P802.3bj草案 1.0版和IEEE P802.3bh草案3.1版中进一步详细说明一些实施例的其他方面。

图1中说明了100GBASE-KP4链路的物理层(也称为“PHY”)结构。PHY 定义互连的物理结构,且负责处理在两个链路合作方(例如由组件A和B所描述) 之间的具体链路上的信号的操作的细节。该层管理信号线上的数据传输,包括在跨 越并行通道发送和接收每一位信息的过程中所涉及的水平、时序方面和逻辑问题。 如图1中所示出,每一互连链路的物理连通性由四个差分对的信号100(包括每一 方向的通道0-3)构成。每一端口支持由两个单向链路组成的链路对,以便完成在 两个组件之间的连接。这支持同时两个方向的通信量(traffic)。

带有100GBASE-KP4端口的组件使用被定义为链路对的一对单向点对点链路 来通信,如图1中所示出。每一端口包括发送(Tx)链路接口和接收(Rx)链路 接口。对于所说明的示例,组件A具有Tx端口,其连接到组件B的Rx端口。一 个单向链路从组件A发送到组件B,且另一链路从组件B发送到组件A。根据哪 一组件端口正在发送且哪一组件正在接收数据,定义“发送”链路和“接收”链路。 在图1中所说明的配置中,组件A发送链路把数据从组件ATx端口发送到组件B Rx 端口。这种相同的组件A发送链路是端口B接收链路。

100GBASE-KP4PHY使用4水平脉冲幅度调制(被称为PAM4)信号来跨越 信道发送和接收数据。如图2中所示出,PAM4由四种逻辑水平组成,这四种逻辑 水平如下所示地映射:

0 映射到﹣1

1 映射到﹣1/3

2 映射到﹢1/3

3 映射到﹢1

逻辑水平0和3分别对应于具有信号水平﹣1和﹢1的低水平信号和高水平信 号,而逻辑水平1和2对应于具有信号水平﹣1/3和﹢1/3的中间水平信号。

用于100GBASE-KP4PHY的物理信令采用1位的单位间隔(UI),其具有对 应于13.59375Gbd符号(~73.6皮秒)的时间。在一种实施例中,采用46UI的训 练帧字(TFW)用于链路训练。

在一种实施例中,用于100GBASE-KP4PHY的训练序列的格式被松散地定义 为类似于用于IEEE标准802.3ap-2007规范中所定义的10GBASE-KR PHY的格式。 在图3中示出10GBASE-KR PHY的训练状态图。在10GBASE-KR PHY和 100GBASE-KP4PHY之间的显著差异是前者定义NRZ(不返回到零)2水平 (PAM2)PHY而非4水平PAM4信号。

使用下列的序列建立100GBASE-KP4链路:

(1)对链路合作方的自动协商能力

(2)发出训练序列以便为信道的特性调谐PHY

获得帧锁

TX FFE握手:使得Tx系数适配于信道特性

DSP收敛:把Rx训练到信道状态

状态交换:是否准备好?

(3)转为数据模式并发出空闲符号

训练帧是在训练期间连续地发送的固定长度结构。如图4a中所示出,在一种 实施例中,训练帧400包括帧标记402、控制信道和训练模式408,其中帧标记402 包括1TFW,控制信道包括系数更新404和状态报告406,系数更新404和状态报 告406均包括4TFW,且训练模式408包括182TFW,总计191TFW。进一步, 在图4b中示出且在下面讨论训练帧400的细节。

在一个实施例中,帧由比特模式,即十六进制数3FFFFFF800000(23个1后 面跟着23个0)所分隔,如13.59375Gbd符号中所表示的。这通过图4b、5a、5b、 12a、12b以及13和14中所示出的帧标记予以说明。在一种实施例中,如果先前 帧的总的奇偶校验是奇数,这可以被改变成0000007FFFFF(23个0后面跟着23个 1)。这些模式不出现在控制信道或训练模式中,且因此充当训练帧的开始的唯一 指示符。

使用差分曼切斯特(Manchester)编码DME来发送控制信道。图6中示出DME 的示例。差分曼切斯特编码的规则如下所示:

a)数据过渡应在每一单元边界处发生。

b)中间单元数据过渡应被用来信号发送(signal)逻辑1。

c)中间单元数据过渡的消失应被用来信号发送逻辑0。如果在给定训练帧中的 控制信道的边界内检测到编码违例,则忽略该帧的控制信道的内容。

如图4b、5a和5b中所示出,在一种实施例中,系数更新404包括16单元请 求,同时状态报告406包括16单元状态。系数更新404和状态报告406中的每一 个中的单元的长度是10UI,且4TFW中的每一个被配置成四个单元,其后跟有6 UI开销字段,得到8x 46=368UI的控制信道长度。在一种实施例中,系数更新 404中的至少一部分单元被映射到图7中所示出的为10GBASE-KR PHY定义的相 应系数更新字段,同时状态报告406中的至少一部分单元被映射到图8中所示出的 为10GBASE-KR PHY定义的相应状态报告字段。

图9a示出在OSI参考模型的数据链路和物理层以及对应于IEEE P802.3bj草 案1.0版中所定义的100GBASE-KP4的当前草案的IEEE 802.3LAN CSMA/CD  LAN模型层之间的关系的细节。图9b示出所选择的LAN CSMA/CD层的进一步 细节,包括MAC(介质访问控制)层900、100GBASE-R物理编码子层(PCS) 子层902、前向纠错(FEC)子层904、物理介质附加(PMA)子层906、物理介 质相关(PMD)子层908和自动协商(AN)子层910。由MAC层900按二进制 比特流的数字格式接收数据,MAC层900处理二进制数据并将其转发给 100GBASE-RPCS子层902,100GBASE-RPCS子层902把数字规则应用到二进制 数据,以便如下所述变换数据。然后,把经变换的数字的数据传送给FEC子层904, FEC子层904执行前向纠错。FEC使用编码增益来增加给定信道上的链路预算和 BER性能。链路预算由定义在发送电路和接收电路之间的连接的电参数组成,例 如插入损耗、返回损耗、脉冲响应等等。

在发送方向,PMA子层906的角色是把由FEC子层904输出的信号改编成 (adapt)PAM4编码信号,以便传送给PMD子层908和子层910,以供在附连的介 质上传递。图10中所示出的改编(adaption)过程的一种实施例包括插入开销框1002、 插入终止位框1004、格雷编码框1006、[1/(1+D)mod 4]预编码框1008和PAM4编 码框1010。

更详细地,图10中的传入数据1000由PMA子层906从FEC子层904接收, 该数据1000包括PMA:IS_UNITDATA_i.request(其中i=0到3)原语,其被用来 定义从PMA客户机到PMA的四个数据流的传递。由 PMA:IS_UNITDATA_0.request传输到PMA:IS_UNITDATA_3.request的数据由四 个经编码位的并行流组成,通道0-3中的每一个对应一个流。每一tx_bit参数为 ‘1’或‘0’。开始参数为真(TRUE)以指示并发tx_bit是FEC代码字中的第一、 第二、第三或第四FEC符号的第一位,否则开始参数为假(FALSE)。对于每次 交易,给tx-bit赋值C(i,m,n),其中i是通道编号,m是指示FEC代码字编号和 在每一代码字的开始的增量的索引,且n是指示在代码字内的位编号的索引。

插入开销框1002通过为每31280个FEC位插入40个开销位来创建开销帧的 序列。FEC位C(i,m,n)被映射到开销帧的持续序列中。开销帧的长度是31320位。 开销帧中的每一位记为F(i,p,q),其中:i是通道编号;p是指示帧编号和在每一帧 的开始处的增量的索引;且q是指示帧内的位编号的索引,范围在1到31320内。 帧的前40位,即F(i,p,1)到F(i,p,40)是开销位。接下来的31280位,即F(i,p,41) 到F(i,p,31320)包括来自23个相继的FEC代码字的位。

如下所示把开销位插入到帧:

F(i,p,1)=H(i,p,1)

F(i,p,2)=H(i,p,2)

F(i,p,...)=H(i,p,...)

F(i,p,40)=H(i,p,40)

对齐FEC代码字位,以使得F(i,p,41)是代码字的第一位,例如,F(i,p,41)= C(i,m,1)。以从FEC接收到FEC位的次序把FEC位插入到帧中,例如,F(i,p,42)= C(i,m,2),F(i,p,43)=C(i,m,3),等等。

插入终止位框1004通过为每45个开销帧位插入一终止位来创建终止块的序 列。终止块的长度是46位。终止块中的每一位记为T(i,r,s),其中:i是通道编号; r是指示框编号和在每一框的开始处的增量的索引;且s是指示在终止块内的位编 号的索引,范围为1到46。每一终止块的前45位,即T(i,r,1)到T(i,r,45),是开 销帧位。把帧位与终止块对齐,以使得开销位的第一位,即F(i,p,1)对应于终止 块的第一位,即T(i,r,1)。每一终止块中的第46位T(i,r,46)被设置为0。把开 销帧位以在开销帧内的位置的次序映射到终止块,例如,T(i,r,2)=F(i,p,2),T(i,r, 3)=F(i,p,3),等等。

PMA子层接下来经由格雷编码框1006把相继的位对映射到四个格雷编码中 的一个。把每一终止块的每一位对{A,B}转换成具有四种格雷编码水平中的一种的 格雷编码符号,如下所示:

{0,0}映射到0,

{0,1}映射到1,

{1,1}映射到2,且

{1,0}映射到3。

对应于每一终止块的格雷编码符号记为G(i,r,t),其中:i是通道编号;r是指 示终止块编号的索引;且t是指示在终止块内的符号编号的索引,范围为1到23。 将位予以配对以使得每一终止块的前两个位即T(i,r,1)和T(i,r,2)形成一对。每 一位对{T(i,r,2t-1)、T(I,r,2t)}映射到{A,B},且格雷编码结果被赋值给G(i,r, t)。根据终止块的最后的两个位形成格雷编码符号G(i,r,23),包括一个开销帧位和 一个终止位(值为0);因而G(i,r,23)即格雷编码终止符号总是取值0或3。

接下来由[1/(1+D)mod 4]预编码框1008执行格雷编码符号的预编码。预编码 器输出符号记为P(i,r,t),其中:i是通道编号;r是指示终止块编号的索引;且t 是指示在终止块内的符号编号的索引,范围为1到23。对于每一格雷编码符号G(i, r,t),由下列的算法确定预编码符号P(i,r,t):

格雷编码终止符号G(i,r,23)总是等于0或3。上面的预编码算法直接把该符 号应用到输出,因而重新初始化循环并确保预编码终止符号P(i,r,23)总是0或3。

由PMA子层906执行的最后操作是由PAM4编码框1010执行的PAM4编码。 PAM4编码符号记为Q(i,u),其中i是通道编号且u是指示符号编号的索引。每 一相继的预编码器输出符号P(i,r,t)被映射到四种PAM4水平中的一种,且被赋值 给PAM4编码器输出Q(i,32r+t)。在图2中示出且在上面描述了从预编码器输出符 号P(i,r,t)映射到PAM4编码符号Q(i,u)。在PAM4编码Q(i,32r+32)之后的终 止符号是-1或+1。

在接收方向,100GBASE-KP4PMA的角色是把PAM4编码信号从PMD改编 为FEC编码信号,以便传送给FEC以供进一步处理。在图11中示出改编过程的 一种实施例,且其包括PAM4解码框1100、[1/(1+D)mod 4]编码框1102、逆格雷 编码框1104、移除终止位框1106和移除开销框1108。概括地说,这些框中的每一 个执行以上在图10中所描述的相应的框的逆操作。因此,在此不提供进一步的细 节。

在如图3中所示出的发送(训练)时,为了简化以上所描述的链路建立过程 中的步骤(2),不把PAM4多水平信令用于帧标记、系数更新和状态报告数据。 在帧标记402、系数更新404和状态报告406的传送期间,PAM4发射器绕过PMA 发送和接收功能规范的开销帧、终止块、格雷编码和1/(1+D)mod 4预编码阶段。 这在图10a中说明,其中,绕过插入开销框1002、插入终止位框1004、格雷编码 框1006和[1/(1+D)mod 4]预编码框1008中的每一个,由多路复用器(MUX)1012 把数据1014重定向到PAM4编码框1010。因此,对于0,输出水平被限制为水平 -1,且对于1,输出水平被限制为水平+1,以便允许在劣质的和非均衡的信道上对 训练模式的容易的接收器锁定。

图11a中示出在帧标记402、系数更新404和状态报告406的传送期间用于处 理所接收的数据的相应的接收器操作。正如所说明的,MUX 1112被配置为输出来 自PAM4解码框1000的数据1114,绕过[1/(1+D)mod 4]编码框1102、逆格雷编码 框1104、移除终止位框1106和移除开销框1108的操作。

如以上所描述的,用于系数更新404和状态报告406的每一TFW包括一6UI 开销字段,其包括6个开销位。在一种实施例中,把开销位设置为提供DME逻辑 值‘1’,例如,被编码为000111或111000。这可以用来保持TFW的DC均衡。

在一种实施例中,通过使用系数更新和状态报告字段来实现奇偶校验方案。 在一种实现方式中,图7的系数更新字段表的单元6和图8的状态报告字段表被用 来发送奇偶校验位,这与由10GBASE-KR PHY规范为此单元所定义的发送全0形 成对比。分别为每一字段(系数更新和状态报告)计算两个奇偶校验位,以使得包 括奇偶校验位的每一字段整体上具有偶校验。奇偶校验是该字段中的逻辑1单元的 数量对2取模(不包括开销位)。在这种奇偶校验方案下,可以实现奇偶校验检查 以便增加针对敏感消息(例如,预设、初始化和接收器读取)的错误接收的保护。 在一种实施例中,如果在给定训练帧中的各个字段的边界内检测到奇偶校验违例, 则应当忽略该帧的控制信道的内容。

图12a和12b示出根据一个实施例的奇偶校验方案的各自示例。在每种情况 中,5:0奇偶校验字段所得到的DME值是‘1’。在图12a中,把比特模式111000 用于奇偶校验位。在图12b中,把比特模式000111用于奇偶校验位。

在一种实施例中,训练模式408使用当前在IEEE P802.3bj草案1.0版中所定 义的PMA发送和接收功能规范,以便允许发射器和接收器实行终止块、格雷编码 和1/(1+D)mod 4预编码阶段,同时绕过开销成帧器(framer)。在图10b和11b 中分别示出促成发射器和接收器操作的相应框图。训练模式408采用PAM4信令 中的全部4种水平来促成接收器校准。

在一种实施例中,终止块逻辑(即,图10b中的插入终止位框1004)的输入 数据1016包括被称为PRBS12的12位伪随机比特序列。PRBS12是从下列函数导 出的4095比特序列,

G(x)=l+x4+x10+x11+x12

在一种实施例中,每一TFW包括PRBS12数据的45个位加上一个终止位。 在对应于训练模式408的182TFW期间,发送PRBS12数据的两个完全序列(用 于PRBS12的8190个位,包括终止位在内是8372个位),如图4b和图13中所示 出。在一种实施例中,第二PRBS12序列包括第一PRBS12序列的反转的位,如图 4b中通过PRBS12a和PRBS12b所描述的。

除了图4b中所示出的示例训练模式之外,图14示出在仿真链路训练操作期 间生成的示例训练模式。注意该图左边部分,在该帧的帧标记和控制信道部分期间 的完全摆动信令。也请注意右边的在该帧的训练模式部分期间4水平信令。

在一种实施例中,按下列方式导出通道0-3的训练模式初始状态。在PRBS12 中的4095种可能初始状态当中,存在159种状态,下列过程对于这些状态创建DC 均衡结果:生成从初始状态开始的完全PRBS12,且然后,从相同的状态生成另一 完全PRBS12,其被反转并把大多数PMA数据编码(框终止、格雷编码、1/(1+D)mod 4预编码和PAM4映射)应用到数据。从这159种状态中,选择四种状态,对于这 四种状态,对输出进行DC均衡,且预编码器的最终状态是‘0’。在一种实施例 中,初始四种状态被选择为彼此相隔1/4周期,正如图中所说明的。满足前述条件 的一组示例性初始状态包括(在数据路径上发送的初始位,LSB优先):S0=0xl49, Sl=0x8C4,S2=0x00A,S3=0xAlC。对于每一物理通道i=0…3,训练序列应从状态 Si开始。如果通道被交换,这也将唯一地标识通道,且稍后保存通道次序标识。 对于初始PRBS状态的这种选择,由于初始预编码器状态是0,最终状态也是0。 这样的益处在于在切换到数据模式时(即,在链路初始化之后的运行时链路操作模 式)预编码器状态已知为0。在帧标记和控制信道传送期间,PRBS状态和预编码 器状态不应进展。

示例性实现环境和刀片服务器体系结构

能预想到,本文各实施例的各方面可以在各种类型的计算和联网设备中实现, 例如交换机、路由器和刀片服务器,诸如在数据中心和/或服务器群环境中所采用 的那些交换机、路由器和刀片服务器。通常,数据中心和服务器群中使用的服务器 包括阵列服务器配置,例如基于机柜的服务器或刀片服务器。这些服务器经由各种 网络配给而互连通信,网络配给例如为通过在各LAN之间的适当的交换和路由设 施把各组服务器划分成各LAN,以便形成私有内联网。例如,云主控设施可以通 常采用具有大量服务器的大型数据中心。

作为概括,图16a-c和图17中示出典型的刀片服务器组件和系统。在典型配 置下,机架式机箱1600被用来为多个服务器刀片(即,刀片)1602提供电源和通 信功能,每一刀片服务器刀片占用相应的插槽。(应注意,不需要占用机箱中的全 部插槽)。一个或多个机箱1600进而又可以安装在图16c中所示出的刀片服务器 机柜1603中。每一刀片在安装时经由一个或多个对接连接器耦合到接口板1604 (即,背板或中板)。通常,接口板将包括向刀片提供电源和通信信号的多个相应 对接连接器。在当前的实践下,许多接口板提供“热切换”功能——即是说,通过 适当的电源和数据信号缓冲,可以实时添加或移除(“热切换”)刀片,无需关闭 整个机箱。

在图16a和图16b中示出典型的中板接口板配置。接口板1604的背面被耦合 到一个或多个电源1606。通常,电源是冗余的和热切换的,耦合到适当的电源层 和调节电路,以便允许在电源故障的情况下继续操作。在一种可选的配置中,可以 使用电源阵列来向整个机柜的刀片供电,其中,不存在电源与机箱的一一对应关系。 使用多个冷却风扇1608来抽取空气穿过机箱以便冷却服务器刀片。

所有刀片服务器都要求的一项重要的特征是与其他它基础设施进行外部通信 的能力。通常经由一个或多个网络连接卡1610促成这一点,网络连接卡1610中的 每一个都耦合到接口板1604。一般地,网络连接卡可以包括含有多个网络端口连 接(例如,RJ-45端口)的物理接口,或可以包括被设计为直接连接到网络设备(例 如网络交换机、集线器或路由器)的高密度连接器。

刀片服务器通常提供用于管理各个刀片的操作的某种管理接口。通常由内建 网络或由一个或多个通信信道促成这一点。例如,可以在接口板上内建用于促成“私 有”或“管理”网络和适当的交换的一个或多个总线,或者可以通过紧耦合的网络 连线和网络来实现私有网络。可选地,可以由耦合到接口板的背面或前面的管理交 换机卡1612提供交换和其他管理功能。作为又一种选项,可以使用管理或配置服 务器来管理刀片活动,其中,经由标准计算机联网基础设施(例如以太网)来处理 通信。

参见图17,示出了示例性刀片1700的进一步细节。如以上所描述的,每一刀 片包括被配置为执行服务器型功能的单独的计算平台,即,是“卡上服务器(server  on a card)”。因此,每一刀片包括对常规服务器而言常见的组件,包括主印刷电 路板(主板)1701,其提供用于耦合适当的集成电路(IC)和安装到板上的其他组 件的内部连线(即,总线)。这些组件包括一个或多个处理器1702,其耦合到系 统存储器1704(例如,某种形式的随机存取存储器(RAM))、高速缓存存储器 1706(例如,SDRAM)和固件存储设备1708(例如,闪速存储器)。提供NIC(网 络接口控制器)芯片1710,用于支持常规的网络通信功能,例如用于支持在刀片 和外部网络基础设施之间的通信。其他所说明的组件包括状态LED(发光二极管) 1712、一组RJ-45控制台端口1714(为简单起见,仅示出其中的一个)和耦合到 接口板连接器1716的NIC 1715。附加的组件包括各种无源组件(即,电阻器、电 容器)、功率调节组件和外围设备连接器。

通常,每一刀片1700也可以提供板载存储。通常经由一个或多个盘驱动器 1718耦合到其中的一个或多个内建盘控制器和相应的连接器来促成这一点。例如, 典型的盘控制器包括SATA控制器、SCSI控制器等等。作为一个选项,盘驱动器 可以与各刀片相分离地被容纳在相同的或单独的机柜中,例如在把网络附加存储 (NAS)设备或后端存储子系统用于存储大量数据时就是这样的情况。

NIC 1710包括用于促成相应的联网操作的电路和逻辑,例如对物理层(LI) 和数据链路层操作(L2)的支持。通常,由将由在处理器1702上运行的操作系统主 控的操作系统网络栈来促成上层操作。然而,在一些实施例中,NIC可以经由嵌入 式逻辑等等采用其自己的网络栈。

在典型的数据中心部署中,网络交换元素包括机柜安装的设备,例如将占用 1U、2U或4U插槽,或可以经由一个或多个服务器刀片实现。可选地,网络交换 元素可以使用一个或多个服务器刀片来实现。

NIC 1715包括用于经由接口板1604在多个刀片1700之间实现高速通信的电 路和逻辑。在一种实施例中,NIC 1715被配置为实现对应于在此公开的100Gbps 实施例的信令和逻辑,包括用于实现100GBASE-KP4端口和关联链路训练操作的 电路和逻辑。为了进一步促成在100GBASE-KP4PHY上的刀片间通信,接口板1604 包括用于促成PHY的物理介质方面的适当的连接器、电路和连线(未示出连线)。 例如,电路可以包括根据图1中所示出的配置用于促成8个差分对上的信令的连接 器和连线。

通常,可以经由硬件(例如经由嵌入式逻辑)或经由硬件和软件的组合来实 现在此公开的链路训练实施例的各方面。例如,网络元素可以包括运行基于软件的 网络栈和经由用于执行在此描述的操作的各方面的软件实现的关联逻辑的处理器。 可选地,可以经由在NIC、大规模网络接口等等中的嵌入式逻辑实现类似的逻辑。

除了刀片服务器中的实现之外,本文的原理和教导可以经由诸如电信路由器 和交换机等的其他类型的设备实现。例如,典型的电信交换机包括带有耦合到背板 的多个板卡的机柜,其中,各板卡通常类似于刀片,且背板类似于刀片服务器中的 接口板。相应地,各板卡将配备有用于所实现的100GBASE-KP4端口的电路和逻 辑,且背板将包括用于促成100GBASE-KP4PHY的物理介质方面的连接器、电路 和连线。

尽管已经参考具体实现描述了一些实施例,但根据一些实施例的其他实现也 是可能的。另外,不需要以所说明和描述的具体方式排列附图中所说明的和/或在 此描述的元素或其他特征的排列和/或次序。根据一些实施例,许多其他排列也是 可能的。

在图中所示出的每一系统中,在一些情况中,各元素可以都具有相同的标号 或不同的标号,以便按时所表示的元素可以是不同的和/或相似的。然而,元素可 以足够灵活,从而具有不同的实现并与在此示出或描述的系统中的一些或全部一起 工作。附图中所示出的各种元素可以是相同的或不同的。哪一个被称为第一元素、 哪一个称为第二元素是任意的。

在详细描述和权利要求中,可以使用术语“耦合”和“连接”及其派生词。 应理解,不预期这些术语是彼此的同义词。相反,尤其是实施例,“连接”可以被 用来指示两个或更多个元素彼此直接物理接触或电气接触。“耦合”可以意指两个 或更多个元素处于直接物理接触或电气接触。然而,“耦合”也可以意指两个或更 多个元素相互不直接接触,但仍协同操作或彼此交互。

在这里,且通常地,算法被认为是引起期望结果的动作或操作的自洽序列。 这些动作或操作包括物理量的物理操纵。通常,尽管并不一定,这些量采取能够被 存储、传递、组合、比较以及操纵的电或磁信号的形式。已经证明,主要是出于一 般用途的原因,把这些信号称为位(比特)、值、元素、符号、字符、术语、数字 等等有时是方便的。然而,应理解,所有这些和类似术语与适当的物理量相关联, 且仅仅是适用于这些量的方便的标签。

实施例是发明的实现或示例。说明书中对“一个实施例”、“一种实施例”、 “一些实施例”或“其他实施例”的引用意味着结合各实施例描述的具体的特征、 结构或特性被包括在发明的至少一些实施例中,但并不必定被包括在发明的所有实 施例中。“一个实施例”、“一种实施例”或“一些实施例”的出现并不必定都是 指相同的实施例。

在具体的实施例或多个实施例中并非需要包括在此描述和说明的所有组件、 特征、结构、特性等等。例如,如果说明书声明“可(may)”、“可能(might)”、 “能(can)”或“能(could)”包括组件、特征、结构或特性,则不要求包括该 具体的组件、特征、结构或特性。如果说明书或权利要求提及“一个(a)”或“一 种(an)”元素,那么不是指存在仅一个元素。如果说明书或权利要求提及“附加” 元素,则不排除存在多于一个的附加元素。

上面对所说明的本发明的各实施例的描述,包括摘要中所描述的内容,不预 期是详尽的,也不预期把本发明限制在所公开的确切形式。尽管在此出于说明性目 的描述了本发明的特定实施例以及用于本发明的示例,但相关领域中的技术人员将 认识到,在本发明的范围内各种等效修改也是可能的。

根据上面的详尽描述,可以对本发明做出这些修改。下列的权利要求中所使 用的术语不应被解释成把本发明限制在说明书和附图中所公开的特定实施例。相 反,本发明的范围完全由下列权利要求确定,下列权利要求应根据所建立的权利要 求解释的法律原则来解释。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号