首页> 中国专利> 用于八插口一跃接SMP拓扑结构的封装

用于八插口一跃接SMP拓扑结构的封装

摘要

提供一种机构以用于封装多插口、一跃接对称多处理器拓扑结构。机构经由第一多个焊区阵列(LGA)连接器将第一多个处理器模块连接至第一多插口平面。机构经由第二多个LGA连接器将第一多插口平面连接至重布线卡的第一侧。机构经由第三多个LGA连接器的各自一个将第二多个处理器模块的每个连接至第二多插口平面。机构经由第四多个LGA连接器将第二多插口平面连接至重布线卡的第二侧。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-04-24

    授权

    授权

  • 2015-07-22

    实质审查的生效 IPC(主分类):G06F15/78 申请日:20141119

    实质审查的生效

  • 2015-06-24

    公开

    公开

说明书

技术领域

本申请总体涉及一种改进的数据处理设备和方法,并且更具体 地涉及用于提供用于八插口一跃接(one-hop)对称多处理拓扑结构 的封装的装置。

背景技术

对称多处理(SMP)涉及其中两个或更多个等同处理器连接至 单个共用主存储器的多处理器计算机硬件和软件架构。处理器能完 全访问所有I/O装置。所有处理器同等地处理,没有任何一个保留用 于特殊目的。今天最普通的多处理器系统使用SMP架构。在多核处 理器的情形中,SMP架构可以应用于将它们作为分立处理器进行处 理的核芯。

SMP系统将多处理器系统与独立运行的处理器的库紧密耦合。 处理器执行不同的程序并且对不同数据进行操作。处理器具有共享 共用资源(存储器、I/O装置、中断系统等等)的能力。处理器可以 使用总线、交叉开关或片上网状网路而互连。使用总线或交叉开关 的SMP的可比例缩放性的瓶颈在于各个处理器、存储器与磁盘阵列 之间互连的带宽和功耗。

发明内容

在一个示意性实施例中,提供一种在数据处理系统中的用于封 装多插口一跃接对称多处理器拓扑结构的方法。该方法包括将第一 多个处理器模块中的每个处理器模块经由第一多个焊区阵列(LGA) 连接器的相应连接器连接至第一多插口平面。该方法进一步包括将 第一多插口平面经由第二多个LGA连接器连接至重布线卡的第一 侧。方法进一步包括将第二多个处理器模块的每个处理器模块经由 第三多个LGA连接器的相应LGA连接器连接至第二多插口平面。 该方法进一步包括将第二多个插口平面经由第四多个LGA连接器连 接至重布线卡的第二侧。

在其它一些示意性实施例中,提供了一种包括具有计算机可读 程序的计算机可使用或可读介质的计算机程序产品。当计算机可读 程序在计算装置上执行时使得计算装置执行如上列出的关于方法示 意性实施例的操作的各种相应操作及其组合。

在又一示意性实施例中,提供一种系统/设备。系统/设备可以包 括一个或多个处理器以及耦合至一个或多个处理器的存储器。存储 器可以包括当由一个或多个处理器执行时使得一个或多个处理器执 行如上列出关于方法示意性实施例的操作的各自一个及其组合的指 令。

本发明的这些和其它特征和优点将描述在本发明的示例性实施 例的以下详细描述说明中,或者考虑到此而将对于本领域技术人员 变得明显。

附图说明

当结合附图阅读时将通过参照示意性实施例的以下详细描述说 明而最佳理解本发明以及其优选使用模式和其它目的和优点,其中:

图1示出了其中可以实施示意性实施例的方面的示例性对称多 处理器系统的绘制图;

图2A和图2B示出了根据示意性实施例的通过堆叠的焊区阵列 和重布线卡垂直互连了两个四插口平面的封装技术;

图3A至图3C示出了根据示意性实施例的八插口、一跃接封装 的各个示意图;

图4是示出了根据示意性实施例的用于提供通过堆叠的焊区阵 列和重布线卡垂直互连了两个四插口平面的封装技术的装置的操作 的流程图;以及

图5是用于装置设计、制造和/或测试的设计方法的流程图。

具体实施方式

示意性实施例提供了用于八插口、一跃接对称多处理拓扑结构 的封装。对称多处理(SMP)系统展现了通过增大SMP互连二分带 宽和通过减小通过SMP互连的最坏情形延迟而受益的比例特性。例 如,SMP系统展现了使得包括N个处理器的系统的系统吞吐量紧密 逼近单个处理器吞吐量的N倍的属性。可以通过限制分级层的数目 或者SMP系统中处理器芯片之间连接的跃接来显著减小最坏情形延 迟。

今天的最先进的商业SMP架构在单个一跃接节点中连接最多四 个处理器。这通过将所有四个处理器与专用的点对点总线连接来实 现,这要求总共六个总线。将该高性能节点比例缩放至一跃接节点 中八个处理器芯片将需要二十八个总线。没有现有的封装技术将实 现八处理器、一跃接节点,除非具有非常窄(例如<10GB/s)的带宽 总线。因为互连带宽严重限制了比例缩放性能,与现有封装技术约 束兼容的窄总线通常对于在内节点连接是不可接受的,并且因此具 有八个处理器芯片的节点并未在商业可行的SMP系统中实现。

示意性实施例描述了可以用于在一跃接节点中互连八个或更多 处理器芯片的具有显著计算性能优点的新颖封装互连技术。也实现 了八处理器节点系统的额外性能优点,这是因为节点中每个处理器 芯片可以经由第二阶层连接而连接至额外的节点。在现有技术中, 四芯片节点可以连接至最多八个其它节点,从而提供了在双阶层系 统架构中连接的总共三十二个处理器芯片,示意性实施例使得八芯 片节点互连至八个其它节点,从而得到在双重系统架构中的128个 处理器芯片,因此使得互连系统的尺寸增大为四倍。

如在此使用的“机构”可以是形式为设备、工序或计算机程序 产品的示意性实施例的功能或方面的实施方式。在此所述的机构可 以实施作为专用硬件,执行在通用硬件上的软件,存储在介质上的 软件指令以使得可以由专用或通用硬件易于执行指令,用于执行功 能的工序或方法,或者以上的组合。

下文中将参照附图更详细描述本发明的示意性实施例的方面和 优点。应该知晓的是附图仅意在作为本发明的示例性实施例的示意 说明。本发明可以包括附图中未明确示出但是考虑到示意性实施例 的本说明书对于本领域技术人员将容易地明显的方面、实施例以及 对于所示示例性实施例的修改例。

如本领域技术人员将知晓的,本发明的方面可以包含作为系统、 方法或计算机程序产品。因此,本发明的方面可以采取完全硬件实 施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合 了可以均通常在此称作“电路”、“模块”或“系统”的软件和硬 件特征的实施例的形式。此外,本发明的方面可以采取具有包含在 其上的计算机可使用程序代码的任何一个或多个计算机可读介质中 的计算机程序产品的形式。

可以采用一个或多个计算机可读介质的任意组合。计算机可读 介质可以是计算机可读信号介质或计算机可读存储介质。计算机可 读存储介质是电子、磁性、光学、电磁或半导体本质的系统、设备、 或装置,前述的任何合适的组合,或者其等价形式。计算机可读存 储介质的更多具体示例(非穷举列表)将包括以下:具有存储能力 的电学装置,便携式计算机磁盘,硬盘,随机访问存储器(RAM), 只读存储器(ROM),可擦除可编程只读存储器(EPROM或闪存), 基于光纤的装置,便携式小型盘只读存储器(CDROM),光学存储 装置,磁性存储装置,或者前述的任何合适的组合。在该文献的上 下文中,计算机可读存储介质是可以包含或存储由指令执行系统、 设备或装置使用或者与其连接的任何有形介质。

在一些示意性实施例中,计算机可读介质是非临时计算机可读 介质。非临时计算机可读介质是并非无实体信号或传播波形、也即 并非本质上为纯信号或传播波形的任何介质。非临时计算机可读介 质可以利用信号和传播波形,但是其自身并非信号或传播波形。因 此,例如,以任何方式利用了信号的诸如例如用于维持它们状态的 存储装置的各种形式以及其它类型的系统、装置或设备可以视作在 本说明书范围内的非临时计算机可读介质。

另一方面,计算机可读信号介质可以包括具有包含在其中的计 算机可读程序代码、例如在基带或者作为载波的一部分的传播的数 据信号。该传播的信号可以采取任何多种形式,包括但不限于电磁、 光学或其任何合适的组合。计算机可读信号介质可以是并非计算机 可读存储介质并且可以通信、传播或输运由指令执行系统、设备或 装置所使用或者与其连接的任何计算机可读介质。类似的,计算机 可读存储介质是并非计算机可读信号介质的任何计算机可读介质。

包含在计算机可读介质上的计算机代码可以使用任何合适的介 质传输,包括但不限于无线、有线、光纤光缆、射频(RF)等,或 者其任何合适的组合。

用于执行用于本发明的方面的操作的计算机程序代码可以编写 在一个或多个程序语言的任何组合中,包括诸如JavaTM、SmalltalkTM、 C++等的面向对象的编程语言,以及诸如“C”编程语言或类似编程 语言的传统过程编程语言。程序代码可以完全执行在用户的计算机 上,部分地执行在用户的计算机上,作为独立软件包,部分执行在 用户的计算机上而部分执行在远程计算机上,或者完全执行在远程 计算机或服务器上。在后者的情形中,远程计算机可以通过任何类 型网络连接至用户的计算机,网路类型包括局域网(LAN)或广域 网(WAN),或者可以形成至外部计算机的连接(例如通过使用互 联网服务提供商的互联网)。

以下将参照根据本发明示意性实施例的方法、设备(系统)和 计算机程序产品的流程示意图和/或结构图来描述本发明的方面。应 该理解的是可以由计算机程序指令实施流程示意图和/或结构图的每 个组块以及流程示意图和/或结构图中的组块的组合。这些计算机程 序指令可以提供至通用计算机、专用计算机或其它可编程数据处理 设备的处理器以产生机器,使得经由计算机或其它可编程数据处理 设备的处理器执行的指令形成了用于实施流程图和/或结构图中组块 所指定的功能/动作的机构。

这些计算机程序指令也可以存储在计算机可读介质中,其可以 指导计算机、其它可编程数据处理设备或其它装置以特定方式实现 功能,以使得存储在计算机可读介质中的指令产生了包括实施了流 程图和/或结构图组块中所指定功能/动作的指令的制造产品的商品。

计算机程序指令也可以载入计算机、其它可编程数据处理设备 或其它装置之上以使得一系列操作步骤执行在计算机、其它可编程 设备或其它装置上以产生计算机实施的程序方法以使得执行在计算 机或其它可编程设备上的指令提供了用于实施流程图和/或结构图组 块中所指定功能/动作的程序方法。

附图中的流程图和结构图示出了根据本发明的各个实施例的系 统、方法和计算机程序产品的可能的实施方式的架构、功能和操作。 在这点上,流程图或结构图中每个组块可以代表模块、程序段、或 代码的一部分,其包括用于实施指定逻辑功能的一个或多个可执行 指令。也应该注意的是,在一些备选实施方式中,组块中标注的功 能可以以不同于附图中标注的顺序发生。例如,示出为连续的两个 组块可以实际上基本上同时执行,或者组块可以有时以相反顺序执 行,取决于所涉及的功能。也应该注意的是,结构图和/或流程示意 图的每个组块以及结构图和/或流程示意图中组块的组合可以由执行 了指定的功能或动作的专用基于硬件的系统实施,或者由专用硬件 和计算机指令的组合而实施。

图1是示出了可以适用于示意性实施例的方面的示例性对称多 处理系统的结构图。对称多处理(SMP)系统100包括经由多个总 线104连接的多个处理器101a-101h。每个处理器101a-101h可以 具有多个处理器核心。对于最佳性能和比例缩放而言,总线104可 以是宽带宽、点对点的总线。

每个处理器101a-101h连接至相应的存储器102a-102h。存储 器102a-102h可以例如是双内联存储器模块(DIMM)。

每个处理器101a-101h也连接至相应的I/O接口103a-103h。 I/O接口可以例如是外围部件接口(PCI)适配器,诸如PCI快速(PCIe) 适配器。在所示的示例中,SMP系统100是使用I/O适配器103a- 103h连接至其它节点的单个节点。也即,处理器101a-101h在一个 跃接中经由总线104相互通信,并且经由I/O适配器103a-103h连 接至第二阶层中的其它节点的处理器。

根据示意性实施例,提供封装互连技术,其可以用于在一跃接 节点中互连八个或更多处理器芯片,诸如处理器101a-101h。封装 互连技术也可以包括在相同SMP节点封装上的存储器102a-102h 和I/O适配器103a-103h。

如上所述,当前可用的SMP系统可以连接至平面上高达四个单 独封装的处理器芯片或者连接至多芯片模块(MCM)上的高达四个 处理器芯片。在单个平面上放置多于四个处理器芯片变得不切实际, 因为线路板上需要的单个层必需采用足够带宽连接所有四个处理器 芯片。此外,商业通用SMP系统中的每个处理器芯片需要靠近相应 处理器的足够的存储卡。这限制了对于多于四个处理器芯片的在平 面上可用的空间。

多芯片模块已经限制于四个处理器芯片,因为大量数目互连偏 离了需要到达存储器的MCM以及放置足够的存储器靠近MCM以服 务多于四个处理器芯片的难度。因此,不可能使用现有技术中所述 的封装技术实现高带宽、八节点、一跃接的系统。

典型的节点(平面)由处理器(插口)、它们相关联的存储器 (DIMM)和电源分布(调节器)以及其它系统部件构成。给定系统 机架、处理器模块、DIMM、调节器等的通常尺寸,难以在单个平面 上安装多于四个插口以及它们相关联的DIMM和调节器。这意味着 为了制造八插口节点,两个平面必需互连。使用两个平面连接这些 八个处理器芯片需要在两个平面之间的十六个互连链接。现有的平 面外互连方案、诸如铜电缆或柔性电缆无法提供所需的管脚密度以 在所需总线宽度下容纳十六个平面间链接。降低总线宽度意味着减 小SMP带宽,因此降低了系统性能。

图2A和图2B示出了根据示意性实施例的通过堆叠焊区阵列和 重布线卡垂直互连两个四插口平面的封装技术。参照图2A,使用焊 区阵列(LGA)连接器203将四个处理器芯片的第一组201连接至 第一平面204。处理器芯片的第一组201中的每个芯片具有对应的散 热器202。焊区阵列(LGA)是用于集成电路(IC)的表面安装封装 的类型,其显著具有在插口而非集成电路上的管脚。每个LGA连接 器203可以通过使用插口电连接至印刷电路板(PCB)或平面204 或者通过焊接直接电连接至板。平面204提供了在处理器的第一组 201之间十六个互连链接。

使用焊区阵列(LGA)连接器213将四个处理器芯片的第二组 211连接至第二平面214。处理器芯片的第一组211中每个芯片具有 对应的散热器212。平面214在处理器的第二组211之间提供六个互 连链接。注意,第二平面214相对于第一平面204已经倒转。

第一平面204经由LGA连接器206在第一侧上与重布线卡205 互连。第二平面214经由LGA连接器216在第二侧上与重布线卡205 互连。重布线卡205在平面204、214之间提供了十六个互连链接。 此外,平面204提供从处理器201至重布线卡205的互连链接,以 及平面214提供从处理器211至重布线卡205的互连链接。重布线 卡可以例如使用内建层叠技术、高密度互连(HDI)技术、或者印刷 电路板(PCB)技术。

如图2A所示,LGA连接器206和LGA连接器216偏移以使得 向下布线至重布线卡的总线被约束至插口占用区域的仅一半。这导 致仅需要由加强件保持的LGA连接器的两个堆叠的结构。这在机械 地上是期望的。不具有该需求将导致LGA连接器的四堆叠,这在机 械上更为复杂。然而,四堆叠方案使得更多引线避开并且布线通过 重布线卡。

示意性实施例的垂直堆叠方案允许在十六个平面间链接上显著 更大的总线宽度(至少是总线宽度的二倍)。因此,如图2A所示的 封装技术与电缆/柔性方案相比提供了远远更好的带宽,减小了平面 间链接的延迟,并且改进了信号完整性特性。

图2B示出了从处理器的第一组中的处理器201去往处理器的第 二组中的处理器211的平面间总线。平面间总线通过LGA连接器 203、第一平面204和LGA连接器206将处理器201连接至重布线 卡205。重布线卡205提供了从平面204至平面214的平面间链接。 平面间总线通过LGA连接器216、第二平面214和LGA连接器213 将重布线卡205连接至处理器211。

图3A至图3C示出了根据示意性实施例的八插口、一跃接封装 的各个示意图。图3A示出了在第一视角中封装的立体视图。封装包 括两个平面304、314。第一平面304具有四个处理器插口301和四 组存储器插槽302。每个处理器插口301可以具有与散热器连接的处 理器芯片。存储器插槽302可以配置用于接受存储器模块,例如诸 如双内联存储器模块(DIMM)。第二平面314类似于第一平面304, 但是上下翻转。第一平面304和第二平面314经由重布线卡305连 接。

每个平面也具有电压调节器模块(VRM)303。封装也包括一个 或多个I/O适配器310。I/O适配器310可以例如是外围部件接口 (PCI)适配器,并且可以经由PCI连接器插槽而连接。

图3B示出了以第二视角的封装的侧视图。如图可见,第一平面 304和第二平面314经由重布线卡305连接。

图3C示出了以第三视角的俯视图。如图可见,每个平面具有用 于四个处理器插口301以及它们相关联的存储器插槽302和电压调 节器303的足够空间。

图4是示出了根据示意性实施例的用于提供通过堆叠焊区阵列 和重布线卡垂直互连了两个四插口的封装技术的机构的操作的流程 图。操作开始(步骤400),并且机构使用焊区阵列(LGA)连接器 将具有散热器的处理器的第一组附接至第一平面(步骤401)。机构 随后使用LGA连接器将具有散热器的处理器的第二组附接至类似于 第一平面但是上下翻转的第二平面(步骤402)。机构使用偏移LGA 连接器将第一平面和第二平面附接至重布线卡(步骤403)。此后, 操作结束(步骤404)。

图5示出了用于在装置设计中示例性的制造和/或测试的示例性 设计流程500的结构图。设计流程500可以取决于所设计的装置类 型而改变。例如,用于构建芯片封装拓扑结构或系统平面的设计流 程500可以不同于用于设计专用IC(ASIC)的设计流程500。设计 结构520优选地是至设计方法510的输入,并且可以来自IP提供商、 核心开发商或者其它设计公司,或者可以由设计流程的操作者产生, 或者来自其它来源。设计结构520包括形式为图表或HDL硬件描述 语言(例如Verilog、VHDL、C等)的如图2A、图2B和图3A至图 3C所示的本发明的实施例。设计结构520可以包含在一个或多个机 器可读介质商。例如,设计结构520可以是如图2A、图2B和图3A 至图3C所示本发明实施例的文本文件或图形表示。设计方法510优 选地将如图2A、图2B和图3A至图3C所示本发明的实施例综合(或 者转换)成为网表580,其中网表580例如是引线、晶体管、逻辑门、 控制电路、I/O、模型等等的列表,其描述了在集成电路设计中至其 它元件和电路的连接并且记录在至少一个机器可读介质上。其可以 是迭代方法,其中取决于对于电路的设计规范和参数而一次或者多 次再综合网表580。

设计方法510可以包括使用各种输入;例如,来自库元件530 的输入,其可以覆盖一组普遍使用的元件、电路和装置,包括模型、 版图和符号表示,用于给定的制造技术(例如不同的技术节点,32nm、 45nm、90nm等等),设计规范540,特性数据550,验证数据560, 设计规则570,以及测试数据文件585(其可以包括测试图形和其它 测试信息)。设计方法510可以进一步包括例如标准电路设计方法, 诸如时序分析、验证、设计规则检查、布图和布线操作等等。集成 电路设计领域技术人员可以知晓设计方法510中使用的可能的电子 设计自动化工具和应用程序的范围而不脱离本发明的范围和精神。 本发明的设计结构不限于任何具体设计流程。

设计方法510优选地将如图2A、图2B和图3A至图3C所示的 本发明实施例以及任何额外的集成电路设计或数据(如果可应用的 话)转换为第二设计结构590。设计结构590以用于集成电路版图数 据交换的数据格式驻留在存储介质上(例如以GDSII(GDS2)、GL1、 OASIS或用于存储这些设计结构的任何其它合适的格式而存储的信 息)。设计结构590可以包括的信息诸如例如测试数据文件、设计 内容文件、制造数据、版图参数、引线、金属的层、通孔、形状、 用于通过制造线条布线的数据、以及装置制造商所需用于制造如图 2A、图2B和图3A至图3C所示本发明实施例的任何其它数据。设 计结构590随后可以进至阶段595,其中例如设计结构590:进至下 线(tape-out),发布至制造,发布至掩模工作室,发送至另一设计 工作室,发送回客户等等。

如上所述,应该知晓的是示意性实施例可以采取完全硬件实施 例、完全软件实施例或者包含硬件和软件元件的实施例的形式。在 一个示例性实施例中,示意性实施例的机构实施为软件或程序代码, 其包括但不限于固件、驻留软件、微代码等等。

适用于存储和/或执行程序代码的数据处理系统将包括通过系统 总线直接或间接耦合至存储元件的至少一个处理器。存储元件可以 包括在程序代码的真实执行期间采用的局部存储器,大容量存储器, 以及提供了至少一些程序代码的临时存储以便于减少在执行期间必 需从大容量存储器检索代码的次数的高速缓存。

输入/输出或I/O装置(包括但不限于键盘、显示器、定点装置 等等)可以直接或者通过插入I/O控制器而耦合至系统。网络适配器 也可以耦合至系统以使得数据处理系统变得通过插入个人或共用网 络而耦合至其它数据处理系统或远程打印机或存储装置。调制解调 器、电缆调制解调器和以太网卡仅是少数当前可获得的网络适配器 类型。

已经为了解释和说明的目的展示了本发明的说明书,并且并非 意在穷举或者以所述形式限定至本发明。许多修改和改变对于本领 域技术人员而言是明显的。选择并描述实施例以便于最佳地解释本 发明的原理、实际的应用,以及用于使得本领域技术人员对于具有 适用于特定使用预期的各个修改例的各个实施例而理解本发明。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号