首页> 中国专利> 基于四片FPGA的验证片上网络多核处理器的开发板

基于四片FPGA的验证片上网络多核处理器的开发板

摘要

基于四片FPGA的验证片上网络多核处理器的开发板,四片FPGA芯片之间连接构成全互联结构,每一片FPGA芯片都设有GTX传输通道和GPIO传输通道分别与其它三片FPGA芯片连接,每片FPGA芯片分别设有电源管理模块、板级时钟驱动模块及存储系统;第二FPGA芯片与第四FPGA芯片上分别设有开发板的数据输入和数据输出接口,所述数据输入和数据输出接口为全双工差分的2.5Gbps光口。本发明仿存带宽达到759.2Gbps,这是目前其它多FPGA开发板的电路设计远不能达到的,片间互连吞吐率大于30Gbps,为FPGA硬件设计人员提供足够多硬件资源,以便验证和实现基于NoC的超大规模多核处理器的原型芯片设计。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-01-21

    未缴年费专利权终止 IPC(主分类):G05B19/042 授权公告日:20130807 终止日期:20131205 申请日:20111205

    专利权的终止

  • 2013-08-07

    授权

    授权

  • 2012-07-11

    实质审查的生效 IPC(主分类):G05B19/042 申请日:20111205

    实质审查的生效

  • 2012-06-13

    公开

    公开

说明书

技术领域

本发明涉及集成电路技术,为用于多核网络处理器设计/验证的开发板,适用于超大 规模集成电路软硬件协同设计验证,为片上网络多核处理器软硬件协同测试验证的平 台,具体为一种基于四片FPGA的验证片上网络多核处理器的开发板。

背景技术

由于基于传统片上系统SoC(System-on-Chip)的单芯片处理器在内核频率、片上通 信、功耗以及面积等方面面临着很大问题,基于片上网络NoC(Network-on-Chip)的多核 处理器应运而生,从体系架构上解决了前者所面临的诸多问题。NoC互连结构具有IP 间的并行通信、扩展性好以及吞吐量大等优势,并且解决了多核处理器的的体系结构问 题以及困扰总线结构的全局时钟问题。因此,NoC互连结构是多核处理器系统最有前途 的解决方案。

目前,FPGA芯片作为承载和验证基于NoC的多核处理器硬件设计的途径,已经成 为了研究热点,但是随着硬件设计的规模不断增加,一方面单片FGPA的硬件资源并不 能满足基于NoC的多核处理器需求,另一方面考虑到基于NoC的多核处理器大多面向 数据密集型的运算,对仿存和片间的数据通讯吞吐率要求很高。

发明内容

本发明需要解决的问题:现有的单片FPGA开发板不能满足超大规模集成电路设计 所需硬件资源的需求,开发板设计面临如何扩展开发板硬件资源,满足NoC的多核处 理器对仿存和片间的数据通讯吞吐率的要求,并保证开发板稳定运行的问题。

本发明的技术方案为:基于四片FPGA的验证片上网络多核处理器的开发板,四片 FPGA芯片之间连接构成全互联结构,每一片FPGA芯片都设有GTX传输通道和GPIO 传输通道分别与其它三片FPGA芯片连接,所述GTX传输通道由4路独立的RocketIO 通道组成,GTX传输通道提供64位宽,125MHz,10Gbps的数据传输,GPIO传输通 道由10对单端模式的通用输入/输出GPIO组成;每片FPGA芯片分别设有电源管理模 块、板级时钟驱动模块及存储系统,存储系统包括3组16位的DDR3SDRAM,2片36 位的SRAM和2片24位的Flash;第二FPGA芯片与第四FPGA芯片上分别设有开发 板的数据输入和数据输出接口,所述数据输入和数据输出接口为全双工差分的2.5Gbps 光口。

FPGA芯片为Xilinx XC6VLX550T FPGA芯片,设有全双工差分高速GTX接口 LVDS和单端模式的通用输入/输出GPIO接口,GTX传输通道通过LVDS接口连接, GPIO传输通道通过GPIO接口连接,4片FPGA芯片的JTAG接口串联成菊花链,通过 JTAG链式并结合Xilinx的iMPACT软件配置FPGA。

FPGA芯片的电源管理模块为:外部稳压供电12V,采用DC-DC开关电源和LDO 线性稳压电源,外部稳压供电的12V电源经DC-DC开关电源转换得到0.75V、1.0V、 1.5V、1.8V、2.5V、5V的电源,5V电源经LDO线性稳压电源转换得到1.2V、和3.3V 电源。

板级时钟驱动模块包括两种实时时钟,一种为外接有源晶振,采用EPSON公司的 EG-2101CA125M为各芯片的GTX传输通道提供125MHz的差分时钟驱动,另一种利 用25MHz的无源晶振和ICS公司的低噪声频率合成器ICS843001I-22,通过配置和调节 ICS843001I-22芯片的输出频率产生200MHz差分时钟,并通过时钟芯片ICS8543BGT 分出四路提供给每片FPGA芯片的存储单元,给DDR3SDRAM提供参考差分时钟。

存储单元中,由2片位宽为8bit,容量为2Gb的MT41J256M8HX-15E芯片组成得 到一组容量为4Gb位宽16bit的DDR3SDRAM,2片MT41J256M8HX-15E芯芯片的数 据、时钟、读写闪烁信号和数据掩码信号由FPGA分别控制,地址和控制命令信号共享; 2片Flash为BPI NOR Flash,容量为256Mbit,位宽为16bit,其中的一片Flash存有硬 件设计程序的bit文件和软件程序设计的bit文件,在开发板初始化过程中,当开发板上 电后或FPGA芯片自身复位键有效时,开发板从所述Flash加载硬件设计程序的bit文件 和软件程序设计的bit文件到各个FPGA的本地程序存储器,实现对FPGA BPI方式的 配置和编程。

开发板的PCB结构层将信号层夹在地层和电源层之间。

本发明设计了一种基于四片FPGA的片上网络多核处理器验证开发板,满足硬件资 源需求,是现有技术都没有达到的。本发明的创新之处一是,在一块开发板上集成了12 组DDR3SCRAM,每片FPGA芯片上带3组,其仿存带宽达到759.2Gbps,这是目前其 它多FPGA开发板的电路设计远不能达到的;二、FPGA芯片间同时采用GTX传输通 道全互连和GPIO传输通道全互连两种方式,GTX传输通道具有4×3.125Gbps的传输 数据量,GPIO传输通道全互连用于传输命令,其片间互连吞吐率大于30Gbps。本发明 集成四片Xilinx XC6VLX550T FPGA芯片的开发板能够为FPGA硬件设计人员提供足够 多硬件资源和端口,以便验证和实现基于NoC的多核处理器的原型芯片设计,也为以 后在片上网络NoC上研究多核并行计算提供了条件。

本发明可以将需要处理的任务划分多个子任务分配到不同FPGA芯片上的处理单 元分别处理,从而实现任务处理的并行化;其任务间数据通信速度和同步时间等不仅取 决于处理单元本身的通信速度,还取决于连接处理单元的通信互联网络,所以本发明开 发板的四片芯片利用FPGA提供的全双工差分高速GTX接口LVDS(Low-Voltage  Differential Signaling)和单端模式的高速通用输入/输出GPIO,实现片间的全互联网络 结构;其中差分高速GTX接口LVDS的数据通信遵循Aurora协议,实现FPGA间的大 量数据的高速传输,而单端模式的高速GPIO为FPGA开发人员提供自定义接口空间。

本发明设计了一种集成了四片Xilinx XC6VLX550T FPGA芯片的开发板,能够为 FPGA硬件设计人员提供足够多硬件资源,以便验证和实现基于NoC的超大规模多核处 理器的原型芯片设计。

本发明的优点:

1)丰富的逻辑资源,4片FPGA总逻辑资源:549888*4=2199552;

2)丰富的存储资源,24片DDR3共计48Gb,片外SRAM达到256Mb,片内RAM共 计115.8Mb。

3)存储端口吞吐率大:DDRIII 400MHz*16*12=76.8Gbps,片外SRAM 167 MHz*64*4=42.752Gbps;

4)FPGA设计灵活性、通用性强:可以采用不同的处理器,也可以采用相同的处理器, 如ARM等;

5)仿真综合软件支持好:第三方的仿真软件Modelsim能够很好地完成功能仿真,而 Xilinx公司的ISE则能很好地完成综合。

附图说明

图1是本发明开发板的总体框图。

图2是FPGA子系统框图。

图3是系统电源设计方案框图。

图4是低噪声频率合成器电路图。

图5是FPGA与DDR3的接口连接。

图6是BPI Flash接口设计。

图7是开发板实体图。

具体实施方式

本发明设计的开发板具有两点创新点:一是仿存带宽远大于其他多FPGA开发板, 二是片间通讯吞吐率超大。

如图1,本发明主板上有4片Xilinx XC6VLX550T芯片(FF1759),芯片间采用高 速GTX输入输出接口和普通I/O实现全互联,以便实现NoC多核处理器处理数据的流 水线并行,Xilinx对不同代的高速串行收发器的称法不同,V4时期的叫MGT,早期的 V5LXT/SXT是GTP,后来出的V5FXT带的是GTX。本发明为了FPGA主板未来的通 用性,采用全互联结构,每个FPGA芯片都设有3大组GTX IO接口分别与另外3块FPGA 芯片的对应GTX IO接口相连,这里GTX IO接口为LVDS,每个FPGA对另外3片FPGA 都既有GTX IO连接又有GPIO连接,GTX IO接口连接得到GTX传输通道,FPAG芯 片的每组GTX传输通道由4路独立的RocketIO通道组成,提供64位宽,125MHz,10Gbps 的数据传输,GPIO连接的传输通道由10对单端模式的通用输入/输出GPIO组成,GTX 传输通道可设置成Rocket IO模式等很多模式。如图1所示,4片FPGA芯片全互联, 片间吞吐率达10Gbps,全互联结构中,FPGA1和FPGA2,FPGA3,FPGA4分别连接, FPGA2和FPGA1,FPGA3,FPGA4分别连接,FPGA3和FPGA1,FPGA2,FPGA4 分别连接,FPGA4和FPGA1,FPGA2,FPGA3分别连接;本发明的整体架构是一个同 构对称的结构,每个FPGA芯片都有相同的电源管理模块、板级时钟驱动模块及存储系 统。如图2所示,每片FPGA芯片分别设有电源管理模块、板级时钟驱动模块及存储系 统,存储系统包括3组16位的DDR3SDRAM,2片36位的SRAM和2片24位的Flash; 另外,第二FPGA芯片与第四FPGA芯片上分别设有开发板的数据输入和数据输出接口, 所述数据输入和数据输出接口为全双工差分的2.5Gbps光口。

RocketIO在实际应用中,输入时钟、PLL参数设置以及PCB线路的设计与布局是 影响数据传输效果的最重要因素,本发明进行了优化设计,使得开发板的具有超大的片 间通讯吞吐率。下面主要描述本发明FPGA芯片的电源管理模块、板级时钟驱动模块及 存储系统,并简要描述本发明的开发板自身的PCB结构层分布。

通常,电源设计有两种实现方式:低压差线性稳压电源LDO与开关电源DC-DC。 LDO的特点是电源精度高、噪声小,比较适合于精密电路供电,其缺点是输出功率往 往不够大,并且功率的转换效率偏低。DC-DC的特点是功率转换效率高,能够提供较 大的电源功率,但相比较LDO而言其电源噪声会有所提高,因此DC-DC一般作为系统 整体稳压电源使用或直接为大功率器件供电。

为了使本发明的系统更具稳定性和扩展性,本发明的电源管理系统的带载能力至少 是现有估计功耗的两倍。由于本发明系统需要0.75V、1.0V、1.2V、1.5V、1.8V、2.5V 和3.3V稳压电源,考虑到本发明整个系统的功耗,本发明主要采用DC-DC这种效率高、 输出功率大的开关电源,而局部功耗较小、精度要求高的部分电路则采用LDO线性稳 压电源,充分结合开关电源与线性稳压电源各自的优势进行系统电源的设计。DC-DC 开关电源的芯片采用了凌力尔特公司的LTM4601;本发明系统的外部稳压供电12V。本 发明的电源方案如图3所示,外部稳压供电的12V电源经DC-DC开关电源转换得到 0.75V、1.0V、1.5V、1.8V、2.5V、5V的电源,5V电源经LDO线性稳压电源转换得到 12V、和3.3V电源。

本发明实现了两种实时时钟RTC方案。一种是外接有源晶振,选用EPSON公司 的EG-2101CA125M为整个系统的差分高速GTX接口提供125MHz的差分时钟驱动; 另外一种是利用25MHz的无源晶振和ICS公司的低噪声频率合成器ICS843001I-22,通 过配置和调节芯片可以精准的产生200MHz差分时钟,并通过时钟芯片ICS8543BGT分 出四路提供给每片FPGA所挂载的DDR3SDRAM的参考差分时钟,芯片具体电路参见 图4。第二种方式因为其时钟输出频率的可调节,使得其更具灵活性,也就为整个平台 的通用性和可扩展性做好了铺垫。

本发明的每片FGPA芯片外接有3组美光公司(Micron)的容量为2Gb,单片位宽 为8bit的MT41J256M8HX-15E(DDR3-1033)的存储器,由两片组成16bit宽度的数据总 线。XC6VLX550T FPGA能够支持SSTL15电平标准,能够和DDR3SDRAM进行无缝 连接,FGPA与DDR3SDRAM的接口如图5所示。

图5中只是给出了其中一组DDR3与FPGA的连接,其所连接的FPGABANK是通 过Xilinx公司的官方软件ISE开发环境锁定得到。FPGA的不同BANK的电平标准,用 户可以自己定义,本发明是参考ISE生成的UCF文件来给各个BANK输入电源,比如 BANK28和BANK38的VCCO使用1.5V的电源进行供电。两片DDR3芯片的数据、时 钟、读写闪烁信号和数据掩码信号使用FPGA分别控制,地址和控制命令信号共享。

本发明中采用的FPGA是基于SRAM架构来实现逻辑设计,所以在掉电后,编程 信息立即丢失。FPGA芯片在每次加电时,都必须重新下载由设计文件生成的配置数据 烧写文件。本发明开发板的每片FPGA芯片外接有两片相同的BPI NOR Flash,容量为 256Mbit,位宽为16bit。其中的一片Flash接口在系统初始化过程中使用,当系统上电 后或FPGA原型芯片复位键有效时,系统从片外的Flash加载硬件设计程序的bit文件到 各个FPGA的本地程序存储器,实现对FPGABPI方式的配置和编程;另外,在这一片 Flash还用来加载软件程序设计的bit文件。

本发明采用的XC6VLX550T FPGA芯片能够支持LVCOMS2.5V电平标准,能够和 BPINORFlash进行无缝连接,FPGA与BPINORFlash的接口如图6所示。

图6中BPI NOR Flash与FPGA相连的两个接口是特定的BANK,分别是BANK24 和BANK34;Flash的数据线和控制信号与FPGA BANK24相连,地址信号与BANK34 相连,其中的复位信号与BANK0的PROG B相连,硬件设计人员可以自行设定对应 BANK的电平标准。此外,在本发明中,4片FPGA芯片还通过JTAG接口连成传统的 菊花链,以便可以通过JTAG链式并结合Xilinx的iMPACT软件配置FPGA,菊花链用 来下载设计,只是把4片FPGA芯片的JTAG接口串成1个菊花链,这样,整个开发板 就只要通过一个接口进行编程,而RocketIO通道用来给灌入的硬件和软件通信用,实 现数据的高速传输,从而提高了本发明的通用性。

本发明的PCB结构层分布图如图7所示,将信号层夹在地层和电源层之间,增强 本发明的抗干扰性和信号完整性。开发板在制作时,其内层铜厚为18um,线宽约为 0.13mm,单端阻抗为50ohm,差分阻抗为100ohm。

综上所述,本发明设计了一种具有丰富硬件资源、高速传输的开发板集成电路,其 每片FPGA都是一个子系统,可作为独立的模块独立工作,也可形成一个整体为硬件设 计人员提供一个具有超大规模的逻辑资源、丰富的数据存储带宽和空间,高吞吐率和高 速实时的数据传输能力的平台。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号