DNNVM: End-to-End Compiler Leveraging Heterogeneous Optimizations on FPGA-Based CNN Accelerators

Xing Yu; Liang Shuang; Sui Lingzhi; Jia Xijie; Qiu Jiantao; Liu Xin; Wang Yushun; Shan Yi; Wang Yu

首页> 外文期刊>IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems >DNNVM: End-to-End Compiler Leveraging Heterogeneous Optimizations on FPGA-Based CNN Accelerators

【24h】

DNNVM: End-to-End Compiler Leveraging Heterogeneous Optimizations on FPGA-Based CNN Accelerators

机译：DNNVM：端到端编译器利用基于FPGA的CNN加速器上的异构优化

获取原文

获取原文并翻译 | 示例

获取外文期刊封面封底 >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

The convolutional neural network (CNN) has become a state-of-the-art method for several artificial intelligence domains in recent years. The increasingly complex CNN models are both computation-bound and I/O-bound. Field-programmable gate array-based accelerators driven by custom instruction set architecture (ISA) achieve a balance between generality and efficiency, but there is much on them left to be optimized. We propose the full-stack compiler deep neural network virtual machine (DNNVM), which is an integration of optimizers for graphs, loops and data layouts, an assembler, a runtime supporter, and a validation environment. The DNNVM works in the context of deep learning frameworks and transforms CNN models into the directed acyclic graph: XGraph. Based on XGraph, we transform the optimization challenges for both data layout and pipeline into graph-level problems. DNNVM enumerates all potentially profitable fusion opportunities by a heuristic subgraph isomorphism algorithm to leverage pipeline and data layout optimizations, and searches for the best choice of execution strategies of the whole computing graph. On the Xilinx ZU2@330 MHz and ZU9@330 MHz, we achieve equivalently state-of-the-art performance on our benchmarks by naive implementations without optimizations, and the throughput is further improved up to 1.26x by leveraging heterogeneous optimizations in DNNVM. Finally, with ZU9@330 MHz, we achieve state-of-the-art performance for VGG and ResNet50. We achieve a throughput of 2.82 TOPs/s and an energy efficiency of 123.7 GOPs/s/W for VGG. Additionally, we achieve 1.38 TOPs/s for ResNet50 and 1.41 TOPs/s for GoogleNet.

机译：卷积神经网络（CNN）已成为近年来几个人工智能域的最先进的方法。越来越复杂的CNN模型是计算绑定和I / O绑定。基于现场可编程的门阵列的加速器由自定义指令集架构驱动（ISA）在普遍性和效率之间实现平衡，但剩余有很多待优化。我们提出了全堆栈编译器深神经网络虚拟机（DNNVM），它是用于图形，环路和数据布局，汇编器，运行时支持者和验证环境的优化器的集成。 DNNVM在深度学习框架的背景下工作，并将CNN模型转换为定向的非循环图：XGraph。基于XGraph，我们将数据布局和管道的优化挑战转换为图形级问题。 DNNVM通过启发式子图同构算法枚举所有可能的有利可图的融合机会，以利用管道和数据布局优化，并搜索整个计算图的最佳执行策略选择。在Xilinx Zu2 @ 330 MHz和Zu9 @ 330 MHz上，我们通过在没有优化的情况下通过Naive实现的基准测试等效的最先进的性能，通过利用DNNVM中的异质优化，吞吐量进一步提高了1.26倍。最后，通过Zu9 @ 330 MHz，我们为VGG和RENET50实现了最先进的性能。我们实现了2.82个顶部/秒的吞吐量，为vgg提供了123.7个GOP / S / W的能效。此外，我们为Googlenet实现了Reset50和1.41顶部的1.38个顶部/秒。

著录项

来源
《IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems》 |2020年第10期|2668-2681|共14页
作者
Xing Yu; Liang Shuang; Sui Lingzhi; Jia Xijie; Qiu Jiantao; Liu Xin; Wang Yushun; Shan Yi; Wang Yu;
展开▼
作者单位

Xilinx Inc Dept Architecture Beijing 100083 Peoples R China|Tsinghua Univ Dept Elect Engn Tsinghua Natl Lab Informat Sci & Technol Beijing 100084 Peoples R China|Beijing Natl Res Ctr Informat Sci & Technol Beijing 100084 Peoples R China;

Tsinghua Univ Dept Elect Engn Tsinghua Natl Lab Informat Sci & Technol Beijing 100084 Peoples R China|Beijing Natl Res Ctr Informat Sci & Technol Beijing 100084 Peoples R China;

Xilinx Inc Dept Architecture Beijing 100083 Peoples R China;

Xilinx Inc Dept Architecture Beijing 100083 Peoples R China;

Tsinghua Univ Dept Elect Engn Tsinghua Natl Lab Informat Sci & Technol Beijing 100084 Peoples R China|Beijing Natl Res Ctr Informat Sci & Technol Beijing 100084 Peoples R China;

Xilinx Inc Dept Architecture Beijing 100083 Peoples R China;

Xilinx Inc Dept Architecture Beijing 100083 Peoples R China;

Xilinx Inc Dept Architecture Beijing 100083 Peoples R China;

Tsinghua Univ Dept Elect Engn Tsinghua Natl Lab Informat Sci & Technol Beijing 100084 Peoples R China|Beijing Natl Res Ctr Informat Sci & Technol Beijing 100084 Peoples R China;

展开▼
收录信息
原文格式 PDF
正文语种 eng
中图分类
关键词
Hardware; Optimization; Layout; Field programmable gate arrays; Throughput; Computer architecture; Deep learning; Compiler; convolutional neural network (CNN); field-programmable gate array (FPGA); fusion; optimizations;

机译：硬件;优化;布局;现场可编程门阵列;吞吐量;计算机架构;深入学习;编译器;卷积神经网络（CNN）;现场可编程门阵列（FPGA）;融合;融合;优化;优化;优化;优化;优化;优化;优化;

相似文献

外文文献
中文文献
专利

1. Optimizing FPGA-based CNN accelerator for energy efficiency with an extended Roofline model [J] . SAYED OMID AYAT, MOHAMED KHALIL-HANI, AB AL-HADI AB RAHMAN Turkish Journal of Electrical Engineering and Computer Sciences . 2018,第2期

机译：使用扩展的Roofline模型优化基于FPGA的CNN加速器以提高能效
2. Evaluation of an FPGA-Based Heterogeneous Multicore Platform with SIMD/MIMD Custom Accelerators [J] . Yasuhiro TAKEI, Hasitha Muthumala WAIDYASOORIYA, Masanori HARIYAMA, IEICE Transactions on fundamentals of electronics, communications & computer sciences . 2013,第12期

机译：利用SIMD / MIMD自定义加速器评估基于FPGA的异构多核平台
3. High-Performance FPGA-Based CNN Accelerator With Block-Floating-Point Arithmetic [J] . Lian Xiaocong, Liu Zhenyu, Song Zhourui, IEEE transactions on very large scale integration (VLSI) systems . 2019,第8期

机译：具有块浮点算法的基于FPGA的高性能CNN加速器
4. Optimized FPGA-based Deep Learning Accelerator for Sparse CNN using High Bandwidth Memory [C] . Chao Jiang, David Ojika, Bhavesh Patel, IEEE Annual International Symposium on Field-Programmable Custom Computing Machines . 2021

机译：基于FPGA的深度学习加速器，用于使用高带宽存储器的稀疏CNN
5. Artificial Neural Network Optimizations for FPGA-Based Accelerators: Exploration of Low Numeric Precision, Sparsity, and Evolutionary Algorithms [D] . Colangelo, Philip . 2020

机译：基于FPGA的促进者的人工神经网络优化：低数字精度，稀疏性和进化算法的探索
6. Families of FPGA-Based Accelerators for Approximate String Matching [O] . Tom Van Court, Martin C. Herbordt -1

机译：基于FPGA的加速器家族用于近似字符串匹配
7. Optimizing FPGA-based CNN accelerator for energy efficiency with an extended Roofline model [O] . SAYED OMID AYAT, MOHAMED KHALIL-HANI, AB AL-HADI AB RAHMAN 2018

机译：优化基于FPGA的CNN加速器，以扩展屋顶线模型的能效
8. Comprehensive Security Analysis of and an Implementation Framework for Embedded Software Attestation Methods Leveraging FPGA-Based System-on-a-Chip Architectures. [R] . Reber, P. A. 2017

机译：利用基于FpGa的片上系统架构的嵌入式软件认证方法的综合安全性分析和实现框架。

DNNVM: End-to-End Compiler Leveraging Heterogeneous Optimizations on FPGA-Based CNN Accelerators

摘要

著录项

相似文献

相关主题

期刊订阅