GPQ: Greedy Partial Quantization of Convolutional Neural Networks Inspired by Submodular Optimization

机译：GPQ：由子模块优化启发的卷积神经网络的贪婪部分量化

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

Recent work has revealed that the effects of neural network quantization on inference accuracy are different for each layer. Therefore, partial quantization and mixed precision quantization have been studied for neural network accelerators with multi-precision designs. However, these quantization methods generally require network training that entails a high computational cost or exhibit a significant loss of inference accuracy. In this paper, we propose a greedy search algorithm for partial quantization that can derive optimal combinations of quantization layers; notably, the proposed method exhibits a low computational complexity, O(N^{2) (N denotes the number of layers). The proposed Greedy Partial Quantization (GPQ) achieved 4.2 × model size compression with only -0.03% accuracy loss in ResNet50 and 2.5× compression with +0.015% accuracy gain in Xception. The computational cost of GPQ is only 2.5 GPU-hours in the case of EfficientNet-B0 8-bit quantization for ImageNet classification.}

机译：最近的工作透露，对于每层的技术对推理精度的影响对推理精度的影响是不同的。因此，针对具有多精度设计的神经网络加速器研究了部分量化和混合精度量化。然而，这些量化方法通常需要需要高计算成本或表现出显着的推理准确性损失的网络训练。在本文中，我们提出了一种贪婪的搜索算法，用于部分量化，可以推导出量化层的最佳组合;值得注意的是，所提出的方法表现出低计算复杂度O（n^{2 ）（n表示图层的数量）。所提出的贪婪偏量化（GPQ）实现4.2×模型大小压缩与ResNet50仅-0.03％的准确度损失和2.5×压缩与Xception + 0.015％的精度增益。 GPQ的计算成本在有效的网络分类的效率-B0 8位量化的情况下，GPQ的计算成本仅为2.5 GPU - 小时。}

著录项

来源
《IEEE International Conference on Soft Computing and Machine Intelligence》|2020年|106-109|共4页
会议地点
作者
Satoki Tsuji; Fuyuka Yamada; Hiroshi Kawaguchi; Atsuki Inoue; Yasufumi Sakai;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
Quantization (signal); Sensitivity analysis; Neural networks; Computational modeling; Optimization; Training; Tensors;

机译：量化（信号）;灵敏度分析;神经网络;计算建模;优化;培训;张量;

相似文献

外文文献
中文文献
专利

1. Automatically Design Convolutional Neural Networks by Optimization With Submodularity and Supermodularity [J] . Hu Wenzheng, Jin Junqi, Liu Tie-Yan, Neural Networks and Learning Systems, IEEE Transactions on . 2020,第9期

机译：通过用子骨折和超透模性优化自动设计卷积神经网络
2. Efficient Weights Quantization of Convolutional Neural Networks Using Kernel Density Estimation based Non-uniform Quantizer [J] . Sanghyun Seo, Juntae Kim Applied Sciences . 2019,第12期

机译：基于基于核密度估计的非统一量化器的高效权重量化卷积神经网络
3. Denoising convolutional neural network inspired via multi-layer convolutional sparse coding [J] . Wen Zejia, Wang Hailin, Gong Yingfan, Journal of electronic imaging . 2021,第2期

机译：去噪通过多层卷积稀疏编码启发的卷积神经网络
4. Optimized Quantization for Convolutional Deep Neural Networks in Federated Learning [C] . You Jun Kim, Choong Seon Hong Asia-Pacific Network Operations and Management Symposium . 2020

机译：联合学习中卷积深度神经网络的优化量化
5. Fast Algorithm For Quantized Convolutional Neural Networks [D] . Pappalardo, Alessandro. 2017

机译：用于量化卷积神经网络的快速算法
6. Automatic Recognition of Holistic Functional Brain Networks Using Iteratively Optimized Convolutional Neural Networks (IO-CNN) with Weak Label Initialization [O] . Yu Zhao, Fangfei Ge, Tianming Liu -1

机译：使用带有弱标签初始化的迭代优化卷积神经网络（IO-CNN）自动识别整体功能性脑网络
7. Optimization for Greedy Non-maximum Suppression Based on Multi-task Convolutional Neural Network [O] . Qingqing Hong, Qian Fan, Lifeng Zhang 2020

机译：基于多任务卷积神经网络的贪婪非最大抑制优化

GPQ: Greedy Partial Quantization of Convolutional Neural Networks Inspired by Submodular Optimization

摘要

著录项

相似文献

相关主题

期刊订阅