首页> 外国专利> OPTIMIZATION METHODS FOR QUANTIZATION OF NEURAL NETWORK MODELS

OPTIMIZATION METHODS FOR QUANTIZATION OF NEURAL NETWORK MODELS

机译:神经网络模型量化的优化方法

摘要

Embodiments relate to systems and methods to optimize quantization of tensors of an AI model. According to one embodiment, a system receives an AI model having one or more layers. The system receives a number of input data for offline inferencing and applies offline inferencing to the AI model based on the input data to generate offline data distributions for the AI model. The system quantizes one or more tensors of the AI model based on the offline data distributions to generate a low-bit representation AI model, where each layer of the AI model includes the one or more tensors, where the one or more tensors include the one or more tensors. In one embodiment, the system applies online inferencing using the low-bit representation AI model to generate online data distributions for a feature map, and quantizes a feature map tensor based on the online data distributions.
机译:实施例涉及优化AI模型的张量的量化的系统和方法。 根据一个实施例,系统接收具有一个或多个层的AI模型。 该系统接收多个输入数据,用于离线推断,并基于输入数据将脱机推断为AI模型,以为AI模型生成脱机数据分布。 系统基于离线数据分布量化AI模型的一个或多个张量,以生成低位表示AI模型,其中AI模型的每层包括一个或多个张量,其中一个或多个张量包括一个或多个张量 或更多的张量。 在一个实施例中,系统使用低比特表示AI模型在线推理在线推理,以生成特征映射的在线数据分布,并基于在线数据分布来量化特征映射张量。

著录项

  • 公开/公告号US2021248456A1

    专利类型

  • 公开/公告日2021-08-12

    原文格式PDF

  • 申请/专利权人 BAIDU USA LLC;

    申请/专利号US202016784223

  • 发明设计人 MIN GUO;MANJIANG ZHANG;SHENGJIN ZHOU;

    申请日2020-02-06

  • 分类号G06N3/08;G06F16/22;G06N3/04;

  • 国家 US

  • 入库时间 2022-08-24 20:33:58

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号