quantizing deep convolutional networks for efficient inference

2024-04-10 22:18

本文主要是介绍quantizing deep convolutional networks for efficient inference,希望对大家解决编程问题提供一定的参考价值,需要的开发者们随着小编来一起学习吧!

标题: 量化深层卷积网络用于有效推理

摘要

本文综述了一种量化卷积神经网络的方法,用于整数权重和激活的推理。

  1. 采用每个通道权重量化和每层激活量化到8位精度方法, 会对网络模型测试精度下降2%左右. 优点是适用于各种CNN架构。
  2. 通过将权重量化为8位,模型大小可以减少4倍. 即使不支持8位算法,也可以通过简单的训练后权重量化来实现。
  3. 我们对CPU和DSP上网络量化产生的延迟进行基准测试,并观察到量化使得模型推理达到2-3倍加速. 与CPU相比,具有固定点SIMD功能的专用处理器(如带有HVX的Qualcomm QDSP)的加速高达10倍。
  4. 量化感知训练可以提供进一步的改进,将8位精度下的浮点间距减少到1%。量化感知训练还允许将权重精度降低到4位,精度损失从2%到10%,对于较小的网络工程,精度下降更高。
  5. 我们介绍的工具对tensorflow 和tensorflowLite做量化卷积网络操作.
  6. 我们回顾了量化感知训练的最佳实践,以获得量化权重和激活的高精度。
  7. 我们建议每个通道权重量化和每层激活量化是硬件加速和内核优化的首选量化方案。我们还建议未来用于优化推理的处理器和硬件加速器支持4、8和16位精度。

这篇关于quantizing deep convolutional networks for efficient inference的文章就介绍到这儿,希望我们推荐的文章对编程师们有所帮助!



http://www.chinasem.cn/article/892297

相关文章

Deep Learning复习笔记0

Key Concept: Embedding: learned dense, continuous, low-dimensional representations of object 【将难以表示的对象(如图片,文本等)用连续的低维度的方式表示】 RNN: Recurrent Neural Network -> for processing sequential data (time se

论文阅读--Efficient Hybrid Zoom using Camera Fusion on Mobile Phones

这是谷歌影像团队 2023 年发表在 Siggraph Asia 上的一篇文章,主要介绍的是利用多摄融合的思路进行变焦。 单反相机因为卓越的硬件性能,可以非常方便的实现光学变焦。不过目前的智能手机,受制于物理空间的限制,还不能做到像单反一样的光学变焦。目前主流的智能手机,都是采用多摄的设计,一般来说一个主摄搭配一个长焦,为了实现主摄与长焦之间的变焦,目前都是采用数字变焦的方式,数字变焦相比于光学

【专业英语 复习】第8章 Communications and Networks

1. 单选题   One of the most dramatic changes in connectivity and communications in the past few years has been ____. A. widespread use of mobile devices with wireless Internet connectivity   B. chat ro

【Deep Learning】Meta-Learning:训练训练神经网络的神经网络

元学习:训练训练神经网络的神经网络 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写,既是课堂笔记,亦是作者的一些理解。 1 Meta-Learning 在经典监督学习中,给定训练数据 { ( x i , y i ) } i \{(x_i,y_i)\}_i {(xi​,yi​)}i​,我们需要训练一个神经网络 f f f使得 f (

【Deep Learning】Self-Supervised Learning:自监督学习

自监督学习 本文基于清华大学《深度学习》第12节《Beyond Supervised Learning》的内容撰写,既是课堂笔记,亦是作者的一些理解。 在深度学习领域,传统的监督学习(Supervised Learning)的形式是给你输入 x x x和标签 y y y,你需要训练一个基于参数 θ \theta θ的神经网络 f θ ( x ) f_\theta(x) fθ​(x)使其能

ResNeXt - Aggregated Residual Transformations for Deep Neural Networks

《Aggregated Residual Transformations for Deep Neural Networks》是Saining Xie等人于2016年公开在arXiv上: https://arxiv.org/pdf/1611.05431.pdf 创新点 1.在传统Resnet基础上采用group convolution,在不增加参数量的前提下,获得更强的representat

模型压缩:Networks Slimming-Learning Efficient Convolutional Networks through Network Slimming

Network Slimming-Learning Efficient Convolutional Networks through Network Slimming(Paper) 2017年ICCV的一篇paper,思路清晰,骨骼清奇~~ 创新点: 1. 利用batch normalization中的缩放因子γ 作为重要性因子,即γ越小,所对应的channel不太重要,就可以裁剪(prun

Deformable Convolutional可变形卷积回顾

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Sik-Ho Tsang 编译:ronghuaiyang 导读 使用可变形卷积,可以提升Faster R-CNN和R-FCN在物体检测和分割上的性能。只要增加很少的计算量,就可以得到性能的提升,非常好的文章,值的一看。 (a) Conventional Convolution, (b) Deformable Convol

在深度学习中减少标签需求2~5x,来自Deep Mind的CPC2.0

点击上方“AI公园”,关注公众号,选择加“星标“或“置顶” 作者:Less Wright 编译:ronghuaiyang 导读 通过得到更好的表征来减少对标签的需求。 CPC 2.0的实践 —— 只有1%的标记数据,达到74%的准确性(来自论文) 目前针对视觉、音频等的深度学习需要大量的人工标注数据,每个类别都有很多样本,这样才能训练一个分类器达到可接受的精度。 相比之下,人类只需要看

Age and gender estimation based on Convolutional Neural Network and TensorFlow

训练数据处理 imdb数据提取 gender: 0 for female and 1 for male, NaN if unknown age: 年龄分为101类,分别为从0到100岁. 将训练数据转换为tfrecords格式,命令为, python convert_to_records_multiCPU.py --imdb --nworks 8 --imdb_db /home/rese