QNNPACK 量化过程可以几个两部分？

地下铁风很大 2023-05-25 14:04:50

QNNPACK 量化过程可以几个两部分？

...全文

1757 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2023-05-25

打赏
举报

回复

1、将模型从 FP32 转换为 INT8，
2、以及使用 INT8 进行推理

模型压缩与加速技术是指通过剪枝、量化、蒸馏等方法，对深度学习模型进行优化，以降低其计算和存储成本，提高推理速度，从而实现轻量化部署。这些技术的出现源于深度学习模型在实际应用中对计算资源和存储资源的巨大需求，特别是在移动端、嵌入式设备等资源受限的环境下。在这些场景中，传统的大型深度学习模型通常会因为过于庞大和计算密集而无法直接应用，因此，对模型进行压缩和加速成为了迫切的需求。模型压缩与加速技术的目标是在尽量保持模型性能的同时，将其尺寸和计算开销降到最低。剪枝技术通过删除模型中不重要的连接或参数，减少了模型的规模，从而降低了存储和计算成本。量化技术则将模型中的浮点参数转换为低精度的定点参数，从而减少了模型的内存占用和计算开销。蒸馏技术则是利用一个大型教师模型的知识来指导一个小型学生模型的训练，以实现模型的精简和加速。这些技术的应用场景非常广泛。例如，在移动端的智能手机上，模型压缩与加速技术可以使得语音识别、图像识别、自然语言处理等任务更加高效地运行，提升用户体验。在嵌入式设备上，比如智能家居设备、智能摄像头等，这些技术可以使得设备更加智能化，同时减少了能耗和硬件成本。

这样一来，所有的权重在优化过程中都能感知到量化带来的影响，称之为量化感知训练，精度也因此更高。第四步完成后，各个op权重的四元组（min_val，max_val，qmin, qmax）中的 min_val，max_val 已经有了，各个 op activation的四元组（min_val，max_val，qmin, qmax）中的min_val，max_val也已经观察出来了。动态量化中只量化了op的权重，输入的量化所需的scale的值是在推理过程中动态计算出来的。而静态量化中，都是提前计算好的。

QNNPACK（Quantized Neural Networks PACKage 是 Marat Dukhan (Meta) 开发的专门用于量化神经网络计算的加速库，其卓越的性能表现一经开源就击败了几乎全部已公开的加速算法。到目前为止，QNNPACK 仍然是已公开的，用于移动端（手机）的，性能最优的量化神经网络加速库。本文将会深入介绍 QNNPACK 算法的实现过程。

来源：AI蜗牛车、极市平台本文约9200字，建议阅读10+分钟本文为你简要介绍几种常见的CNN优化方法，并分享相关经验。作者丨黎明灰烬来源｜https://zhuanlan.zhihu...

https://zhuanlan.zhihu.com/p/132561405 模型量化是一种将浮点计算转成低比特定点计算的技术，可以有效的降低模型计算强度、参数大小和内存消耗，但往往带来巨大的精度损失。尤其是在极低比特(<4bit)、二值网络(1bit)、甚至将梯度进行量化时，带来的精度挑战更大。 Part 1 量化综述什么是模型量化？为什么要进行模型量化？模型量化是由模型、量化两个词组成。我们要准确理解模型量化，要看这两个词分别是什么意思。在计算机视觉、深度学习的语境下，模型特指卷积神经网络，

高通开发者论坛

5,341

社区成员

5,922

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章