AIMET的github上，Supported Features里提到了Quantization-aware Training，关于这一部分有具体的介绍吗？他和pytorch的QAT相比有什么区别/优

阿尔多利亚 2024-05-14 14:01:27

AIMET的github上，Supported Features里提到了Quantization-aware Training，关于这一部分有具体的介绍吗？他和pytorch的QAT相比有什么区别/优势吗？

...全文

1369 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2024-05-14

打赏
举报

回复

关于AIMET里的QAT可以参考高通AIMET白皮书（https://arxiv.org/pdf/2201.08442 ）的第五节，里面介绍了AIMET的量化感知训练的流程和原理。AIMET的QAT和pytorch的QAT本质上都在做一件事，就是在训练过程中加入了模拟量化，目的都是让训练出的模型收到PTQ的影响尽可能小。二者区别在于，仅针对高通平台的设备，相较于pytorch的QAT而言，高通的QAT模拟量化的方式和高通转模型时量化的方式一致，这就意味着QAT出来的模型在高通平台，PTQ可以无损，而pytorch实现的QAT受限于量化方式和机制的不同，在后量化时可能会有误差。

%matplotlib inline (experimental) Static Quantization with Eager Mode in PyTorch Author: Raghuraman Krishnamoorthi <https://github.com/raghuramank100>_ Edited by: Seth Weidman <https://github.com/SethHWeidman/>_ This tutorial shows how to do p

1. 前言深度学习在移动端的应用越来越广泛，而移动端相对于GPU服务来讲算力较低并且存储空间也相对较小。基于这一点我们需要为移动端定制一些深度学习网络来满足我们的日常续需求，例如SqueezeNet，MobileNet，ShuffleNet等轻量级网络就是专为移动端设计的。但除了在网络方面进行改进，模型剪枝和量化应该算是最常用的优化方法了。剪枝就是将训练好的大模型的不重要的通道删除掉，在几乎不影响准确率的条件下对网络进行加速。而量化就是将浮点数（高精度）表示的权重和偏置用低精度整数（常用的有INT8）来近

量化工具提供的几个量化模块如下：要量化模块，我们需要量化输入和权重（如果存在）。为只有输入的模块创建量化包装器为具有输入和权重的模块创建量化包装器。直接将 TensorQuantizer 模块添加到模型图中操作的输入。如果需要用量化版本自动替换原始模块（图中的节点），前两种方法非常有用。当需要在非常特定的地方手动将量化添加到模型图中时，第三种方法可能很有用（更多手动，更多控制）。让我们通过下面的示例查看每个用例。

Open Neural Network Exchange (ONNX, 开放神经网络交换)格式，是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移。ONNX是一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。它使得不同的人工智能框架（如PyTorch, MXNet）可以采用相同格式存储模型数据并交互。ONNX的规范及代码主要由微软、亚马逊、Facebook和IBM等公司共同开发。

训练后量化（Post-Training Quantization）虽为快速模型压缩路径，但在复杂模型如 Transformer、Detection Head 等场景中精度损耗显著，已难以满足精度与性能平衡要求。量化感知训练（QAT, Quantization-Aware Training）以端到端的量化模拟策略，在训练阶段保留模型性能的同时实现 INT8 部署格式输出，成为目前边缘 AI 的主流方案。本文聚焦于基于 TFLite + QAT 训练后的模型在 NNAPI 上的部署与运行优化路径，结合多个国产芯

高通开发者论坛

5,284

社区成员

5,915

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章