关于QNN量化的疑问

wenhyan 2024-11-11 10:15:27

在使用qnn-onnx-converter进行量化操作时，input_list.txt中的raw文件，是否与模型推理时的输入一致的呢？

layout是NCHW还是NHWC？是否需要进行归一化操作？模型量化后，精度与f32的模型相差很大，找不到具体的原因在哪里

...全文

934 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

℡performer 07-30

打赏
举报

回复

为什么我用qnn-onnx-converter量化后模型输出就变成固定值了呢？

weixin_138 03-13

打赏
举报

回复

qnn-onnx-converter默认输入是fp32，默认会帮你做nchw->nhwc

weixin_38498942 2024-11-22

打赏
举报

回复

input_list.txt中的raw文件, 他的排列(NCHW/NHWC) 是需要和原始模型是一致的, 另外如果原模型推理的时候需要进行归一化, 那么我们需要对raw文件先进行归一化.

可以找到具体哪一层的输出不一致, 找到量化和非量化模型输出的差异.

at_cifar10_run.py \ --learner weight-sparse \ --ws_prune_ratio_prtl uniform \ --data_disk hdfs # 对网络进行量化操作 ./scripts/run_local.sh nets/resnet_at_cifar10_run.py \ --learner uniform \ --uql_use...

量化版本选择提供多种量化方案满足不同需求：量化类型显存占用性能损失适用场景 FP16 ~16GB 0% 追求极致性能 INT8 ~8GB 平衡性能与显存 INT4 ~4GB 边缘设备部署加载INT4量化模型： model = AutoModel.from_...

接口设计： @tvm.ir.register_op_attr("nn.depthwise_conv2d_qnn") def depthwise_conv2d_qnn_compute(attrs, inputs, out_type): data, kernel, scale, zero_point = inputs # 量化计算逻辑实现 ... 性能目标：比...

这是因为启动bf16进行构建时，源码的汇编指令嵌套过深，会导致编译时定义的宏无法展开，这个时候我们需要将指令集中所有关于FMAX和FMIN两个变量的嵌套调用展开，按照以下这种形式修改：那么编译结束后，我们会使用...

3.1.2 多粒度指令分解：从课程大纲到单页课件元素的语义拆解面对复杂的教学任务，如“制作一节关于‘工业革命’的历史课”，模型难以一次性生成完整且结构合理的课件。为此，提出多粒度指令分解机制，将宏观教学...

高通开发者论坛

5,319

社区成员

5,922

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章