HTP 是否计划支持 grouped quantization？

weixin_46424698 2025-12-24 17:17:40

我们在端侧做大模型优化时，发现 grouped quantization（例如按 group 进行权重量化/混合精度策略）在兼顾精度与性能上往往很有价值。

想请教一下：HTP 在量化能力上是否有计划支持 grouped quantization（或更细粒度的 per-group / block-wise quantization 相关能力）？

如果目前还不支持，现阶段在 QAIRT/HTP 上更推荐的替代策略是什么（比如 per-channel、mixed precision、部分层保 FP16/FP32、KV cache 精度策略等）？
以及从落地角度看，HTP 对这类量化的限制主要来自哪些方面：算子实现、硬件指令、内存布局、编译器/Runtime 约束，还是校准流程？

...全文

16 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 2小时前

打赏
举报

现状&规划：当前HTP/QAIRT不原生支持grouped quantization，新一代HTP（2025-2026）已纳入规划，先支持固定block权重分组量化，QAIRT工具链需同步迭代。
替代策略（优先级降序）：①per-channel量化（权重侧优先）+混合精度（核心层FP16/INT8，非核心INT8）；②KV Cache单独配FP16/INT8，权重per-channel INT8；③敏感层（attention/ffn）保FP16，其余层per-channel INT8。
核心限制：硬件指令集无分组量化专用指令＞算子未适配分组粒度计算＞编译器/Runtime不支持分组量化参数解析＞内存布局与校准流程适配成本，四者依次影响。