6,429
社区成员
发帖
与我相关
我的任务
分享我们在端侧做大模型优化时,发现 grouped quantization(例如按 group 进行权重量化/混合精度策略)在兼顾精度与性能上往往很有价值。
想请教一下:HTP 在量化能力上是否有计划支持 grouped quantization(或更细粒度的 per-group / block-wise quantization 相关能力)?
如果目前还不支持,现阶段在 QAIRT/HTP 上更推荐的替代策略是什么(比如 per-channel、mixed precision、部分层保 FP16/FP32、KV cache 精度策略等)?
以及从落地角度看,HTP 对这类量化的限制主要来自哪些方面:算子实现、硬件指令、内存布局、编译器/Runtime 约束,还是校准流程?