7,150
社区成员
发帖
与我相关
我的任务
分享AutoQuant:一键式自动量化,自动尝试 CLE → AdaRound → QAT 等策略组合,无需人工逐步实验。
自动层级压缩:按目标 MAC 压缩比自动分配各层压缩率,推荐 Spatial SVD + Channel Pruning 组合。
云端真机 Profiling:无需本地设备,直接在云端 50+ 骁龙机型上获取性能数据。
端到端格式转换:从 PyTorch/ONNX 到多种部署格式(QNN binary / LiteRT / ONNX Runtime)一步完成,自动进行硬件感知优化。
量化精度可达 INT4:对 LLM 等大模型,Hexagon HTP 支持 INT4 权重量化以进一步降低内存与提升吞吐。