6,429
社区成员
发帖
与我相关
我的任务
分享GenAl新特性里,有没有一些针对Stable Diffusion这类文生图模型的特殊优化?比如推理速度或者内存占用方面的
有,QAIRT 2025 针对 Stable Diffusion 有 4 项核心优化:1)UNet 算子融合 + HTP NPU 深度绑定,INT4/FP16 混合量化,内存占用降 40%+;2)DeepCache 特征缓存复用,减少去噪冗余计算,推理提速 30%-50%;3)采样步数自适应压缩(如 15 步替代 50 步),配合蒸馏策略保画质;4)VAE/UNet 分层调度,降低 NPU - CPU 数据搬运,骁龙 8 Gen3 上 512×512 图生成提速 2 倍 +。