7,156
社区成员
发帖
与我相关
我的任务
分享高通平台上本地运行生成式 AI 多模态模型(同时处理图片和文本),Hexagon NPU 不支持某些算子怎么回退?会不会影响整体推理速度?
QNN 框架支持自动算子回退(op fallback):不被 HTP 支持的算子会自动调度到 CPU 或 GPU 执行。但频繁回退会导致数据在 NPU 和 CPU/GPU 之间反复搬运,显著增加延迟。优化方法:
1)转换模型前用 snpe-dlc-info 或 QNN 工具检查算子支持列表,提前替换不支持的算子(如用支持的等价实现);
2)对视觉编码器和语言模型分别转换和优化,视觉部分的 CNN 通常 NPU 支持良好,Attention 层可能需要 GPU 辅助;
3)尽量保证模型中连续的算子在同一后端执行,减少跨设备数据传输。