7,148
社区成员
发帖
与我相关
我的任务
分享Snapdragon Elite X 上做 LLM 推理时显存或内存不足怎么办?有无推荐的模型大小和批处理策略?
建议使用 7B 及以下规模的量化模型(如 INT4/INT8),在 Elite X 的 NPU 上推理。可通过 --max-tokens 限制生成长度,减小 KV cache;对批量请求,采用单条串行或小 batch;使用 Qualcomm AI Engine Direct SDK 做模型加载和内存预分配,避免反复申请大块内存。