7,156
社区成员
发帖
与我相关
我的任务
分享在 Snapdragon AI PC 上做本地 RAG(检索增强生成),向量检索和 LLM 推理同时运行时性能下降严重,如何优化资源分配?
建议将向量检索和 LLM 推理分配到不同计算单元:
1)LLM 推理放在 NPU(HTP backend),这是最耗算力的部分;
2)向量检索(如 FAISS/Annoy)使用 CPU 多线程即可满足延迟要求;
3)Embedding 模型可放在 GPU 上运行,与 NPU 并行;
4)设计异步流水线:先完成检索获取上下文,再拼接 prompt 送入 LLM,避免两者同时争抢内存带宽;
5)控制向量库大小,优先使用量化向量(如 PQ 或二值化)减少内存占用。