在 Snapdragon AI PC 上做本地 RAG（检索增强生成），向量检索和 LLM 推理同时运行时性能下降严重，如何优化资源分配？

码莎拉蒂tuo 2026-03-19 15:43:14

在 Snapdragon AI PC 上做本地 RAG（检索增强生成），向量检索和 LLM 推理同时运行时性能下降严重，如何优化资源分配？

...全文

37 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 03-19 16:03

打赏
举报

回复

建议将向量检索和 LLM 推理分配到不同计算单元：
1）LLM 推理放在 NPU（HTP backend），这是最耗算力的部分；
2）向量检索（如 FAISS/Annoy）使用 CPU 多线程即可满足延迟要求；
3）Embedding 模型可放在 GPU 上运行，与 NPU 并行；
4）设计异步流水线：先完成检索获取上下文，再拼接 prompt 送入 LLM，避免两者同时争抢内存带宽；
5）控制向量库大小，优先使用量化向量（如 PQ 或二值化）减少内存占用。

2023年，大语言模型爆发元年，不管是CloseAI出品的GPT系列模型，还是LLAma系列开源模型、Google的Gemini等模型等，其表现能力都让人叹为观止，大语言模型在自然语言领域的表现都远超以往任何模型。

主要介绍ivfsq索引在嵌入式设备当中相比于ivfflat索引的重要性

尽管 2024 年是算法创新的突破之年， LLM 几乎每周都在创造新里程碑，但最先进硬件的重要性同样不可忽视。这些硬件创新是支撑我们突破瓶颈、充分发挥这些先进模型潜力的基础。在这篇文章中，我们将深入探讨 NVIDIA GPU 的世界，帮助你了解哪款 GPU 最适合你的需求。无论你是玩家、创作者还是 AI 爱好者，我们将解析关键特性、性能指标和成本考量，帮助你做出明智的投资决策。：在游戏、AI、数据中心和专业图形领域处于领导地位，以 CUDA、Tensor Cores 和 DLSS 而闻名。

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。芯片技术日新月异，每种类别的推理芯片都有其特定的优势和应用场景，选择合适的技术路径取决于目标应用的性能要求、能效目标、成本预算和开发时间等因素。

本文系统梳理了16篇大模型高效推理领域的重要论文与博客，全景覆盖从算法优化、系统调度到硬件协同的完整技术栈，为LLM推理基础设施从业者提供理论与实践桥梁。内容涵盖vLLM、SGLang等主流框架解析，以及模型量化、KV缓存管理、预填充与解码分离等关键技术，帮助读者建立完整认知体系，快速掌握大模型高效推理的核心方法论与未来发展方向。

高通开发者论坛

7,156

社区成员

6,214

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章