做离线文档问答(RAG)时,在高通设备上向量检索和生成阶段怎么分工更高效?
建议将向量检索与重排放在 CPU+DSP 侧处理,生成阶段优先交给 Hexagon NPU 加速;并把文档切分粒度控制在可复用上下文窗口内,减少重复编码。检索与生成并行流水化后,端侧问答首包时间通常会明显下降。
7,156
社区成员
6,214
社区内容
加载中
试试用AI创作助手写篇文章吧