在端侧RAG问答中,高通平台如何优化“向量检索+重排序+生成”链路的总时延?
可将向量库分层(热点常驻内存、冷数据按需加载),先粗召回再轻量重排,最后将压缩后的上下文送入生成模型。对每一段设置独立超时和候选上限,避免某一环节拖慢全链路,整体问答响应会更可控。
7,577
社区成员
6,231
社区内容
加载中
试试用AI创作助手写篇文章吧