离线多轮问答里,如何在高通终端上实现“召回准确率和回复时延”同时可控?
工程上可采用两级检索:先轻量召回缩小候选,再小规模重排提升相关性;生成侧限制每轮可注入上下文条数并做会话摘要压缩。检索和生成并行化后,通常能兼顾可接受首包时延与回答质量稳定性。
7,474
社区成员
6,228
社区内容
加载中
试试用AI创作助手写篇文章吧