我们怎么使用批量大小 > 1 来进一步提高 SpD 的加速比?
利用协同作用原理。一般来说,可以使用的最大批量大小取决于延迟目标和 KV$ 可用的存储量,它与批量大小线性缩放。当部署 SpD 并且未达到延迟目标时,推测长度可能必须根据批量大小进行调整,因为 SpD 和批处理都试图在解码阶段利用相同的未充分利用的计算资源。请注意,SpD 可以改善每个输出令牌的时间 (TPOT) 指标,从而改善完成单独批处理无法完成的提示的延迟。
949
社区成员
5,234
社区内容
加载中
试试用AI创作助手写篇文章吧