做端侧大模型摘要时,高通Hexagon和CPU协同的最佳实践是什么,如何避免首Token延迟过高?
可将Embedding与部分矩阵计算下沉到专用加速单元,控制流和轻量后处理留在CPU,采用分块Prefill与KV Cache复用降低首Token等待。再配合算子融合、上下文裁剪与提示词模板压缩,通常能让交互速度更稳定。
7,457
社区成员
6,230
社区内容
加载中
试试用AI创作助手写篇文章吧