做端侧文案生成时,用户反馈“前几秒不卡、后面越来越慢”,在高通生成式 AI 部署里通常怎么定位?
这类问题常与上下文长度增长导致的注意力计算增加、KV cache 管理不当、以及温控降频有关。建议监控 token 吞吐随序列长度变化曲线,并检查缓存复用命中率与热状态;必要时用滑动窗口和分段总结限制上下文膨胀。
7,463
社区成员
6,230
社区内容
加载中
试试用AI创作助手写篇文章吧