AI PC 上部署本地知识助手时,用户常问“为什么同一问题第二次更快”,这个现象在高通平台怎么解释更专业?
通常是缓存与预热生效:包括模型图编译缓存、算子执行缓存、向量检索索引缓存以及磁盘页缓存命中率提升。首轮请求承担初始化和数据就绪成本,后续请求复用运行时状态,因此端到端时延明显下降。
7,463
社区成员
6,230
社区内容
加载中
试试用AI创作助手写篇文章吧