7,152
社区成员
发帖
与我相关
我的任务
分享在 Snapdragon AI PC 上用 Python 调用 Qualcomm AI Engine Direct 做本地 LLM 对话,如何实现流式输出(token-by-token)?
需要在推理循环中实现自回归解码:每次调用模型生成一个 token,将结果立即 yield 给上层(如 Web 接口用 SSE 或 WebSocket 推送)。具体步骤:
1)加载量化后的 LLM 模型到 QNN HTP backend;
2)在 Python 端编写 generate 循环,每步取 logits → sampling → 输出 token → 拼回 input;
3)用 Python generator 或 asyncio 实现流式返回。注意要预分配 KV cache 并复用,避免每步重新分配内存。