在 Snapdragon AI PC 上用 Python 调用 Qualcomm AI Engine Direct 做本地 LLM 对话，如何实现流式输出（token-by-token）？

weixin_32333347 2026-03-12 11:19:42

在 Snapdragon AI PC 上用 Python 调用 Qualcomm AI Engine Direct 做本地 LLM 对话，如何实现流式输出（token-by-token）？

...全文

59 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 03-12 15:49

打赏
举报

回复

需要在推理循环中实现自回归解码：每次调用模型生成一个 token，将结果立即 yield 给上层（如 Web 接口用 SSE 或 WebSocket 推送）。具体步骤：
1）加载量化后的 LLM 模型到 QNN HTP backend；
2）在 Python 端编写 generate 循环，每步取 logits → sampling → 输出 token → 拼回 input；
3）用 Python generator 或 asyncio 实现流式返回。注意要预分配 KV cache 并复用，避免每步重新分配内存。

本文介绍了在网页中实现LLM（大型语言模型）流式输出的两种方法。第一种方法通过重载StreamingStdOutCallbackHandler类，手动保存token并定义generate_tokens函数，利用streamlit库的write_stream函数将token流式输出到页面。第二种方法使用ollama自带的llm.stream()函数，直接返回生成器对象并通过write_stream输出，但无法运用知识库。文章还提到异步执行的必要性，以避免输出顺序问题。

内容概要：本文详细介绍了 LangChain 中 LLM 和 ChatModel 的统一调用接口，涵盖 invoke、ainvoke、batch 和 stream 四种核心调用方式。通过使用 langchain-openai 提供的 OpenAI 和 ChatOpenAI 模型，展示了每种接口在同步、异步、批量和流式场景下的具体代码实现，支持字符串输入、多轮对话等多种交互形式，并提供可直接运行的示例代码。各接口适用于不同应用场景，帮助开发者高效集成大语言模型能力。; 适合人群：具备 Python 编程基础，熟悉 LLM 应用开发，正在学习或使用 LangChain 框架的研发人员，尤其是对异步编程和批量处理有需求的开发者；使用场景及目标：①利用 invoke/ainvoke 实现单次同步或异步请求，提升接口响应效率；②通过 batch 接口批量处理文本生成任务，如批量问答、翻译等；③使用 stream 接口实现实时流式输出，增强用户交互体验，适用于聊天界面或实时反馈系统；阅读建议：建议结合本地环境运行示例代码，理解不同接口的输入输出结构，重点关注异步与流式调用的实现机制，同时注意 API 密钥的安全配置与异常处理。

一个基于 Python 的 LLM (大语言模型) 推理和服务框架，以其轻量级设计、易于扩展和高速性能而著称。利用了众多备受推崇的开源实现的优势，包括但不限于 FasterTransformer、TGI、 VLLM 和FlashAttention - 三进程异步协作:分词、模型推理、去分词异步进行，GPU利用率大幅提升。 - Nopad (Unpad):提供跨多个模型的nopad注意力操作支持，以有效处理长度差异较大的请求 - Dynamic Batch: 启用请求的动态批处理调度- FlashAttention: 结合 FashAttention 来提高推理过程中的速度并减少 GPU内存占用。张量并行:利用多个 GPU 上的张量并行来实现更快的推理- Token Attention: 实现token-wise的KV缓存内存管理机制，实现推理时内存零浪费 -高性能Router: 与Token Attention配合，精心管理每个Token的GPU内存从而优化系统吞吐量。

Unlimited AI coding. Connect Claude Code, Codex, Cursor, Cline, Copilot, Antigravity to FREE Claude/GPT/Gemini via 40+ providers. Auto-fallback, RTK -40% tokens, never hit limits.

TMS AI Studio v1.5.0.0 for Delphi 11-13 Florence Full Source TMS 官方 2025-01 发布的 AI 控件包，支持 Delphi 11-13（12.3 Athens），源码全开放。核心能力 LLM 无关架构：同一接口切换 ChatGPT、Claude、Gemini、Azure OpenAI、本地 Ollama 等模型即拖即用：TTMSAIGenerator、TTMSAIOCR、TTMSAITTS、TTMSAIChat 等组件，属性栏填 API Key 即可调用流式输出：Streaming = True 时逐 token 触发 OnChunk，UI 线程安全，聊天室实时响应格式化输出：内置 Markdown 转 HTML、LaTeX/MathJax 公式渲染、JSON 结构化提取、Function Calling 工具调用 Florence 优化：原生支持 Delphi 13 Win64x Modern 与 64-bit IDE，高 DPI 设计期无锯齿

高通开发者论坛

7,639

社区成员

6,296

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章