【常见问题与解答】2025 骁龙人工智能创新应用大赛

csdnsqst0050 2025-11-12 10:29:31

加精

技术文档

WoS AI 应用程序开发指南

https://docs.qualcomm.com/bundle/publicresource/topics/80-62010-1/ai-app-development.html?product=1601111740057789

QAI AppBuilder

QAI AppBuilder - https://github.com/quic/ai-engine-direct-helper
QAI AppBuilder 文档
- WoS：https://docs.qualcomm.com/bundle/publicresource/80-94755-1_REV_AA_QAI_AppBuilder_-_WoS.pdf
- Mobile & ONNX RT：（待更新）
大语言模型系列(1): 3分钟上手，在骁龙AI PC上部署DeepSeek!
大语言模型系列(2): 本地 OpenAI 兼容 API 服务的配置与部署
QAI AppBuilder 快速上手(1): 环境配置
QAI AppBuilder 快速上手(2): 图像超分应用实例
QAI AppBuilder 快速上手(3): 图像修复应用实例1
QAI AppBuilder 快速上手(4): 图像超分应用实例2- Real_esrgan_general_x4v3
QAI AppBuilder 快速上手(5): 图像分类和识别应用实例
QAI AppBuilder 快速上手(6): 图像分割应用实例
QAI AppBuilder 快速上手(7):目标检测应用实例
QAI AppBuilder 快速上手(8): 图像修复应用实例2
QAI AppBuilder 快速上手(9): 人体关键点检测应用实例
QAI AppBuilder 快速上手(10): 图像生成应用实例

公开课材料

大赛公开课之一 - 高通技术公司AI工具链介绍

Qualcomm AI Engine direct (Qualcomm AI Software Stack) – 文档

公开文档 | CLI 工具文档 | C API 文 | API 使用和推理引擎实现示例

大赛公开课之四 – 高通AI模型开发部署工具包概述

QAIRT SDK分析和调试 – 文档

公开文档 | QNN HTP 配置文件与 QNN HTP Optrace 文档 | QAIRT Visualizer 文档 | QAIRT Python API 文档

欢迎浏览与了解更多 Qualcomm AI Engine direct 中的高级用例！

常见赛事问题 - 复赛线上答疑闭门会第1期｜ Q&A 汇总

一、模型库&模型转换问题

Q1：目前支持的模型比较少，VLM / ASR / Embedding / Rerank 都没有，项目功能受限怎么办？

A1：目前QAI AppBuilder已支持多种大语言模型 (https://www.aidevhome.com/?id=51)，最新更新包括：
• Qwen2.5-VL 多模态模型 (https://www.aidevhome.com/?id=55)
• BGE-Base-Zh-V1.5 (https://www.aidevhome.com/?id=54)
目前排序模型 (Rerank) 也已经进入准备阶段。

Q2：官方模型库（Hugging Face / 模型广场）没有我需要的模型，还能参赛吗？

A2：当然可以。建议开发者首先参考QAI AppBuilder 代码示例与相应资源 (https://github.com/quic/ai-engine-direct-helper)。如果模型不在以下官方渠道中：

选手可采用以下策略确保可运行：核心模型运行在 NPU、辅助模型运行在 CPU / GPU上、也可采用端云结合方案。赛事评估不强制要求所有模型必须跑在 NPU 上。重点考察的是：👉 参赛作品是否真实使用了端侧 NPU 能力，并能清楚说明模型部署策略与取舍理由。

Q3：模型转换失败，QNN SDK 版本应该怎么选？对设备和平台有要求吗？

A3：模型转换过程中可能会出现兼容性问题，这主要和所使用的 QNN SDK 版本以及目标设备平台有关。首先，需要确认要在什么设备上进行转换，是 ARM 平台还是Android设备，以及具体型号（如 8750、8850）。注意不同平台和 SDK 版本之间的兼容性存在差异。

如果你在模型转换阶段遇到问题，建议优先使用 QNN SDK 2.37.1。
如果使用 2.38.0 或更高版本的库，有时也可以成功，但某些情况下会出现转换失败的问题。早期版本（如 2.38.0）在转换模型时已知会遇到问题，因此不建议使用。需要注意的是，即便模型是用更早版本的 SDK（如 2.34、2.35、2.37）转换得到的，在大多数情况下也可以在 2.38.0 的 QAI AppBuilder 中正常运行，但老旧模型（如 2.2x 版本）出现问题的概率较高。

建议流程：

使用 QNN SDK 2.37.1 转模型
使用 QAI AppBuilder 2.38.0 运行模型

如果在转换过程中需要排查问题，可以将命令行中的 loglevel 设置为 verbose，这样可以输出完整的转换过程信息，比默认的 error 级别更容易发现潜在问题。
如果在使用 2.37.1 版本后仍然无法完成转换，请在官方论坛提交 issue，我们会跟进处理，帮助排查兼容性问题。

二、环境问题

Q4：近期高频环境问题

A4：
•   QAI AppBuilder 与 SDK 版本匹配问题
目前 SDK 整体是高版本向下兼容的，例如常见的 2.37、2.38 版本在实际使用中均可以正常向下兼容。
不同模型往往会对工具链版本有明确要求，这类信息通常会在对应 GitHub 仓库的 README 中标注清楚。建议选手在使用模型前，优先对照官方文档确认推荐或要求的版本组合。

•   关于不同平台环境文件拷贝与设备适配的问题
这是当前选手遇到较多的实际问题之一。不同平台对应的文件版本并不相同，例如 Windows 平台通常使用 v73，而 Android 平台（如 8750 设备）对应的是 v79。这类文件需要选手自行从对应目录中复制，并正确放置到工程中指定路径，加载到 qailibs 相关目录下。
如果文件版本或路径不正确，可能会导致模型加载失败或运行异常。

•   关于 LangFlow 在性能测试场景下的使用方式问题
LangFlow 更适合用于流程验证和功能联调，而不是作为严格的性能评估工具。如果选手更关注模型在端侧的实际推理性能，建议优先通过 WebUI 方式进行查看，因为 WebUI 能展示更完整的性能参数。LangFlow 在整体架构上与 WebUI 基本一致，但控制区并未开放所有性能相关配置项。

•   关于 LangFlow 对模型规模和类型支持的限制问题
当前 LangFlow 默认更偏向支持 1B 级别模型。如果选手希望加载更大规模的模型，或使用其他类型的大语言模型，需要在 OneFlow 或 Flows 的配置文件中进行相应修改。通过调整配置，仍然可以支持更多模型类型，但需要选手自行完成相关设置。

•   关于模型文件格式混用带来的问题
在 PC 赛道中需要特别注意模型的最终使用格式。有些模型通过 API 下载后得到的是 bin 文件，而部分论坛或网站提供的模型则是 dlc 格式。实际运行阶段通常使用的是 bin 文件，如果拿到的是 dlc 格式模型，需要先完成模型转换，再生成目标设备可用的 bin 文件，不能直接混用不同格式。

•   关于模型下载和转换过程中网络环境影响的问题
部分模型资源托管在Amazon 网络上，如果在下载或模型转换阶段出现异常，很可能与网络不稳定有关，不一定是工具或配置问题。建议选手在遇到相关情况时，优先确认网络环境是否稳定，科学上网，再继续排查其他技术细节。

Q5：ONNX / QNN 环境配置失败，经常报错，Python 版本怎么选？

A5：对于大多数参赛选手，建议优先使用 x64 Python（如 Python 3.12 x64）：

兼容性更好
第三方扩展更齐全
ONNX 等依赖更稳定

ARM64 Python 对性能更友好，但部分扩展仍不完整，更适合有经验的开发者。同时，高通在 GitHub 上也提供了第三方开源仓库，已经整理了一批可直接使用的 arm64 Python 扩展，如果选手在该仓库中能找到所需依赖，是可以直接使用的。

Q6：C++ 版本和 Python 版本的 QAI Service 有什么区别？使用 C++ 版本是否会限制客户端语言？

A6：目前重点维护的是 C++ 版本，但需要强调的是：Service 是后台服务，与客户端语言无关

无论后台是 Python 还是 C++：

客户端可以用 Python
也可以用 C++、Curl 等方式调用
API 是 OpenAI-compatible 的 HTTP 接口

你可以把它理解成“本地运行的云服务”。

早期在开发这一服务时，出于开发效率和易用性的考虑，优先采用了 Python 实现，因为 Python 在接口封装和 API 调用上相对更简单。随着功能逐渐稳定，并被更多项目和厂商使用，对性能和稳定性的要求不断提高，后续开发了 C++ 版本，以满足更高性能场景下的需求。
从维护策略上看，当前主要维护和持续迭代的是 C++ 版本，新功能也都会优先集成到 C++ 版本中，包括后续的多模态能力。Python 版本目前更新频率较低，不再作为功能扩展的重点。

需要特别说明的是，使用 C++ 版本的 service 并不会对客户端的开发语言产生任何限制。无论后台运行的是 Python 版本还是 C++ 版本，对外暴露的都是 OpenAI 兼容的 API 接口，基于 HTTP 协议提供服务。对于客户端而言，并不需要关心服务端的实现语言，可以使用 Python、C++，甚至直接通过 curl 等命令行方式进行调用。
可以将该 service 理解为一个运行在本机的“云端服务”。

就像调用 OpenAI 的远程接口一样，客户端只需按照接口规范进行访问即可。因此，在本地启动 C++ 版本的 QAI API Service 后，GitHub 仓库中已有的 Python 客户端示例都可以直接使用，不需要额外调整。

从实际测试结果来看，C++ 版本在性能和稳定性方面表现更优，更适合长期使用或对性能有要求的场景，这也是当前将主要精力集中在 C++ 版本维护和功能扩展上的原因。

三、设备异构问题

Q7：复赛作品中可以使用第三方推理框架或第三方模型方案吗？是否必须使用高通官方 SDK？

A7：复赛阶段的核心要求是，参赛作品中至少有一部分模型需要真实运行在端侧 NPU 上。至于具体通过哪种方式、使用哪套 SDK 或推理框架，并没有强制限制。
无论是使用高通官方提供的 SDK、工具链，还是使用支持高通 NPU 后端的第三方推理框架，只要能够证明模型确实运行在 NPU 上，都是可以接受的。
更推荐优先使用高通提供的方案：

如果使用高通官方提供的 SDK 和方案，在开发和调试过程中遇到问题，能够获得更直接、更完整的技术支持，整体风险和排查成本会更低。
目前官方提供的方案已经覆盖了大多数常见的模型部署和应用场景，后续在功能完善和问题支持上也会持续跟进。如果官方方案已经能够满足项目需求，建议优先使用官方方案，这样在复赛阶段的稳定性、技术支持和问题响应上会更有保障。

Q8：应用中有多个模型，其中部分模型无法在端侧转换或运行，这会影响最终评估吗？是否必须把所有模型都在 NPU 上跑？

A8：在端侧应用中，如果你的程序使用了多个模型，可能会遇到部分模型无法成功转换或在 NPU 上运行的情况。这种情况是可以接受的，不必因为部分模型无法在端侧运行而放弃整个应用。

官方允许部分模型在 NPU 上运行，其他模型运行在 CPU 或 GPU 上。在最终评估时，只要应用中已经有模型使用了 NPU，就符合端侧运行的要求。
此外，如果应用中确实涉及多个模型同时运行，需要合理分配计算资源。NPU 是单核单线程设备，如果把过多任务都调到 NPU 上，反而可能导致性能下降。因此，可以考虑异构部署：将部分模型放在 NPU 上运行以体现设备优势，同时将其他模型放在 CPU 或 GPU 上，以保证整体性能和响应速度。选手们在复赛作品文档中也可以突出说明下采用的这类设计策略。

总体原则是，应用中尽可能有一部分模型在 NPU 上运行，展示端侧设备的优势；同时，可以结合云端运行能力更强的模型，以实现性能与即时响应的平衡。

四、其他问题

Q9：LangFlow 是否适合做性能测试？

A9：不太适合。LangFlow 更适合快速搭建流程与应用逻辑，但性能参数展示有限。
建议：

先用 WebUI 做性能验证
确认模型推理效果后
再用 LangFlow 做应用集成

Q10：是否支持本地语言翻译模型？

A10：可以使用 Whisper，官方示例和源码中已有对应 Demo，可直接参考使用。

常见赛事问题 - 复赛线上答疑闭门会第2期｜ Q&A 汇总

一、模型更新与资源动态

Q1：近期有哪些新模型上线？

Qwen2.5-VL-3B：已发布。支持图像描述、分析与问答，具备 OCR 文字提取与物体识别能力。查看详情 (https://www.aidevhome.com/?id=55)
BGE-Base-Zh-V1.5：已发布。适用于 RAG 场景的语义检索，参数规模小，响应快。查看详情 (https://www.aidevhome.com/?id=54)
后续计划：将陆续更新 Reranker 模型和 Qwen3-Embedding 模型（目前 Embedding 暂未适配，建议先使用 BGE 模型）
下载地址：模型广场 (https://www.aidevhome.com/?id=51)

二、技术疑难解答 (Q&A)

Q2：使用 Ollama 下载模型，配合 Docker 和 RagFlow 部署本地知识库时，RagFlow 安装失败或无法连接，如何解决？

A2：解决方案：

RagFlow 运行在 Docker 内部，可能存在网络隔离问题；且 RagFlow 资源占用较大，易导致资源不足。主要从以下几个方面来尝试调整：

网络配置：确保容器内的 RagFlow 能 Ping 通宿主机的 Ollama 端口，如修改 Ollama 的监听地址，允许外部连接。
资源管理：建议先使用轻量级的 Embedding 模型进行流程验证，确保 Docker 资源分配充足。
流程排查：按照“Ollama 拉取模型 -> 上传文档 -> 解析模式（等待 Success 标志）-> 调整相似度阈值”的顺序排查。

Q3：自动化脚本（QAI AppBuilder Launcher）默认下载的是 SDK 2.38 版本，是否支持最新的 SDK 2.42？

A3：自动化脚本主要面向初学者或快速体验场景。

对于开发者：推荐手动部署。如果您需要使用 SDK 2.42 的新特性，请直接从 GitHub Release 页面下载对应的 .whl 包或 C++ 二进制包进行安装，无需依赖自动化脚本。
版本差异：SDK 2.42 的 Python 扩展包已内置运行时库（Runtime Libraries），初始化时不再需要强制指定库路径（可设为 Null），系统会自动在安装包路径下查找，部署更加便捷。

Q4：在 Windows 上使用 x64 Python 时无法调用 NPU，或者使用 ARM64 Python 无法安装部分库，如何选择？

A4：x64 Python是可以调用模型在NPU上推理的，对于初学者，建议优先使用 x64 架构的 Python。

配置关键：
- 若使用 x64 Python，需调用 lib\arm64x-windows-msvc 目录下的库（底层会自动桥接到 ARM64 后端）。
- 若使用 ARM64 Python，则需调用 lib\aarch64-windows-msvc (Windows MSVC) 库。
- 注意：如果 x64 Python 仍无法调度 NPU，请检查底层依赖路径是否正确配置。
如果使用最新版本，则不需要手动配置上边提到的库：
- ARM64 Python: qai_appbuilder-2.42.0.73-cp312-cp312-win_arm64.whl
- X64 Python: qai_appbuilder-2.42.0.73-cp312-cp312-win_amd64.whl

Q5：调用 Qwen2.5-VL 时，报错 user content is not a object（JSON 列表不兼容），无法处理多模态输入？

A5：这个报错情况通常出现在使用旧版GenieAPIService服务接口。旧版启用的服务端对 OpenAI 格式的 content 字段解析仅支持字符串或特定对象，尚未完全适配多模态（Text + Image URL）的 JSON Array 格式。经过更新，新版本已经支持，可以去release界面重新下载。项目代码samples/genie/c++也在持续更新。

Q6：如何查看 NPU 的占用率？

A6：目前 Demo 代码未提供直接输出占用率的 API。可以直接打开 Windows 任务管理器 -> 性能 -> NPU 选项卡 进行实时监测。

三、特定模型部署指南

1. Qwen2.5-VL-3B 部署教程

Windows：

下载模型至 python/models 目录。
下载GenieAPIService_v2.1.4_QAIRT_v2.42.0_v73.zip 启动包。
直接运行启动脚本（已打包环境，无需额外配置 Python 后端）。
接口注意：Demo 示例目前支持本地图片推理和网页 URL 图片。启动服务可以使用-p 指定另一个端口。为了使用不同的模型，在调用传递模型参数的时候修改名字，一个端口可以使用不同的 LLM 和 vl。

Android：

将模型推送到设备 sdcard/GenieModels 对应目录。
安装 GenieChat APK 和 GenieAPIService APK。
注：Android 端源码及 APK 已在文档中心提供，支持对源码进行二次开发以适配更多功能。

实例教程：https://www.aidevhome.com/?id=55
GenieChat源码：https://www.aidevhome.com/?id=50

2. BGE-Base-Zh-V1.5 (Embedding) 部署教程

Windows：
- 需配置后端库（SDK 2.41+）。
- 将 QnnHtp.dll, QnnSystem.dll 等依赖库复制到 qai_libs 目录。
- 使用 qai_appbuilder 进行构建和推理。
Android：
- 需参考 Android Developer Help 文档，使用 qai_appbuilder 编译 libqnn_htp.so 等后端库。
- 将库文件放置在 jniLibs/arm64-v8a 目录下。
- 使用 Java 包中的 BgeProcessor 进行前处理和后处理。
实例教程：https://www.aidevhome.com/?id=54

四、更多支持

教程视频：B站及 CSDN 均有关于 QAI AppBuilder、QAIRT SDK 的系列教程。
- B站：https://space.bilibili.com/85300886/upload/video
- CSDN：https://bbs.csdn.net/topics/619992533

技术问题解答

大赛公开课一：

Q1：在“AI影像”方面，用 NPU （如HTP）处理实时视频超分或降噪，和 CPU/GPU 相比最大的优势是什么？

A1：NPU 最大的优势是低功耗和高速度。它在处理定点模型时比 CPU 快得多，也比 GPU 更高效。GPU 主要处理浮点计算，若要跑定点模型会比较麻烦。NPU 在实时超分 (super resolution) 和降噪 (denoise) 方面已经有成熟商用案例，尤其在功耗和实时性能上优势明显。

Q2：Qualcomm AI Stack 里有没有比较实用的工具可以帮助提升模型在手机端的推理速度？

A2：Qualcomm AI Stack 中工具有很多。如果跑浮点模型 (FP16) ，可以直接在端侧运行；跑定点模型时，我们支持 INT4、INT8、INT16 等多种量化精度。精度位数越低，速度通常越快。另外，我们在端上也提供多种功耗模式（burst、power_saver、default），在不同模式下模型的运行时间会有所不同。整体来说，Qualcomm的工具链已经比较成熟完善。

Q3：用SDK的离线工具做模型量化的时候，是不是主要就是在精度和性能之间做取舍？还有别的要注意的吗?

A3：确实，模型量化的核心是在精度与性能之间做平衡，但在使用离线工具时，还有一些细节需要注意。SDK 提供两种方式：在线 (online prepare) 和离线 (offline prepare)。在线模式的优势是操作简便，不需要考虑具体平台差异，模型可以直接在端侧运行，但执行速度相对较慢。离线模式则是在 PC 上先对模型进行序列化处理，把模型的算子、指令和数据结构化后再加载到设备内存 (DDR) 与计算单元 (VTCM) 执行，运行速度更快，也更利于优化。不过这种方式需要根据目标平台的指令集和硬件特性进行调整。在实际使用中，开发者除了关注精度和性能的权衡外，还应注意目标平台兼容性（确保序列化模型与硬件匹配）、数据分块与优化方式（不同算子可能需要单独优化）、以及配置参数（如 DDR 与 VTCM 交互效率、SOC 设置等）。总体来说，离线量化能带来显著的性能提升，但需要根据平台特性做好前期优化和验证。

Q4：有转换好的qwen3的模型吗？或者转换好的模型去哪里下载呢？

A4：关于LLM大模型，或者说LVM就是大语言和视觉模型，可以在 Hugging Face 或 模型广场 上面直接下载，如 Qwen-2-7B、Phi-3.5、Stable Diffusion 1.5、ControlNet 等，上面基本都能直接找到并使用。

Q5：既然AI Runtime Stack是通用的，那把手机上优化好的模型搬到车机上，主要会遇到哪些坑啊？需要特别注意啥？

A5：理论上可以无缝迁移，但要注意车机平台的硬件架构（如 NPU 类型、算子支持度）可能不同。有些算子在车机上不支持，需要改用 FP 实现。

Q6：实际开发中，从模型转换到最后在NPU上跑起来，哪一步最容易踩坑或者最耗时间啊?有啥经验分享吗?

A6：整体来看，最容易出问题、也最花时间的环节是模型转换和量化阶段。在开发流程中，如果直接使用现成模型（例如从 Hugging Face 或 模型广场 下载的 MobileNet、超分、去噪模型），通常比较顺利；但如果是自己训练的模型，再转成 Qualcomm AI Runtime 支持的格式，这一步可能会花费较多时间。转换阶段常见的问题主要集中在算子兼容性，不同框架导出的模型若使用了不支持的算子，就容易出现转换失败。建议在 PC 端先搭好 Runtime 环境，确保模型能正确运行，同时对照官方文档中的算子支持列表进行检查。如果模型成功转换，接下来就是量化阶段。需要注意的是：如果进行后量化 (post-training quantization) ，建议准备几百到上千条有代表性的数据进行校准，数据越多精度越稳；如果在训练阶段已插入 fake quant 节点或导出了 encoding 信息，转换时可直接读取量化参数，能有效避免精度损失。

在调试时若发现推理结果异常或精度偏差较大，第一步应回溯检查模型转换和量化环节。高通也提供了逐层对比工具（如 QL、QAIRT），可 layer-by-layer 地分析输出差异，快速定位问题。总体来说，模型转换、算子兼容性和量化数据准备是最容易踩坑的部分，若这几步处理得当，后续在设备端部署通常会非常顺利。

Q7：SDK 都有啥工具可以帮我们部署模型呀？

A7：我们提供多种工具：低级 C++ API、Python 接口（QAI AppBuilder），以及离线模型转换、量化优化工具。开发者可根据项目选择端侧或 PC 端部署方式。

Q8：老师能讲讲吗，Qualcomm AI Stack里那个性能最好的API是啥?叫啥名字来着?

A8：我们主要有两种 API：1、C++ API：AI Runtime 的 examples 里有完整示例，可通过 CMake 编译，跨平台兼容性好；我们是提供CMakelist，也提供Makefile，这两种根据开发者的喜好可自行选择，两种都能编译。我们是这一套API在Android上是用NDK来编译，在PC上我们是用Visual Studio来编译，或者用CMakelist，CMakelist是我们推荐的，因为CMakelist可以可以跨平台，所以如果要用C++编译，我们是推荐CMakelist，CMakelist 在Linux平台，在我们的PC平台，或者是我们的高通的arm的PC，在X86的PC，C++就是CMakelist 这三种平台是可以同时兼容而且并不需要做过多的修改。2、Python API（QAI AppBuilder）：封装程度更高，用几行代码就能跑，但集成灵活性略低。一般推荐使用 CMake + C++ 版本，性能更强。开发者也可以根据习惯和场景来选择。

Q9：在 AI PC 上推理时，输入输出是否支持零拷贝？内存是 CPU 的内存吗？

A9：在 Mobile 端，我们是支持 Zero Copy 的。Zero Copy 的原理是数据可以直接从 CPU 注入到 NPU 的 RPC memory（也就是 CDSP 内存），通过 FastRPC 通道实现高速传输，避免了多次内存拷贝。

而在 AI PC 上，我们采用微软的 MCDM 驱动体系，取代了原先的 FastRPC。MCDM 本身就等价于 Zero Copy，它能让数据直接送入 NPU 驱动，因此不再单独提 Zero Copy 的概念。AI PC 使用的内存依然是 DDR 内存，NPU 与内存之间通过 DDR 与 VCTM（片上内存）交互。我们还提供了相应的分析工具，可以观测到 DDR 与 VCTM 之间的 spill/fill 操作，帮助开发者分析性能瓶颈，例如当预期 10 毫秒的任务实际耗时 80 毫秒时，可以据此定位问题。

Q10：Qualcomm AI Stack 有没有工具让开发者更方便地部署模型？

A10：有的。AI Runtime Stack SDK 分为两部分：一是 QNNAPI 的 low-level API（C++代码），支持 Android 和 PC；二是 Python 工具 QAI AppBuilder，它封装了 QNN 接口，用起来更简单。开发者可以根据自己的习惯选择使用哪种接口，两者都能支持端侧部署。

Q11：模型量化数据量有要求吗？

A11：我们建议提供足够多能覆盖数据范围的数据量。

大赛公开课二：

Q1：在使用 QAI AppBuilder 进行模型部署时，如果模型体积较大或计算量较高，有哪些常用的优化手段可以提升在 NPU 上的推理性能？

A1：模型体积越小，推理速度通常越快。针对大模型或计算量较高的模型，可以通过量化（Quantization）来优化性能，例如将模型从 FP32 精度转换为 INT8 或 INT4。
这样不仅能显著减少模型体积、降低内存占用，还能减少数据传输带宽，提高在 NPU 上的执行效率。当然，量化也会对精度带来一定影响，因此通常需要进行量化感知训练（QAT）或后量化精度调优。
此外，在某些复杂场景下，也可以结合 CPU、GPU 与 NPU 的算力，让不同任务在最合适的硬件单元上执行，从而获得整体最优性能。

Q2：部署完模型后，怎么快速验证它是否正常运行、性能是否达标？有没有推荐的评估方法？

A2：部署完成后，可以通过运行推理测试并保存输出结果来检查模型功能是否正确。
对于性能验证，QAI AppBuilder 提供了 profiling level 参数，可在配置函数中设置性能分析等级。
将日志等级（log level）设为 info，推理时系统会自动打印出模型加载时间、推理耗时等性能数据。
通过这些日志即可快速判断模型是否运行正常、性能是否达标。

Q3：如果把 CV 模型落到终端设备上，有哪些常见的坑是开发者容易踩到的？有没有一些实战经验可以分享？

A3：

在端侧部署 CV 模型时，常见问题主要集中在两个方面：输入输出数据处理不当
1. 模型前后处理通常在 CPU 上执行，若数据量大，可考虑使用多线程提升处理速度。
2. 对于图像类任务，也可利用 GPU 进行图像转换、缩放等操作，以加速前后处理。
数据格式不匹配
1. 需将原始数据（如图片）转换为模型所需的张量（Tensor）格式，并正确处理输出张量。
2. 不同模型的输入输出格式差异较大，可参考官方 GitHub 上的推理示例（包含二十余个模型案例），根据需要调整数据预处理和后处理逻辑。

只要解决好前后处理逻辑，并正确适配模型格式，就能充分发挥骁龙 AI PC 的算力，开发出高性能、低功耗的端侧 AI 应用。

Q4：哪一种部署方式具有更多的模型适配？

A4：目前来看，Python 格式的模型（如 PyTorch、TensorFlow）在生态上最为丰富。但若要在 骁龙 AI PC 的 NPU 上获得最佳性能与最低功耗，推荐使用 QAI AppBuilder 或 QAIRT SDK 部署 QNN 二进制上下文 格式的模型。这两种方式中，QAI AppBuilder 操作更简便，同时在“模型广场”上已有数百个经过转换的 QNN二进制上下文模型可直接下载使用。若开发者有自训练的模型，也可根据官方文档自行转换为 QNN 格式进行部署。

Q5：用 QAI AppBuilder 跑大语言模型（LLM）时，怎么让内存占用更小、速度更快？有优化技巧吗？

A5：大语言模型通常参数量庞大，内存占用和推理速度主要取决于模型规模：

优化方向包括：选择合适规模的模型：在满足任务需求的前提下尽量使用小模型，可显著降低内存占用并提升速度；
使用量化模型：在 NPU 上运行的 LLM 通常经过 INT8 或 INT4 量化，较 FP32 模型体积更小、速度更快，同时节省内存与带宽。

Q6：本地跑 AI 模型和放在云端相比，各有什么优缺点？

A6：云端运行模型的优势在于可以支持更大、更复杂的模型，因为云端算力更强，生成效果通常也更好。不过，这也意味着需要通过网络传输数据，响应速度会受到延迟影响，而且涉及的数据隐私需要额外考虑，同时大多数情况下还需要支付云服务费用。
相比之下，本地端侧运行模型的优势在于延迟低、响应快，数据和指令不必经过网络传输，隐私和安全性更高，而且运行成本几乎为零，非常适合需要离线处理或涉及敏感数据的应用场景。但端侧设备的算力和内存有限，因此模型规模和复杂度通常比云端受限。

Q7：如果要同时跑好几个模型，QAI AppBuilder是怎么分配资源的呢?会不会卡?

A7: QAI AppBuilder 采用多进程架构来高效分配资源并防止应用卡顿。
其核心机制是能够将AI模型加载并运行在独立的后台服务进程中。在初始化模型时，通过指定不同的进程名称（proc_name），可以将计算密集型的推理任务从主应用（尤其是UI线程）中剥离出去。
这种设计的优势体现在：

资源隔离：每个模型或每组模型在独立的进程中运行，内存和计算资源相互隔离。单个模型的异常不会影响主应用或其他模型的稳定性。
避免UI卡顿：对于图形界面应用，AI推理在后台进程中执行，UI线程仅负责任务分发和结果回收，从而确保了用户界面的流畅响应。
并行处理：操作系统能够将不同的模型进程调度到多个CPU核心上执行。结合骁龙芯片上AI硬件（如HTP）的并行处理能力，可以实现真正高效的多模型并行推理。

因此，通过合理利用其多进程能力，QAI AppBuilder 可以有效管理多个模型的资源调度，避免因AI计算导致的应用卡顿。

Q8：支持的模型有什么限制吗?模型大小和性能要怎么平衡?

A8: QAI AppBuilder 对模型的支持能力主要继承自底层的 Qualcomm Neural Network (QNN) SDK。

模型格式与算子：平台支持通过QNN工具链转换后的主流模型格式（如ONNX, TensorFlow等）。模型能否成功运行，关键在于其内部的所有计算算子（Operations）是否被目标硬件后端（如HTP, CPU）所支持。
模型大小：模型体积主要受限于目标设备的物理内存（RAM）。过大的模型可能导致加载失败或运行时内存溢出。

平衡模型大小与性能的策略：

量化（Quantization）：此为最核心的优化手段。通过将模型权重从FP32转换为FP16或INT8等低精度格式，可显著减小模型体积、降低内存占用并大幅提升在HTP等专用硬件上的推理速度。
模型架构选型：优先选择为移动和边缘设备设计的轻量化网络架构，例如MobileNet、EfficientNet等。
模型优化技术：可以结合使用剪枝（Pruning）、知识蒸馏（Knowledge Distillation）等先进技术，在保持精度的同时进一步压缩模型。

总的来说，平衡的关键在于应用有效的量化策略和选择合适的轻量级模型架构。

Q9：我们项目只是用到一个小模型效果，用 QAI AppBuilder 上手会不会很复杂？

A9: 上手不复杂。QAI AppBuilder 对核心API进行了高度封装，旨在简化AI模型的部署流程。对于仅使用单个小模型的项目，集成过程非常直接。
以Python接口为例，开发者仅需几步即可完成集成：

配置环境：通过QNNConfig.Config()接口一次性完成底层库路径和运行后端的配置。
模型初始化：通过继承QNNContext类并传入模型名称和路径，即可轻松完成模型的加载。
执行推理：直接调用Inference方法，传入输入数据，即可获得推理结果。
资源释放：对象的生命周期结束时，资源会自动被回收和释放。

相较于直接操作底层的QNN C API，AppBuilder屏蔽了大量复杂的细节，使开发者能更专注于业务逻辑的实现。

Q10：在Windows和Android平台上使用，配置、接口或者调试方式有什么区别吗？

A10：是的，在不同平台上使用时，配置、接口和调试方式均存在差异，需要遵循各平台的开发规范。

配置区别：
- Windows：主要涉及Python运行环境的依赖配置，以及确保QNN SDK相关的DLL库文件路径正确。
- Android：需要在Android Studio项目中配置NDK，并通过CMake或ndk-build来集成C++核心库。依赖的库文件（.so）需要打包到APK中。
接口语言与形式：
- QAI AppBuilder 提供统一的 C++ 核心接口和 Python 封装接口。
- 在 Windows 平台，开发者通常会优先选择使用便捷的 Python 接口进行快速开发和集成。例如：
```
# Windows Python 示例
lamadilated = LamaDilated("lamadilated", model_path)
output_data = lamadilated.Inference(input_data, input_mask)
```
- 在 Android 平台，应用层（通常是Java/Kotlin）需要通过JNI（Java Native Interface）来调用 C++ 接口。因此，Android平台的开发主要围绕C++ API进行。例如：
- ```
// Android C++ 接口调用示例
bool result_init = ModelInitialize("model_name", "path/to/model");
bool result_infer = ModelInference("model_name", inputBuffers, outputBuffers, outputSize);
```
调试方式：
- Windows：可使用Visual Studio进行C++底层代码的断点调试，或使用VS Code等工具进行Python层的调试。
- Android：需使用Android Studio配合ADB进行调试。C++原生代码的调试需要配置好NDK调试环境，并通过logcat查看日志输出。

Q11：做带界面的AI应用时怎么让AI推理和UI界面配合得更流畅啊?

A11：核心策略是将AI推理任务与UI线程彻底分离，QAI AppBuilder为此提供了完善的支持。

后台进程推理：利用平台的多进程架构，将模型加载和推理操作放在独立的后台服务进程中执行。这从根本上避免了计算密集型任务阻塞UI线程。
性能模式管理：在执行关键推理任务前，可调用SetPerfProfileGlobal(PerfProfile.BURST)等接口临时提升硬件性能，缩短推理耗时。任务完成后再释放，以平衡性能与功耗。
高效数据传输：对于大数据量的场景（如视频流），可以使用平台提供的ShareMemory（共享内存）机制，避免在进程间进行大规模数据拷贝，降低延迟，提升整体效率。

通过综合运用后台异步推理、性能动态管理和高效数据传输这三大策略，可以确保AI功能与UI界面的流畅配合。

Q12：QAl AppBuilder主要用什么语言啊?是Python吗还是其他的?

A12：QAI AppBuilder 是一个以C++为核心，同时提供Python接口的混合语言项目。

核心实现：所有与底层QNN SDK的交互、硬件控制、多进程通信等核心功能，均由C++ 实现，以保证最高的运行效率和平台兼容性。这部分被编译为原生动态库。
上层接口：为了提升开发效率和易用性，项目通过pybind11技术，将C++核心功能封装成了一个易于调用的Python模块（qai_appbuilder）。

因此，开发者可以根据项目需求和平台特性灵活选择：在需要极致性能或进行底层开发的场景（如Android App）下使用C++接口；在追求快速开发和集成的场景（如Windows应用原型）下使用Python接口。

Q13：老师如果要把QAI AppBuilder做的应用上线，安全性和稳定性方面要注意啥?

A13：将应用推向生产环境时，必须在稳定性和安全性上进行周全考虑。

稳定性保障：

健壮的错误处理：对所有API调用（模型加载、推理等）进行全面的返回值检查和异常捕获，设计合理的失败处理逻辑（如重试、降级、日志记录），防止应用意外崩溃。
严格的资源管理：确保模型资源在使用完毕后能被正确释放，防止内存泄漏。特别是在服务进程中，要对资源生命周期进行精细管理。
进程守护与恢复：主应用应具备监控后台推理服务进程状态的能力。一旦服务进程异常退出，应有机制能自动拉起或重建服务，保证AI功能的可用性。
全面的压力测试：在上线前，模拟高并发、长时运行等极限场景进行压力测试，确保系统在高负载下的稳定表现。

安全性加固：

模型保护：AI模型作为核心资产，应考虑加密存储。在加载时于内存中进行解密，防止模型文件被轻易窃取和滥用。
安全IPC通信：保护主应用与推理服务进程之间的通信信道，设置正确的访问权限，防止被其他恶意应用注入恶意数据或窃取推理结果。
输入数据校验：对所有输入到模型的数据进行严格的合法性校验，防止通过构造恶意输入引发程序崩溃或执行意外代码，防范拒绝服务（DoS）攻击。
应用加固：对最终发布的应用程序包（如APK或EXE）进行代码混淆和加固，提高逆向工程的门槛。

大赛公开课三：

Q1：GenieAPIService 调用本地NPU上的大语言模型时，对设备有什么性能要求？内存或算力要达到什么水平？

A1：目前，只要是骁龙AI PC，都能够运行 GenieAPIService 调用本地 NPU 的大语言模型。市场上在售的骁龙 AI PC 都可以满足模型运行的基本条件。至于内存需求，主要取决于想要运行的模型大小，以及系统本身在待机状态下的可用内存。一般来说，如果运行 7B 级别的大语言模型，在系统占用较低的情况下，16GB 内存的设备即可满足推理需求；如果配备 32GB 内存，则运行会更加流畅稳定，模型加载速度也会更快。

Q2：在 PC 端完成了模型调试，想把项目迁移到手机上继续开发，需要改动的地方多吗？在跨平台部署时，如果 Android 端和 PC 端的 SDK 版本或驱动不同，模型精度或性能会有差异吗？

A2：这个问题可以分两部分来看。首先是从 PC 迁移到手机端时的改动量，这与开发方式有关。
如果是传统的计算机视觉 (CV) 类模型，在 PC 上使用 C++ 开发且没有依赖系统特定的功能库（例如Windows平台相关的库），那么迁移到手机端相对容易。如果应用中使用了依赖于特定平台的接口或功能，则需要针对这些部分进行适配。如果是在 PC 上通过 Python 开发的应用，直接在手机端运行的情况会比较少见。也可以考虑使用跨平台框架，例如 Flet，这类框架能让 GUI 应用既能在 PC 上运行，也能打包成 APK 部署到 Android 设备上。但是否满足具体项目需求，仍需开发者自行评估。
对于使用 Python 实现的推理逻辑，在迁移到手机端时，通常需要将模型的前后处理逻辑和界面部分改写为 C++ 或 Android 的 Java 实现。
如果是大语言模型 (LLM) 类应用，且通过 GenieAPIService 实现的，那么迁移工作量较小，主要是把 GUI 客户端改为基于 Android框架的版本，服务端部分可以直接在后台运行。
第二个问题关于跨平台部署时 SDK 或驱动版本差异的影响。Android 和 PC 端的驱动确实存在差异，但如果应用是通过我们提供的标准 QAIRT SDK 运行时库和 QAI AppBuilder 接口来实现模型加载与推理，两端是兼容的。同一模型在两个平台之间迁移时，建议尽量使用相同版本的 QAIRT SDK 运行时库和 QAI AppBuilder 工具，这样能避免不必要的问题。模型精度基本不会因为版本差异而变化，性能主要取决于不同平台 NPU 的算力。

Q3：在 Android 端用 QAI AppBuilder 跑模型时，如果模型比较大，比如超 1GB 的 LLM，怎么在内存和加载速度之间做平衡？

A3：根据我们的经验，在较新的骁龙移动平台上运行 3B 或 7B 的大语言模型都是可行的。以 7B 模型为例，通常需要 4 到 5GB 的内存空间。对于聊天类或文本生成类应用，这样的规模在 PC 或手机端都能流畅运行。加载速度和推理响应时间在多数情况下都能满足实时交互的需求。只要设备内存充足且系统资源占用不高，就可以实现较好的模型加载和响应性能。

Q4：请问在移动设备NPU上能跑多大参数量的LLM?比如7B、13B模型可以吗?

A4：在最新一代的骁龙移动平台上，运行 7B 或 8B 规模的大语言模型没有问题，推理性能表现也很不错。如果模型规模进一步扩大，比如 13B 级别，那么在移动端运行的难度会显著增加，对内存和带宽的要求也更高。目前建议移动端主要运行 7B 以下的模型，能够兼顾响应速度和能耗控制。

Q5：老师您好！请问这些技术可以用来做本地AI助手吗？

A5：完全可以。通过我们提供的 GenieAPIService，就能在骁龙 AI PC 或移动端设备上直接运行本地大语言模型。实现过程非常简单。
首先，将编译好的 GenieAPIService APK 安装到目标设备上；其次，按照文档指引将模型文件复制到指定目录，并完成基础配置；最后，启动服务即可在端侧 NPU 上运行大模型。值得一提的是，GenieAPIService 的接口设计与 OpenAI 的 API 兼容，因此可以直接在本地环境中调用相同的接口完成模型推理。
开发者只需要在自己的 GUI 应用中调用相关接口即可触发推理过程。推理采用流式输出方式，模型的回答会像在线聊天一样逐字生成，这种实时输出体验非常适合本地 AI 助手类的应用场景。

Q6：如果遇到模型在NPU上运行出错,有什么常见的调试方法和工具推荐吗?

A6：常见调试方法与工具：
1. 启用 QNN 日志（设置环境变量 QNN_LOG_LEVEL=DEBUG，输出模型加载、张量处理、推理执行日志）；
2. 用 QNN Profiler 工具，查看 NPU 算力占用、层执行状态，定位算子不兼容或张量维度不匹配问题；
3. 用仓库tools/convert/model_check.py验证模型格式；
4. 核对输入输出：数据类型（FP16/INT8）、维度需与模型元数据一致；
5. 确认 SDK 与驱动版本匹配；
6. 参考 samples 中的错误处理逻辑，排查资源不足、模型路径错误等问题。

Q7：老师请问CV模型在NPU上运行的实时性如何?能达到实时视频处理的帧率吗?

A7：CV 模型在 NPU 上的实时性表现优异，多数场景可满足实时视频处理。轻量 CV 模型（如 BEiT 分类、MobileNet 适配版）帧率可达 60fps+；目标检测（YOLO 轻量版）30-45fps。骁龙 PC / 新一代手机 NPU（如 X Elite）支持 Burst 模式和多图并行优化，1080p 分辨率下，主流 CV 任务（分类、检测、分割）可稳定达到 30fps 以上的实时标准。复杂模型经量化优化后，仍能平衡精度与帧率，完全适配实时视频处理需求。

Q8：想问实际开发中,模型量化对精度有影响吗?有什么好的平衡策略吗?

A8：量化会带来轻微精度损失，可通过以下策略平衡：
1. 优先使用高通 QNN 量化工具（支持 PTQ/INT8），关键层（输出层、回归层）保留 FP16；
2. 用覆盖业务场景的校准数据集优化量化参数，避免分布偏移导致的精度衰减；
3. 直接选用Hugging Face (https://huggingface.co/qualcomm) 或模型广场 (https://www.aidevhome.com/data/models/) 预量化模型，已验证精度损失可控；
4. 采用混合量化：核心层 FP16、普通层 INT8，若精度下降超阈值，可减少量化范围；
5. 量化后通过准确率、mAP 等指标验证，确保满足业务要求。

Q9：想问一下,QAl AppBuilder和Android Studio是什么关系?需要同时安装使用吗

A9：两者无强制依赖，无需同时安装，是协作关系。QAI AppBuilder 是高通 NPU 模型部署工具集，负责推理逻辑适配、模型转换与执行；Android Studio 是 Android 开发 IDE，负责 UI 搭建、权限管理（如 NPU 访问权限）、APK 打包。Android 端开发时，可通过 JNI 将 QAI AppBuilder 的 C++ 推理库集成到 Android Studio 项目，或使用前者提供的 Android 端 samples 模板；纯 PC 开发仅需 QAI AppBuilder，Android Studio 仅在需开发移动端应用时使用。

Q10：GenieAPlService支持哪些主流的LLM模型?Llama、Gemma这些都可以部署吗?

A10：GenieAPIService 支持主流开源 LLM 的 QNN 适配版，包括 Llama 3.1/3.2（7B/4B）、Qwen2 7B SSD、 Phi3.5等。
1. 模型格式为 QNN 兼容格式（含.bin 权重、tokenizer.json、配置文件）；
2. 可以从aidevhome.com下载预适配模型。

Q11：通过GenieAPlService调用本地NPU运行的LLM,相比云端API有哪些优势和劣势?延迟能降低多少?

A11：优势：离线运行无网络依赖、数据本地留存保护隐私、无调用次数 / 成本限制、低延迟（7B 模型单轮响应 100-300ms）；
劣势：模型规模受限（主流支持 7B/8B）、需自行维护模型更新。
相比云端 API，延迟降低 60%-80%（云端网络良好时 500-1500ms，网络差时差距更大）。复杂多轮对话中，本地 NPU 的低延迟优势更明显，但大模型部署受限于本地硬件算力与内存。

Q12：对于隐私敏感的应用场景,端侧部署是不是更有优势?性能损失可以接受吗?

A12：对于隐私敏感场景（如医疗数据处理、金融隐私信息分析、个人私密交互），端侧部署的优势极为突出。依托 QAI AppBuilder 的本地 NPU 推理能力，所有数据全程在设备内处理，无需上传云端，彻底规避网络传输中的数据泄露风险，也无需依赖第三方服务器，完全符合隐私保护法规（如 GDPR、个人信息保护法）对数据本地化的要求，从源头筑牢隐私安全防线。

性能损失方面完全可接受：高通 NPU 的异构计算架构 + QAI AppBuilder 的深度优化（如 Burst 模式、算子适配、混合量化），能最大程度抵消端侧部署的性能损耗。实际使用中，多数场景（如本地 AI 助手对话、隐私数据分类）的响应速度、推理帧率与云端差异极小，无明显感知，完全能平衡隐私安全与使用体验。

Q13：请问用ONNX Runtime部署模型,需要对原始模型做特殊转换吗?流程复杂吗?

A13：通过ONNX Runtime部署模型，不需要对原始模型做转换，使用标准的ONNX模型就可以直接部署运行。

大赛公开课四：

Q1：使用 Qualcomm AI Stack 做端侧部署时，如果模型精度出现下降，该从哪些环节排查？量化、算子兼容性、编译参数之间有什么调优建议？

A1：出现精度下降时，通常需要做逐层对比，确认从哪一层开始偏差。可以检查该层的量化参数（如 encoding 是否异常）、activation 的分布，以及该层在量化转换过程中的输出情况。根据这些信息进一步定位是否是量化参数、算子支持情况或中间结果导致的问题。

Q2：能否用一个真实的模型部署流程来解释 QAIRT 各模块如何协同工作？例如从 PyTorch 模型到最终在设备上运行，会经历哪些步骤？

A2：以 PyTorch 模型为例，流程通常是：
1）先将 PyTorch 模型导出为 ONNX；
2）使用 qairt-converter 转换成浮点 DLC；
3）对 DLC 进行量化，使其能够运行在 HTP 上；
4）使用 QNN 的 context / binary generator 工具将量化后的模型生成最终的 Bin 文件；
5）该 Bin 文件就是最终部署到设备端运行的模型。

Q3：设备端跑多模态或个性化的 GenAI 应用时，延迟有时候会比较高。有没有推荐的优化方法？比如模型拆分、缓存策略、或者 Python API 的调用方式有没有最佳实践？

A3：可以先确认语言模型是否已成功从多头转换成单头；其次适当减小 context length可明显提升速度；另外增加如 SSD 这类并行投机解码策略，也能加速 token 的生成过程。

Q4：GenAl新特性里，有没有一些针对Stable Diffusion这类文生图模型的特殊优化?比如推理速度或者内存占用方面的

A4：对于 Stable Diffusion，我们会先检查模型是否也从多头成功转为单头，同时也有一些蒸馏(distillation)策略，可减少生成步骤，从而提升推理速度。

Q5：老师，当模型部署到手机上之后，效果和在PC上不一样，咱们的调试工具有没有什么“一键诊断”之类的便捷功能，帮我们快速定位问题？

A5：目前没有“一键诊断”工具。如果遇到精度问题，主要还是需要逐层检查，通过层级输出对比来定位是哪一层的计算出现偏差。

Q6：老师，GenAl在端侧的个性化微调 (Fine-tuning) 具体是怎么实现的?需要的数据量和训练时间大概是什么量级?在手机上能完成吗?

A6：目前还是不支持端侧训练的。

Q7：QAIRT 2025 相比之前的版本，对开发者来说最直观、最明显的提升是什么?

A7：最明显的提升是整合了 QNN 和 SNPE，同时新增了大量 Python API，使转换、调试都更方便。现在既能支持传统模型，也能支持大模型的转换，调试工具也比之前版本更完善。

Q8：QAIRT 的生态建设如何？是否有类似 Hugging Face 的社区，能找到已优化并可直接在骁龙平台运行的模型?

A8：可以选用高通Hugging Face (https://huggingface.co/qualcomm) 或模型广场 (https://www.aidevhome.com/data/models/) 的预量化模型。

Q9：QAIRT 支持所有主流 AI 框架，是不是表示 TensorFlow、PyTorch 这类模型可以开箱即用？还需要额外转换吗？

A9：需要经过 converter、量化流程和 context/binary generator 等步骤，转换完成后才能在 HTP 上实际运行。

Q10：新模型比如GLM4.6，YOLO13，也可以直接转换和量化么？

A10：可以的，这些模型都有过部署。

Q11：端侧 GenAI 的隐私保护是如何实现的？模型和数据是完全离线的吗?

A11：是完全本地化的。模型与用户数据都在设备上运行，不依赖网络，也不会与云端交互，因此隐私能得到很好保障。

Q12：HTP 是否有计划支持 grouped quantization？

A12：支持per channel和blocked quantization，不知道跟你所表达的grouped是不是一个概念。

Q13：做性能分析时，可视化工具能否看到每一层在 NPU 上的耗时和内存占用？

A13：可以。工具能够显示每一层的执行耗时，以及具体的内存读写情况，并以 summary 文件的形式呈现，方便开发者优化。

Q14：除了常规算子融合、量化外，QAIRT 2025 在编译器上是否有独特优化策略？

A14：是的，可以配置不同的优化编译选项。

Q15：目前端侧运行大语言模型 (LLM) 是否靠谱？例如 7B 模型在最新骁龙平台上的 token 速度、功耗大概是什么水平？

A15：目前在第五代骁龙8至尊版上主要以3B和4B模型为主；在PC端，7B模型大致是 20 Token/s。

大赛公开课五：

Q1. 在 QAI AppBuilder 中部署模型时，哪些情况会导致模型“不兼容”？如何判断模型能否在 NPU 上运行？

A1：没有“不兼容模型”这种说法，理论上所有能够通过TensorFlow，PyTorch 或 ONNX Runtime推理的模型，都可以转换成 QNN 上下文二进制格式并运行在NPU上的。
大家容易遇到的比较难处理的问题通常不是模型能不能转换，不是模型能不能跑在NPU上，难点在于如何把模型量化成更小的精度的模型并且能够保证精度不会损失过多。量化成更小的精度意味着可以占用更小的内存，运行更快，但过度优化容易导致精度损失，需要花更多时间去优化，让损失降到合理范围。

Q2. 通过 LangFlow 调用本地模型是否会带来额外延迟？如果延迟比较高，可以怎么优化？

A2：通过 LangFlow 调用本地模型，模型本身不会产生额外延迟，但 LangFlow 内部的实现有可能会导致模型的输出不能及时显示到 LangFlow 界面上，这完全取决于 LangFlow 内部的实现。如果要优化的化，更多的还是从 LangFlow 这个开源框架的角度去优化。

Q3. LangFlow 构建的流程如果要嵌入本地应用（桌面端或移动端），有没有推荐的接入方式？

A3：通过 LangFlow 构建的模型应用需要运行的话，首先需要 LangFlow 在后台运行。LangFlow 可以把我们自己搭建的 Flow 导出成基于 Web 的 API，自己的应用程序可以通过这些 API 来调用我们在 LangFlow 中创建的 Flow 提供的功能。

Q4. 多模态模型（如 CLIP、Whisper）如何使用 AppBuilder 部署？是否有现成的案例？

A4：这两个模型，我们在 QAI AppBuilder GitHub (https://github.com/quic/ai-engine-direct-helper) 上正好都有相应的例子，这些例子不需要任何修改，可以直接运行，可以去我们的 GitHub 上获取代码，尝试一下。

Q5. 本地大模型的首 token 延迟一般能做到多少？是否能支持实时对话？

A5：由于我们 NPU 架构设计的特性，对于用户输入内容的处理非常快。而且在对话的场景中，用户一次输入的 tokens 不会太多，所以首 tokens 延迟应该不会成为对话场景的瓶颈。

Q6. 如果模型结构是自定义的（非主流架构），在 NPU 上部署会不会很困难？是否支持自定义算子？

A6：我们的 QAIRT 是支持自定义算子的，正如第一个问题中提到的，只要模型能够通过TensorFlow，PyTorch 或 ONNX Runtime推理，基本都能转换到 NPU 上来运行。

Q7. AppBuilder 是否支持模型蒸馏或知识蒸馏？

A7：请注意， QAI AppBuilder 是专门用来在高通平台的 NPU 上加载模型并进行推理的工作，不支持训练模型或对模型进行蒸馏。

Q8. GitHub示例代码里的性能benchmark靠谱吗?实际项目中能达到那个水平吗？

A8：仅供参考。Benchmark通常在“理想环境”（清空后台、散热良好、特定系统版本）下测得。实际项目中受限于设备散热、后台负载和系统资源竞争，性能通常会打折，建议预留 10%-20% 的余量。

Q9. 老师能讲讲模型转换的完整pipeline吗?从训练到部署中间有哪些坑要注意？

A9：流程通常是：训练(PyTorch/TF) -> 导出(ONNX) -> 量化/转换(QNN工具链) -> 端侧部署(.qnn/.so)。
坑：最常见的是算子不支持（导致回退CPU，极其缓慢）和量化掉点（精度损失严重，需校准数据调优）。

Q10. 老师 AppBuilder跟其他推理引擎(比如TensorRT、OpenVINO)相比，在骁龙平台上的优势在哪？

A10：核心优势是硬件原生支持。TensorRT 专为 NVIDIA GPU 设计，OpenVINO 专为 Intel 芯片设计，它们无法调用骁龙的 NPU。QAI AppBuilder/QNN 是骁龙 NPU 的原生指令集，能效比和速度是最高的。

Q11. LangFlow跟传统的LangChain比，在本地部署上有啥优势?灵活性会不会差一些？

A11：优势在于可视化，降低了原型搭建和调试的门槛。灵活性确实不如纯代码（LangChain），对于复杂的自定义逻辑，LangFlow 可能需要手写 Custom Component（自定义组件）来实现。LangFlow中很多可视化组件其实是直接调用LangChain实现的。

Q12. 遇到内存溢出或者显存不足有没有动态batch、gradient checkpoint这些技术可以用？

A12：Gradient Checkpoint 是训练技术，推理阶段用不上。推理阶段显存不足，建议使用：模型量化（INT8/INT4）、分块推理、或者限制上下文（Context）长度。动态 Batch 主要提升吞吐量，对降低单次请求的峰值显存帮助有限。

Q13. NPU的算力跟最新的GPU比怎么样?适合跑Transformer架构的模型吗？

A13：绝对算力低于桌面级独立显卡，但能效比（性能/功耗）远超 GPU。NPU 非常适合 Transformer，因为其专门针对 Transformer 核心的大规模矩阵乘法做了硬件级优化。

Q14. 边缘设备上部署这套方案，稳定性和功耗表现如何?适合24小时运行吗？

A14：NPU 的功耗远低于 CPU 和 GPU，发热较小，理论上非常适合 24 小时常驻运行。但实际稳定性还取决于设备的被动散热设计，如果散热不佳，长时间满载可能会触发降频。

Q15. NPU的调度机制是怎样的?会不会互相抢资源？

A15：会有资源竞争。NPU 资源通常由底层驱动（QNN/Hexagon）管理。如果多个应用或多个模型同时请求 NPU，系统会根据优先级排队或分时调度。建议在应用层做串行化处理，避免多线程并发抢占导致延迟抖动。

大赛公开课六 Part 1：

Q1：在 QAI AppBuilder 上部署 DDColor 时，常见的性能瓶颈在哪里？有哪些优先级最高的优化手段？

A1：主要的性能瓶颈出现在 CPU 的前处理与后处理环节。前处理中包含大量 OpenCV 操作，例如颜色空间转换、图像缩放、通道拆分合并等，这些操作都在CPU上执行,对于高分辨率的图像,会消耗大量的计算资源,成为显著的性能瓶颈。后处理同样包含了大量的CPU计算，例如图像缩放、颜色空间转换、数据类型转换与反归一化，这些都对 CPU 压力较大。
优先优化方向包括：

将部分前后处理迁移至 NPU/GPU ：通过将前后处理的计算（如缩放、颜色空间转换）集成到模型计算图中，可以利用NPU或GPU的并行计算能力，减少CPU的负担,并避免不必要的数据拷贝；
用硬件加速替代常规 OpenCV 操作；
整体采用异步处理：将整个图像处理流程（包括前后处理和模型推理）放到一个独立的后台线程中执行，避免阻塞UI线程，从而提升应用的响应速度和用户体验。

Q2：快速部署 DDColor 图像上色应用时，如何优化图像前处理和后处理以提升用户体验？

A2：

使用更快的图像处理库：对于图像的缩放、裁剪等操作,可以考虑使用Android提供的Vulkan或OpenGL，这些API可以利用GPU进行加速；
降低图像处理精度：尝试图片压缩，在不显著影响视觉效果的前提下,适当降低输入图像的分辨率；
提供实时进度反馈:

加载动画：在处理过程中,向用户显示一个加载动画或进度条
分步加载：如果可能,可以考虑先快速显示一个低分辨率的预览效果，然后在后台继续计算并替换为高分辨率的最终效果。

Q3：如果要让 GenieChat 支持多轮对话（保持上下文），在推理与状态管理上该如何设计以保证流畅性？

A3：在工程实现上建议关注以下方面：
1. 对话历史的管理 (状态管理)
应用需要有一个“短期记忆”来存储当前的对话。我们可以在在App运行时，在内存中维护一个对话列表。如果希望即使用户关闭并重新打开App后，对话历史依然存在，就需要将对话记录持久化存储。可以考虑使用数据库（如SQLite）或文件的形式，将对话保存在手机本地。
对话历史不能无限增长，否则会消耗过多的内存和计算资源。因此，需要设定一个“记忆窗口”，比如只保留最近的10轮或20轮对话。当对话超出这个窗口时，最早的对话就会被“遗忘”。
2. 利用对话历史进行推理
在向AI模型发送请求时，不再仅仅发送用户当前说的这句话。而是需要将之前存储的对话历史（短期记忆）一并打包，作为背景信息发送给AI。这样，AI才能“看到”之前的对话，理解当前的语境。

保证流畅性的优化建议：
为了避免用户在AI思考时长时间等待，可以让AI模型以“流”的方式，一个词一个词地返回答案，而不是等全部答案都生成好了再一股脑地返回。这能极大地提升用户的体验，让对话感觉更“实时”。（目前GenieChat已经实现了这一点）
上下文压缩（Context Pruning）：当对话历史变得很长时，全部发送给AI会增加API的调用成本和延迟。可以采用一些策略来“精简”上下文，比如只发送最近的几轮对话，或者对早期的对话内容进行摘要总结。
另外，QAI AppBuilder中提供的GenieAPIService本身默认也是支持多轮对话（保持上下文）的。可查看GitHub上相关文档说明。

Q4：CLIP 在 QAI 上推理时，Batch Size 多大合适？为什么 Batch 太大反而更慢？

A4：通常在端侧 NPU（如骁龙 HTP）上，推荐 Batch Size 设置为 1，或者较小的数值（如 4 以内）。
为什么 Batch 太大反而慢？
这涉及端侧 NPU 的架构特性，与服务器端的 GPU（如 NVIDIA A100）不同：
1. 内存带宽瓶颈 (Memory Bandwidth)：手机等移动设备的内存（DDR）带宽远小于服务器显存。当 Batch Size 增大，数据搬运（从 DDR 到 NPU 内部的高速缓存 VTCM）的时间变长。如果数据传输时间超过了 NPU 的计算时间，就会导致计算单元闲置等待数据，从而拖慢整体速度。
2. SRAM (VTCM) 限制：骁龙 NPU 依赖内部的高速向量存储器（VTCM）来极致加速。如果 Batch Size 过大，导致中间激活值（Activation）超过了 VTCM 的容量，NPU 就被迫将数据“溢出”（Spill）到较慢的 DDR 内存中，这会导致严重的性能下降。
3. 延迟敏感：端侧应用通常追求实时响应（Latency），而大 Batch 是为了吞吐量（Throughput）。Batch=1 能保证单次操作最快完成。

Q5：如果想在 CLIP 前增加图像增强操作（如超分），应该插在预处理的哪个环节？是否会影响特征效果？

A5：增强操作应放在图片加载之后、CLIP 标准预处理（Resize/Normalize）之前，即在 Image.open 与 preprocess(image) 之间。
对于效果的影响是一把双刃剑：

正面影响：如果原图非常模糊（例如 64x64 像素），CLIP 很难识别物体轮廓。此时做超分（Super-Resolution）恢复出细节，有助于 CLIP 提取正确的语义特征。
负面影响：如果原图质量尚可（例如 512x512），强行做超分或增强可能会引入伪影（Artifacts）或改变图像的纹理分布。CLIP 是在自然图像上训练的，过度的数字增强可能导致特征向量发生偏移（Shift），使得原本能搜到的图搜不到了。

Q6：如果图像库非常大（如 10 万张图），实时检索时如何优化响应速度？需要全部缓存到内存吗？

A6：建议提前离线计算所有图像的特征，并将它们保存到单一大文件或数据库中。以常见的 512 维 float32 特征为例，10 万张图的特征约占 195MB，对现代设备来说完全可以在程序启动时直接加载到内存。在内存中进行向量点积搜索通常可在毫秒级完成，不需要额外复杂的优化。

Q7：跨平台部署时，Mac 与 Windows 的模型路径管理有哪些坑？为什么 Windows 打包不能在 Mac 上运行？

A7：

1. 最大的误区：打包出的“可执行文件”不通用
坑点：您在 Windows 上用 PyInstaller 打包生成的 .exe 文件（或 dist 文件夹），是绝对无法直接在 Mac 上运行的。

原因：Windows 的可执行文件格式是 PE (.exe)，而 Mac 是 Mach-O。PyInstaller 不是 Java 虚拟机，它打包的是当前操作系统的原生二进制文件。
解决：必须在 Mac 系统上重新运行 PyInstaller 打包命令。通常的流程是：代码写一套 -> 在 Windows 电脑上打个包 -> 把代码复制到 Mac 电脑上 -> 在 Mac 上再打个包。

2. 路径分隔符：反斜杠 \ vs 正斜杠 /
3. 文件名大小写敏感 (Case Sensitivity)
4. 冻结路径（Frozen Path）的基准点不同
在 PyInstaller 打包后，程序解压资源的临时目录机制虽然通用，但工作目录（CWD）的行为在 Mac App Bundle（.app）下会很奇怪。
5. 权限与写文件路径
坑点：

Windows：打包后的软件通常可以随意在自己的安装目录下生成 log.txt 或缓存文件。
Mac：处于安全考虑（Gatekeeper），打包好的 .app 内部通常是只读的，或者是签名保护的。如果你试图把缓存文件（比如代码中的 image_features_cache.pkl）写回到 .app 包的内部路径里，程序会闪退或报错 Permission Denied。

Q8：在 CLIP 搜索基础上想增加“以图搜图”，是不是只需要将输入换成图像特征？需要重新训练模型吗？

A8：是的，实现“以图搜图”只需用 CLIP 的图像编码器对查询图像提取特征，再与图库特征做相似度计算并排序，无需重新训练模型。因为CLIP 的核心设计理念是 “图文对齐”（Shared Latent Space）。
这意味着：文本编码器输出的向量和图像编码器输出的向量，是在同一个数学空间里的。

"一只猫的文字向量" 和 "一张猫的照片向量" 距离是很近的。
同理，"一张猫的照片向量" 和 "另一张猫的照片向量" 距离也是很近的。

实现“以图搜图”的步骤：
1. 用户上传一张查询图片（Query Image）。
2. 使用image_encoder（不是 text_encoder）对这张查询图片进行推理，得到一个 512 维的向量 query_feature。
3. 使用这个 query_feature 去和你的图像库特征（Database Features）做点积计算相似度。
4. 排序，返回结果。

大赛公开课六 Part 2：

Q1：老师，想问问在 NPU 上部署 LLM 或多模态模型时，有什么选择模型规模、架构或量化策略的经验可以给备赛选手参考吗？

A1：在本地部署大模型时，最核心的限制通常是设备资源，因此一般优先选择小型或轻量级模型，例如 1B 以下参数规模。对于 7B 模型，通常需要 16GB 以上内存才能稳定运行。除了模型权重本身的占用，还需要考虑上下文长度，因为更长的 context 会显著增加推理过程中的额外内存开销。因此在资源有限的情况下，需要同时权衡模型参数量和所需的上下文长度。
关于架构，如果是 MoE（稀疏专家）结构，它对内存带宽和调度能力依赖更高，需要硬件具备足够支持才能发挥性能。

在量化策略上，本地 NPU 上部署 LLM 时推荐量化，可以大幅缩小模型体积、减少内存占用，并提升推理速度，同时精度损失在可控范围内。像应用宝的“智能启动台”使用的混元 0.5B 模型就是 INT8 量化版本。

如果是针对特定任务的场景，可以采用 LoRA 微调，通过在较小的基础模型上提升特定任务能力，就能在低资源开销下获得比 7B 模型更好的定制化效果。应用宝实际应用中，0.5B 模型 + LoRA 微调后的效果已经优于一些更大模型。同时，如果有多任务需求，还可以采用“动态加载适配器”的方式，按需加载不同任务的 LoRA Adapter，进一步减少内存占用。

Q2：想问问实际项目落地中，把 AI 能力整合到传统业务（如应用宝的分发、推荐、安全等）时，最大的工程挑战是什么？我们比赛中也想把 AI 能力嵌入已有应用，使用 QAI AppBuilder 时应该优先考虑哪些工程点（如进程隔离、资源调度、模型热加载等）？

A2：将 AI 能力融入传统业务时，最大的挑战主要来自工程层面的适配与优化。
首先是硬件利用。需要合理调度 CPU、GPU、NPU 等不同加速单元，让模型推理发挥最佳性能。高通的 SDK 已经做了不少 NPU 方向的优化，如果未来能实现多硬件协同调度，会进一步提升能力。
第二是功耗与发热。在本地设备上，如果频繁进行推理，即使是 NPU 也会产生较高功耗和发热。因此产品层面需要减少不必要的推理任务，并依据设备状态做动态调度，例如仅在电源充足、接入电源时执行高负载推理。
第三是数据安全与隐私。即便是本地部署，也需要遵守隐私与合规要求，对于采集的数据必须做脱敏处理。对于个性化需求，可以利用用户本地数据进行持续学习或微调，无需上传数据到云端。

Q3：应用宝的产品里，NPU 推理和 CPU 推理是怎么做 fallback 的？

A3：应用宝针对骁龙pc适配的版本，只支持NPU推理

Q4：如果想支持实时摄像头输入，流式处理这块 QAI AppBuilder 怎么实现？

A4：mediapipe_hand示例有cam流处理的示例。

Q5：如果图库很大（比如 10 万张图），怎么优化检索速度？要不要建索引或者用向量数据库？

A5：针对10万张级别的大规模图库检索，我们的优化核心策略是采用向量数据库配合高效的索引机制。

我们选择使用开源向量数据库LanceDB作为向量数据的存储与管理平台。LanceDB原生支持暴力搜索和近似最近邻索引两种检索模式。

在标准的PC硬件环境下，暴力搜索的耗时在毫秒级别，这个性能水平能够满足绝大多数实时检索的应用需求。

如果面临的更大规模数据，创建索引可以显著提升搜索速度，但在构建和更新索引时会产生额外的时间开销。

因此，建议根据实际数据量、向量维度、对查询延迟的严格要求以及可接受的索引构建耗时进行综合权衡。

Q6：QAI AppBuilder 对 CLIP 这种双塔模型的支持怎么样？

A6：支持open clip 模型推理，QAI AppBuilder GitHub上有个CLIP模型的示例代码，可以参考看看是否有帮助。

Q7：CLIP 模型的文本编码器和图像编码器，在 NPU 上是分开推理还是融合推理？哪个效率更高？

A7： CLIP可以可以分开做，也可以放到一起进行推理，看具体的use case。

Q8：ARM 架构跟 x86 在 AI 推理上有啥本质区别？应用宝迁移到 ARM 遇到过兼容性问题吗？

A8：在 AI 推理层面，ARM 和 x86 架构并没有根本性的本质区别。底层设备架构（指令集、内存模型等）的复杂细节已经通过上层 SDK和操作系统进行了良好的封装和屏蔽。无论是 ARM 还是 x86，最终的推理核心计算（矩阵乘法、卷积等）都依赖于它们各自的向量化/SIMD 单元（如 x86 的 AVX 系列、ARM 的 NEON/SVE），这些差异主要体现在性能和功耗上，而非“本质”的算法或功能实现上。

应用宝在迁移到ARM架构时，遇到的主要兼容性挑战集中在指令集上。尽管基于ARM的Windows提供了指令翻译来运行大部分x86应用程序，但这种模拟并非完美。某些高性能、专用的指令集不支持，比如AVX-512指令集。如果x86版本程序使用了这类指令集，那么在 ARM 平台上就需要重新编译

因此我们应用宝在迁移ARM时，使用了原生ARM64架构，对所有的代码都在ARM架构下重新编译。

Q9：自定义模型转换这块，如果 CLIP 用了自己微调的版本，转换流程会不会很复杂？

A9：微调fine-tune只是针对model，转化流程不会有变化。

Q10：多语言文本检索（比如中英文混合），CLIP 的效果怎么样？要不要针对性优化？

A10：支持多语言需要fine-tune CLIP模型，这部分需要根据use case进行调整，对于高通的工具而言，转换流程上不会有差异。

Q11：图像预处理这块，Resize 和 Normalize 在 NPU 上能加速吗？还是只能 CPU 处理？

A11：Resize NPU也可以做，但是速度不会特别快，建议放CPU做比较好。Normalize NPU支持。

Q12：老师能分享一下应用宝在内存管理上的经验吗？怎么避免长时间运行内存泄漏？

A12：

对于大模型，上下文在内存中会占用KV Cache，长度与内存大小直接相关。必须在性能和内存消耗之间找到最佳平衡点，设定合理的上下文长度硬限制。
可以采用滑动窗口机制，当上下文超出限制时，清理掉最旧的、信息价值最低的部分。
可以引入策略将旧的聊天历史或不重要的文档压缩成摘要，用更少的token存储核心信息，释放原始token占用的KV Cache。
对于程序中使用了多个不同模型（如图像识别模型、文本理解模型、推荐排序模型等）的场景，应实施自动化模型生命周期管理。
对于长时间未被调用的模型，自动将其卸载，彻底释放其占用的内存资源。将所有模型的加载和卸载操作统一管理，避免不同模块重复加载相同模型，实现内存共享和复用。
针对程序实现的内存泄漏问题，在python代码中，避免循环引用的代码实现。
通过手段调用gc.collect积极地回收内存。
确保系统级资源（文件句柄、网络连接、数据库连接、线程/进程句柄、C++扩展中的原生内存分配等）在使用完毕后，通过close/release/delete等操作被显式释放。

...全文