QNN 模型转换问题

icicicle 2025-12-09 11:40:05

我们的模型需要支持两个矩阵 A(8, 5476, 1, 8) B(8, 5476, 8, 32) 进行MatMul，以后续进行cross attention。在 python 层级的代码为 torch.matmul(A, B) 使用了工具链进行了w8a8 的量化，并转换为了qnn bin 文件。转换后，对应的算子是MatMul。实测其在NPU上的耗时相当高，需要 59ms。请问大佬们，更为合理的处理方式是什么？

...全文

10 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

基于高通QNN平台的YOLOv5目标检测模型量化部署工具集_包含环境配置脚本数据预处理模块模型转换量化推理与验证全流程_实现从PyTorch模型到高通神经处理SDK的高效转换与嵌入.zip

本文详细介绍了高通AI Engine Direct SDK的使用方法，特别是QNN（Qualcomm Neural Network）的开发流程。内容涵盖了环境安装、依赖项配置、模型转换与量化、以及在不同后端（如CPU和HTP）上的具体操作步骤。文章提供了详细的PowerShell命令和脚本示例，帮助开发者快速搭建开发环境并完成模型转换。此外，还介绍了如何通过量化优化模型性能，以及如何利用高通硬件加速AI推理。

本文介绍了如何利用高通发布的神经网络推理引擎QNN（Qualcomm Neural Network）对YOLOv8检测模型进行重构和部署。QNN作为SNPE的升级版，支持从Pytorch、TensorFlow等框架到高通计算平台的模型转换，并提供低比特量化（int8）功能，使其能够高效运行在高通神经网络芯片上。文章详细阐述了QNN的核心功能，包括模型转换、量化、测试工具（如qnn-net-run和qnn-profile-viewer）以及性能分析。此外，还介绍了Qualcomm® AI Engine Direct的模块化设计、跨IP核的统一API、高效的执行模型以及自定义操作支持等特性。通过重构QNN的代码结构和逻辑，作者简化了原有的复杂demo，使其更符合实际应用需求，并展示了重构后的输出结果。

高通模型转换 QPM3-liunx-all.deb

神经网络的定量训练-QNN

高通开发者论坛

6,216

社区成员

5,981

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章