高通平台上本地运行生成式 AI 多模态模型（同时处理图片和文本），Hexagon NPU 不支持某些算子怎么回退？会不会影响整体推理速度？

码莎拉蒂tuo 2026-03-19 15:43:40

高通平台上本地运行生成式 AI 多模态模型（同时处理图片和文本），Hexagon NPU 不支持某些算子怎么回退？会不会影响整体推理速度？

...全文

70 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

weixin_38498942 03-19 16:09

打赏
举报

回复

QNN 框架支持自动算子回退（op fallback）：不被 HTP 支持的算子会自动调度到 CPU 或 GPU 执行。但频繁回退会导致数据在 NPU 和 CPU/GPU 之间反复搬运，显著增加延迟。优化方法：
1）转换模型前用 snpe-dlc-info 或 QNN 工具检查算子支持列表，提前替换不支持的算子（如用支持的等价实现）；
2）对视觉编码器和语言模型分别转换和优化，视觉部分的 CNN 通常 NPU 支持良好，Attention 层可能需要 GPU 辅助；
3）尽量保证模型中连续的算子在同一后端执行，减少跨设备数据传输。

端侧多模态理解大模型的适配，核心在于硬件特性理解 + 模型量化技巧 + 内存管理。高通的 GENIE + Hexagon NPU 提供了一套成熟的方案，让开发者能够将前沿的多模态AI能力带入移动设备。随着芯片性能提升和软件栈完善，2026年将是端侧多模态AI爆发的一年。准备好了吗？参考资料：Qualcomm AI Research、Qualcomm Developer Blog、MWC 2024-2025 演示。

与仅依赖云连接的传统AI模型不同，OmniNeural利用Hexagon NPU的设备端AI性能，开创了AI既本地化又深度集成的新现实。在搭载骁龙平台的的智能手机上，助手既能听到你的声音，也能看到你看到的东西，能够自然、迅速地做出反应，同时直接在Hexagon NPU上运行，从而获得持续的电池寿命和闪电般的交互速度。无论您使用的是笔记本电脑、智能手机、汽车、扩展现实还是物联网设备，该模型都可以在您需要的地方提供最先进的AI性能 – 并兼具终端侧AI的所有优势，如即时性、成本效益、可靠性和隐私性。

生成式 AI 变革已经到来。随着生成式AI 用例需求在有着多样化要求和计算需求的垂直领域不断增加，我们显然需要专为 AI定制设计的全新计算架构。这首先需要一个面向生成式 AI 全新设计的神经网络处理器(NPU)，同时要利用异构处理器组合，比如中央处理器(CPU)和图形处理器(GPU)。通过结合 NPU 使用合适的处理器，异构计算能够实现最佳应用性能、能效和电池续航，赋能全新增强的生成式 AI体验。NPU 专为实现低功耗加速AI推理而全新打造，并随着新 AI1用例、模型和需求的发展不断演进。

介绍生成式AI的发展趋势和挑战，以及NPU和异构计算在实现高性能、低功耗的终端侧AI推理中的重要性。

本文详细介绍了将微调后的Qwen模型部署到手机端Hexagon NPU进行加速的全流程。内容涵盖移动端NPU生态对比、模型微调与量化、以及利用高通QNN后端进行图优化和混合计算的关键技术，旨在帮助开发者充分发挥骁龙平台硬件潜力，实现高效的端侧AI推理。

高通开发者论坛

7,639

社区成员

6,299

社区内容

发帖

与我相关

我的任务

人工智能物联网机器学习技术论坛（原bbs）北京·东城区

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章