QNN 模型转换问题

icicicle 2025-12-09 11:40:05

我们的模型需要支持 两个矩阵 A(8, 5476, 1, 8) B(8, 5476, 8, 32) 进行MatMul,以后续进行cross attention。 在 python 层级的代码为 torch.matmul(A, B) 使用了工具链进行了w8a8 的量化,并转换为了qnn bin 文件。 转换后,对应的算子是MatMul。 实测其在NPU上的耗时相当高,需要 59ms。 请问大佬们,更为合理的处理方式是什么?

...全文
10 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

6,216

社区成员

发帖
与我相关
我的任务
社区描述
本论坛以AI、WoS 、XR、IoT、Auto、生成式AI等核心板块组成,为开发者提供便捷及高效的学习和交流平台。 高通开发者专区主页:https://qualcomm.csdn.net/
人工智能物联网机器学习 技术论坛(原bbs) 北京·东城区
社区管理员
  • csdnsqst0050
  • chipseeker
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧