我们的模型需要支持 两个矩阵 A(8, 5476, 1, 8) B(8, 5476, 8, 32) 进行MatMul,以后续进行cross attention。 在 python 层级的代码为 torch.matmul(A, B) 使用了工具链进行了w8a8 的量化,并转换为了qnn bin 文件。 转换后,对应的算子是MatMul。 实测其在NPU上的耗时相当高,需要 59ms。 请问大佬们,更为合理的处理方式是什么?
6,216
社区成员
5,981
社区内容
加载中
试试用AI创作助手写篇文章吧