CUDA FFT和BLAS库的效率疑惑!
CUDA FFT和BLAS库在程序中使用到底是在CPU上运行的还是在GPU上运行的?
理由:做了一个矩阵乘法,一个是自己编程实现肯定在GPU上运行的,另一个是利用cublasSgemm函数实现的,但是后者的速度比前者慢了很多(至少慢7倍)。所以怀疑这些CUDA FFT和BLAS库是否是在GPU上运行。难道它们是在CPU上运行的?如果是这样的话,那么NVIDIA提出的CUDA的效率到底在哪里呢?如果不是,那么这些CUDA FFT和BLAS库的用处到底何在?在提高效率方面是如何体现的呢?望解释本质。
请专家解惑,谢谢了!