CUDA FFT和BLAS库的效率疑惑！

xiaohan70 2009-02-04 04:47:08

加精

CUDA FFT和BLAS库在程序中使用到底是在CPU上运行的还是在GPU上运行的？
理由：做了一个矩阵乘法，一个是自己编程实现肯定在GPU上运行的，另一个是利用cublasSgemm函数实现的，但是后者的速度比前者慢了很多(至少慢7倍)。所以怀疑这些CUDA FFT和BLAS库是否是在GPU上运行。难道它们是在CPU上运行的？如果是这样的话，那么NVIDIA提出的CUDA的效率到底在哪里呢？如果不是，那么这些CUDA FFT和BLAS库的用处到底何在？在提高效率方面是如何体现的呢？望解释本质。
请专家解惑，谢谢了！

...全文

1465 21 打赏收藏转发到动态举报

写回复

用AI写文章

21 条回复

切换为时间正序

请发表友善的回复…

发表回复

chenmoumou 2010-02-22

打赏
举报

不错，学到不少知识。呵呵

xin_200 2009-03-19

打赏
举报

在某些情况下，GPU的BLAS峰值速度确实比CPU高出一个数量级以上，主要是GPU内部采用了更多的浮点计算单元。这更多是架构上的差别，而不是nvidia掌握了比更intel先进的技术。打个比方，四十缸引擎的功率肯定比四缸引擎要大很多，但在小马路上，两者并不会有什么差别。

yb840117 2009-03-19

打赏
举报

如果单纯评价GPU运行FFT或者BLAS的速度，那是相当快，比CPU高出不是一个等级。
但是，在数据的传输方面至今是个瓶颈，90%以上的时间都用在了数据传输上，所以从整体评价GPU的性能表现的不是很好
如果解决了数据传输方面的问题，那用来计算GPU就无敌了

starfrombit 2009-03-16

打赏
举报

偶也遇到过这个问题，惑解，呵呵

Aladdin_Cheng 2009-02-23

打赏
举报

不知道有没有人尝试用Ati的卡做fft呢有的话大家可以切磋一下

yeg001 2009-02-10

打赏
举报

仰望顶楼几位, 实在没有用过

opendoormybaby 2009-02-09

打赏
举报

好的东西我顶

名字不好取_蛋疼 2009-02-09

打赏
举报

应该是C的吧？不懂

klmm1205 2009-02-07

打赏
举报

cublas的库现在性能确实不是很高~

ph215405357 2009-02-06

打赏
举报

zbzbzb022 2009-02-06

打赏
举报

不懂说的是什么。。。。

qin_y_j 2009-02-05

打赏
举报

对CUDA而言

还有重要的数据对齐等优化，如果提前不知道核的尺寸、图像的尺寸以及数据元素的情况；
很难对数据访问进行优化；----对计算效率影响很大

qin_y_j 2009-02-05

打赏
举报

CUDA FFT和BLAS的效率低是相对GPU专门优化的算法而言的，但是和CPU相比效率就高了；
主要体现在显存带宽（最高150GB/s）和并行计算上(最多240计算单元)；
通用性实例：
可以适应不同尺寸的核、不同尺寸的矩阵；（增加了if判断语句，如果提前知道核和矩阵尺寸，为了性能完全可以避免if判断语句）
容错判断；（比如整形、浮点溢出判断等，正常情况下就是一种额外的开销）

xiaohan70 2009-02-05