CUDA FFT和BLAS库的效率疑惑!

xiaohan70 2009-02-04 04:47:08
加精
CUDA FFT和BLAS库在程序中使用到底是在CPU上运行的还是在GPU上运行的?
理由:做了一个矩阵乘法,一个是自己编程实现肯定在GPU上运行的,另一个是利用cublasSgemm函数实现的,但是后者的速度比前者慢了很多(至少慢7倍)。所以怀疑这些CUDA FFT和BLAS库是否是在GPU上运行。难道它们是在CPU上运行的?如果是这样的话,那么NVIDIA提出的CUDA的效率到底在哪里呢?如果不是,那么这些CUDA FFT和BLAS库的用处到底何在?在提高效率方面是如何体现的呢?望解释本质。
请专家解惑,谢谢了!
...全文
1465 21 打赏 收藏 转发到动态 举报
写回复
用AI写文章
21 条回复
切换为时间正序
请发表友善的回复…
发表回复
chenmoumou 2010-02-22
  • 打赏
  • 举报
回复
不错,学到不少知识。呵呵
xin_200 2009-03-19
  • 打赏
  • 举报
回复
在某些情况下,GPU的BLAS峰值速度确实比CPU高出一个数量级以上,主要是GPU内部采用了更多的浮点计算单元。这更多是架构上的差别,而不是nvidia掌握了比更intel先进的技术。打个比方,四十缸引擎的功率肯定比四缸引擎要大很多,但在小马路上,两者并不会有什么差别。
yb840117 2009-03-19
  • 打赏
  • 举报
回复
如果单纯评价GPU运行FFT或者BLAS的速度,那是相当快,比CPU高出不是一个等级。
但是,在数据的传输方面至今是个瓶颈,90%以上的时间都用在了数据传输上,所以从整体评价GPU的性能表现的不是很好
如果解决了数据传输方面的问题,那用来计算GPU就无敌了
starfrombit 2009-03-16
  • 打赏
  • 举报
回复
偶也遇到过这个问题,惑解,呵呵
Aladdin_Cheng 2009-02-23
  • 打赏
  • 举报
回复
不知道有没有人尝试用Ati的卡做fft呢 有的话大家可以切磋一下
yeg001 2009-02-10
  • 打赏
  • 举报
回复
仰望顶楼几位, 实在没有用过
opendoormybaby 2009-02-09
  • 打赏
  • 举报
回复
好的东西 我顶
  • 打赏
  • 举报
回复
应该是C的吧?不懂
klmm1205 2009-02-07
  • 打赏
  • 举报
回复
cublas的库现在性能确实不是很高~
ph215405357 2009-02-06
  • 打赏
  • 举报
回复
jf
zbzbzb022 2009-02-06
  • 打赏
  • 举报
回复
不懂说的是什么。。。。
qin_y_j 2009-02-05
  • 打赏
  • 举报
回复
对CUDA而言

还有重要的数据对齐等优化,如果提前不知道核的尺寸、图像的尺寸以及数据元素的情况;
很难对数据访问进行优化;----对计算效率影响很大
qin_y_j 2009-02-05
  • 打赏
  • 举报
回复
CUDA FFT和BLAS的效率低是相对GPU专门优化的算法而言的,但是和CPU相比 效率就高了;
主要体现在显存带宽(最高150GB/s)和并行计算上(最多240计算单元);
通用性实例:
可以适应不同尺寸的核、不同尺寸的矩阵;(增加了if判断语句,如果提前知道核和矩阵尺寸,为了性能完全可以避免if判断语句)
容错判断;(比如整形、浮点溢出判断等,正常情况下就是一种额外的开销)
xiaohan70 2009-02-05
  • 打赏
  • 举报
回复
既然在程序中调用的CUDA FFT和BLAS库都是在GPU上完成的,效率这么低,那么CUDA当初的初衷来利用GPU提高计算效率不是落空了吗?再者3楼说的“cublas为了通用性就会损失一定的效率”中的通用性指的是什么,它到底有多重要呢?在GPU并行计算开发中到底是通用性重要还是效率重要呢?
qin_y_j 2009-02-05
  • 打赏
  • 举报
回复
可能算法实现不一样,效率就会有很大的出入;
cublas为了通用性就会损失一定的效率;
heimeng20 2009-02-05
  • 打赏
  • 举报
回复
据说cublas的库现在性能不是很高~
healer_kx 2009-02-05
  • 打赏
  • 举报
回复
接分。
xiaohan70 2009-02-05
  • 打赏
  • 举报
回复
专家们,接分!再次谢谢了!
darkstorm2111203 2009-02-04
  • 打赏
  • 举报
回复
都是在GPU上完成的,虽然没有完全优化,但效率相对来说还算不错
不会差这么多
建议检查测时有没有同步,编译选项,有没有包括数据传输
OpenHero 2009-02-04
  • 打赏
  • 举报
回复
cublas的库现在性能不是很高~

353

社区成员

发帖
与我相关
我的任务
社区描述
CUDA高性能计算讨论
社区管理员
  • CUDA高性能计算讨论社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧