多GPU并行,采用多种模式,效果都不明显,有哪位高手可以指点的

luck4917 2012-10-16 03:54:13
MPI+CUDA
Pthread or OpenMP + CUDA
streams+ CUDA
几种模式都试过,效果不明显,甚至比用单核更慢,SDK的例子也没效果,
是否有需要特殊处理的.
...全文
700 7 打赏 收藏 转发到动态 举报
写回复
用AI写文章
7 条回复
切换为时间正序
请发表友善的回复…
发表回复
xuezt 2013-04-24
  • 打赏
  • 举报
回复
感觉用GPU作视频数据decode也没什么效果啊。主要是gpu decode后,数据要做转换花费CPU更高。
alpha.5 2013-03-27
  • 打赏
  • 举报
回复
增加你的计算量,计算量级大,而又不怎么需要交换的; 然后分成两份,每份分给一个GPU,让它死算.. 就能看到效果了.
linxxx3 2012-10-23
  • 打赏
  • 举报
回复
工程上的东西,完成了马上还要做别的,确实没有系统总结过。提高并行效率的优化点都太细了,大的方向ls我已经讲了,具体的手法非常依赖底层平台的微架构。优化的步骤每一步都需要结合profiling来做,特别是要做横向对比的时候,一定要拿充分优化的程序去比较,直接拿一个程序,在两个平台上一跑,然后就下结论,这样很不科学。
luck4917 2012-10-22
  • 打赏
  • 举报
回复
请问,有没用做过对比过,多块显卡并行计算的实际运用
以及用多GPU的显卡进行过对比测试,对各种并行构架
计算能力进行分析, 提高并行效能的技巧有哪些?
luck4917 2012-10-17
  • 打赏
  • 举报
回复
有没具体应用的实例,能否把你的数据处理细节的方式及
kernal函数的大概任务量借鉴一下,是否有相关多GPU与
使用单GPU 的性能对比数据,我现在都快没信心了.~~
linxxx3 2012-10-17
  • 打赏
  • 举报
回复
[Quote=引用 2 楼 的回复:]

有没具体应用的实例,能否把你的数据处理细节的方式及
kernal函数的大概任务量借鉴一下,是否有相关多GPU与
使用单GPU 的性能对比数据,我现在都快没信心了.~~
[/Quote]

以前做的东西了,处理数据就是分块,运算结果是各写各的,基本没有数据传输的问题。

lz现在缺少细致的profiling,你说多GPU不好,但是只有整体的结果,确没对每个过程统计过时间。
比如kernel执行几十ms,数据传输上百ms之类的;或者一个运算任务,算完一行做一次多设备的同步,这样都是不行的,我只举个例子。
linxxx3 2012-10-16
  • 打赏
  • 举报
回复
注意计算粒度,每个GPU的任务量要足够大,数据交换尽量少,避免分散的小数据量传输

353

社区成员

发帖
与我相关
我的任务
社区描述
CUDA高性能计算讨论
社区管理员
  • CUDA高性能计算讨论社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧