多GPU并行加速问题

xmzzp 2014-04-29 04:21:09

用4个GPU计算的时间是1个GPU计算时间的4倍左右，每个GPU的计算量设置的都是相同的，所以不明白是我程序调用的问题还是多个GPU计算时本身就是串行的？
如果多GPU可以并行计算的话，该怎么调用呢？
我调用的方式如下：
for (int i=0;i<GPU_N;i++)
{
CUDA_SAFE_CALL(cudaSetDevice(i));
CUDA_SAFE_CALL(cudaStreamCreate(&plan[i].stream));
CUDA_SAFE_CALL(cudaMalloc((void**)&plan[i].d_O,sizeof(float)*(sizeMat)));
CUDA_SAFE_CALL(cudaMallocHost((void**)&plan[i].h,sizeof(float)*(sizeMat)));
}

for(int i=0;i<GPU_N;i++)
{
CUDA_SAFE_CALL(cudaSetDevice(i));
holo<<<grid,threads,0, plan[i].stream>>>(plan[i].d_O);
CUDA_SAFE_CALL(cudaThreadSynchronize());
CUDA_SAFE_CALL(cudaMemcpyAsync(plan[i].h,plan[i].d_O,sizeof(float)*sizeMat,cudaMemcpyDeviceToHost));
}

...全文

1370 66 打赏收藏转发到动态举报

写回复

66 条回复

切换为时间正序

请发表友善的回复…

发表回复

stellarman 2014-08-30

打赏
举报

回复

数据完全并行开了没有.从你贴的code很难发现问题，你应该运行10次，看看第三次以后的时间。 cudaThreadSynchronize() 我觉得应该用cudaDeviceSynchronize()。

ycth8 2014-08-20

打赏
举报

回复

可以并行，需要设置不同的线程，每个线程设置一个GPU，线程并行，多个GPU自然也并行处理了。

chishilaoda1 2014-06-21

打赏
举报

回复

应该是切换关系吧.

sinat_16745593 2014-06-21

打赏
举报

回复

好高深。。没看懂

Online-7年 2014-06-21

打赏
举报

回复

cudaThreadSynchronize()这个函数是线程同步，等待核函数结束，cpu才进行下一个语句，也就是说cpu在分配任务的时候就已经是分配一个，等待一个运算结束，再分配第二个。这样当然和只用一个GPU时间一样了

qq_16709685 2014-06-20

打赏
举报

回复

非常不错呵呵

yool123 2014-06-20

打赏
举报

回复

学习了，以后会常来

wudayingxiaoxue 2014-06-19

打赏
举报

回复

新手学习.

qq_16689805 2014-06-19

打赏
举报

回复

新手学习.................

晓旭sky 2014-06-19

打赏
举报

回复

啊啊啊啊学习中

zaq110022 2014-06-18

打赏
举报

回复

这个很难呢,我也不会，求解

baidu_16640649 2014-06-18

打赏
举报

回复

哦原来是这样

leejunokokok 2014-06-18

打赏
举报

回复

Nancy_boy 2014-06-18

打赏
举报

回复

新手，从中学习了不少

qq_15222805 2014-06-18

打赏
举报

回复

新手，从中学习了不少

qq_16655289 2014-06-18

打赏
举报

回复

学习中，刚接触ANDROID

austwl 2014-06-17

打赏
举报

回复

作为一名新手，请问有没有中文书籍可以介绍下如何使用CUDA，以及利用库函数进行相应计算？谢谢

hongjun3 2014-06-17

打赏
举报

回复

要用它的编程接口建几个线程

austwl 2014-06-17

打赏
举报

回复

这些调用函数怎么学的啊？谢谢

baidu_16632839 2014-06-17

打赏
举报

回复

同问中·····

加载更多回复（20）

CPU、GPU 并行加速

GPU（图形处理器）并行计算是指使用GPU执行数据密集型计算任务，相比于传统的CPU计算，它可以在处理大规模科学和工程计算时大幅提高性能。GPU拥有成百上千的小核心，这些核心可以同时执行大量简单操作，适合于高度...

今天，我们将围绕“多GPU炼丹”这一主题，深度解析PyTorch多GPU并行训练的技巧，并为大家带来实战代码指南。在这个过程中，我们将不断探讨和展示如何利用PyTorch的强大功能，实现多GPU的高效并行训练。首先，我们...

GPU并行计算是一种利用GPU的并行处理能力来加速计算任务的技术。它通过将计算任务分解为大量可以并行处理的子任务，然后在GPU的多个核心上同时执行这些子任务，从而实现高性能计算。并行处理：GPU并行计算允许同时...

通过使用GPU并行编程，我们可以利用GPU的大规模并行计算能力来加速各种类型的计算任务，包括矩阵运算、图像处理、深度学习等。通常，当计算任务具有大量独立的计算步骤，并且可以通过并行执行这些计算步骤来加速时，...

589

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章