一个程序采用两个cuda计算,总是一个cuda线完成后另一个在计算,如何实现并行

bitwjf 2012-08-20 11:10:32

最近参考CUDA事例程序中的simpleMultiGPU程序把握的程序采用两个显卡来计算,但是总是一个显卡线运行完再运行另一个显卡,两个显卡并不是同时运行的,所以效率和一个显卡没什么区别,如何让两个显卡同时运行?
事例程序的simpleMultiGPU大概代码如下:
//Copy data to GPU, launch the kernel and copy data back. All asynchronously
for(i = 0; i < GPU_N; i++)
{
//Set device
checkCudaErrors( cudaSetDevice(i) );

//Copy input data from CPU
checkCudaErrors( cudaMemcpyAsync(plan[i].d_Data, plan[i].h_Data, plan[i].dataN * sizeof(float), cudaMemcpyHostToDevice, plan[i].stream) );

//Perform GPU computations
launch_reduceKernel(plan[i].d_Sum, plan[i].d_Data, plan[i].dataN, BLOCK_N, THREAD_N, plan[i].stream);
getLastCudaError("reduceKernel() execution failed.\n");

//Read back GPU results
checkCudaErrors( cudaMemcpyAsync(plan[i].h_Sum_from_device, plan[i].d_Sum, ACCUM_N * sizeof(float), cudaMemcpyDeviceToHost, plan[i].stream) );
}
他是采用的for循环,我是不是应该开来两个线程来处理?

...全文

139 回复打赏收藏转发到动态举报

写回复

回复

切换为时间正序

请发表友善的回复…

发表回复

1.注释非常详尽，几乎每个函数都有注释，在CUDA11与VS2019下实现，并行加速效果十分显著！ 2.同时实现了CPU多线程并行计算和CUDA并行计算两个版本，可以通过宏来选择

2006年，NVIDIA公司发布了CUDA，CUDA是建立在NVIDIA的GPU上的一个通用并行计算平台和编程模型，基于CUDA编程可以利用GPU的并行计算引擎来更加高效地解决比较复杂的计算难题。CUDA是NVIDIA公司所开发的GPU编程模型，...

项目要求：使用CPU并行计算的优化方式，使人工智能程序Darknet性能运行效率大幅度提高，较初始安装后的性能参数提高200%以上；项目要点：Darknet原理、天河超算平台使用、MakeFile、安装及运行、卷积神经网络算法...

另外还可以访问我的HelloCUDA仓库查看我在学习CUDA中写的一些demo程序。内容概要复数的CUDA C++实现从DFT到FFT FFT蝴蝶操作 CUDA中的分治 FFT的并行化前置知识算法基础知识并行计算基础知识 C++基础知识 ...

并行计算可以被定义为同时使用许多计算资源 (核心或计算机) 来执行并发计算，一个大的问题可以被分解成多个小问题，然后在不同的计算资源上并行处理这些小问题。所有包含并发执行任务的程序都是并行程序。在应用...

CUDA on Windows XP

231

社区成员

424

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章