CUDA通信机制之同步函数(二)

_梦魇花葬 2014-07-06 11:31:36
加精
上次我们讨论了关于blokc内线程同步,这次我们来探讨一下block间线程同步和kernel间同步。
同步函数:memory fence 函数
memory fence 函数是用来保证线程间数据通信的可靠性的,但与__syncthreads()函数不同的是,memory fence 函数并不要求所有线程都运行到同一位置,它只保证执行memory fence 函数的线程生产的数据能够安全地被其他线程消费。
(1) __threadfence():一个线程调用__threadfence()后,该线程在该语句前对全局存储器或共享存储器的访问已经全部完成,执行的结果对grid中的所有线程可见。
(2) __threadfence_block():一个线程调用__threadfence_block()后,该线程在该语句前对全局存储器或共享存储器的访问已经全部完成,执行的结果对block中的所有线程可见。
memory fence函数使其他线程能够安全地消费当前线程生产的数据,多个线程间可以正确地操作共享数据,实现grid/block内的线程间通信。比如下面的例子:
__device__ unsigned int count = 0;
__shared__ bool isLastBlockDone;
__global__ void sum(const float* array, unsigned int N, float* result){
//每个block对输入数组的一个subset求和
float partialSum = calculatePartialSum(array, N);
if(threadIdx.x == 0){
//0号线程存储局部和partialSum并负责写回全局存储器
result[blockIdx.x] = partialSum;
// 线程0要保证它的结果对所有其他的线程可见
__threadfence();
// 每个block的0号线程负责计算结束后做一次标记,count++
unsigned int value = atomicInc(& count, gridDim.x);
// 每个block的0号线程来判断该块是否是最后一个计算结束的块
isLastBlockDone = (vlaue == (gridDim.x - 1));
}
//做一次同步,保证每个线程读到正确的isLastBlockDone 值
__syncthreads();

if(isLastBlockDone){
// 最后的那个block负责局部和(存储在result[0 .. gridDim.x -1])的求和
float totalSum = calculateTotalSum(result);
if(threadIdx.x == 0){
// last block的线程0存储计算总和并将其写回全局存储器,count置0以保证下一个kernel的正常计数
result[0] = totalSum;
count = 0;
}
}
}
上面的例子实现的是对N个元素求和:每个block首先计算出数组的一个子序列的和,然后将结果存储在全局存储器中,当所有block完成这一步以后,再由最后一个完成求和操作的block从全局存储器中读入所有子序列之和,并计算最终结果。如果在存储部分和与计数器递增之间不进行fence操作,那么计数器中的值可能在存储子序列和之前就已经递增了,而此时最后一个block读到得子序列和可能还没有更新,造成计算结果错误。
kernel 间通信:可以同过global memory实现。GPU间的通信需要通过主机端内存进行,代价高昂;mapped memory功能允许多个设备从内核程序中直接访问同一块pinned memory。
...全文
2265 2 打赏 收藏 转发到动态 举报
写回复
用AI写文章
2 条回复
切换为时间正序
请发表友善的回复…
发表回复
_梦魇花葬 2014-07-15
  • 打赏
  • 举报
回复
恩,2楼有什么问题可以提出来的哟!~~~一起成长!
伊顺鸣 2014-07-07
  • 打赏
  • 举报
回复
看看的啊,,,,,

353

社区成员

发帖
与我相关
我的任务
社区描述
CUDA高性能计算讨论
社区管理员
  • CUDA高性能计算讨论社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧