归约求和程序，每次运行结果都不相同

laughcry2002 2010-01-21 08:14:01

刚学习cuda编程，试着写一个数组归约求和的程序，结果每次运行结果都不相同。猜测应该是哪里同步出问题了，可调试了很久都没找到原因。

平常很少拿问题来论坛来提问，可这个问题困扰我近一周时间了，不知哪位肯指点一下？多谢了。

---------- mini_test.cpp ------------



#include <cmath>

#include <cutil_inline.h>



typedef float Real;



#define BLOCK_SIZE 8



__device__ void 

kernel_vec_subsum(unsigned int nz, Real* g_idata, Real* g_odata)

{

    unsigned int tid = threadIdx.x;

    unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;



	__shared__ Real sdata[BLOCK_SIZE];



	sdata[tid] = (i < nz) ? g_idata[i] : 0;

	__syncthreads();



	for(unsigned int s = BLOCK_SIZE / 2; s > 0; s >>= 1)

	{

		if (tid < s)	sdata[tid] += sdata[tid + s];

		__syncthreads();

	}



	__syncthreads();

	if (tid == 0) 		g_odata[blockIdx.x] = sdata[0];

}



__device__ void 

kernel_vec_sum(unsigned int nz, Real* g_vec, Real* g_sum)

{

    unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;

	unsigned int size = nz;

	while( size > 1 ) 

	{

		kernel_vec_subsum(size, g_vec, g_vec);

		size = (size + BLOCK_SIZE - 1) / BLOCK_SIZE;

		__syncthreads();

	}



	if(i == 0)		g_sum[0] = g_vec[0];

}



__global__ void 

global_vec_sum(unsigned int nz, Real* g_vec, Real* g_sum)

{

	kernel_vec_sum(nz, g_vec, g_sum);

}



Real 

vec_sum(unsigned int nz, Real* vec)

{

	Real* g_idata;

	size_t mem_size = nz * sizeof(Real);

	cutilSafeCall( cudaMalloc( (void**) &g_idata, mem_size));

	cutilSafeCall( cudaMemcpy( g_idata, vec, mem_size, cudaMemcpyHostToDevice) );



	Real* g_odata;

	cutilSafeCall( cudaMalloc( (void**) &g_odata, sizeof(Real)));



	global_vec_sum <<< (nz + BLOCK_SIZE - 1) / (BLOCK_SIZE), BLOCK_SIZE >>>

		(nz, g_idata, g_odata);



	Real sum;

	cutilSafeCall( cudaMemcpy( &sum, g_odata, sizeof(Real), cudaMemcpyDeviceToHost) );



	cutilSafeCall(cudaFree(g_idata));

	cutilSafeCall(cudaFree(g_odata));



	return sum;

}



void test_vec_sum()

{

	unsigned int nz = 80 * BLOCK_SIZE + 3; // 80 * 8 + 3 = 643



	Real* vec = new Real[nz];

	for(unsigned int i = 0; i < nz; ++i)

		vec[i] = 1.0;



	Real sum = vec_sum(nz, vec);

	

    printf("%5.2f ", sum);



    delete[] vec;

}



int main( int argc, char** argv ) 

{

	cutilDeviceInit(argc, argv);

	test_vec_sum();

	cutilExit(argc, argv);

}

...全文

977 13 打赏收藏转发到动态举报

写回复

用AI写文章

13 条回复

切换为时间正序

请发表友善的回复…

发表回复

lhw978 2011-06-09

打赏
举报

块间同步，threadfence确实不是同步!。

tanqiang917 2010-08-09

打赏
举报

我只想看下答案，至于还得注册回复吗!!

laughcry2002 2010-01-23

打赏
举报

[Quote=引用 10 楼 l7331014 的回复:]
对超过一个block的规约问题,就该通过反复启动kernel来同步的.呵呵.
当然,为更好的性能,要尽量启动一次kernel来处理最大的"块".(同一block中可以通过__syncthreads();同步的).

另外,threadfence不是同步!

下面是樟树同志的解说:
threadfence不是保证所有线程都完成同一操作
而只保证正在进行fence的线程本身的操作能够对所有线程安全可见
fence不要求线程运行到同一指令，而barrier有要求
[/Quote]

原来如此，现在终于明白了。我读cuda的编程指南，感觉真是惜墨如金、字字珠玑、点到为止啊，例子都不肯举一些（比如threadfence，确实手册上是说明了其作用是“让该句之前对global/shared内在的访问操作能够被所有其他线程可见”，读时直觉就是一种同步，呵，结果就犯错误）。

多亏有像本论坛这样的课外讨论与交流的平台啊。

再次感谢17331014君的热心帮助！

帖子虽然结了，仍然欢迎大家多指教。

laughcry2002 2010-01-22

打赏
举报

顺便问一下，发贴时代码部分难道不是用[-code-] [-/code-] （去除减号）括起来吗？怎么上上楼代码部分不见了。呵

laughcry2002 2010-01-22

打赏
举报

仍然有问题：

我试着将上述的 __device__ 函数 kernel_vec_sum 修改如下（与之相适应，调用此函数时要为 g_sum 分配 nz 个 Real 的存储空间），结果仍然不确定。

__device__ void
kernel_vec_sum_v2(unsigned int nz, Real* g_vec, Real* g_sum)
// 这里要求 g_sum 是与 g_vec 等长的向量，用于临时交换数据
{
unsigned int tid = threadIdx.x;
unsigned int bid = blockIdx.x;
unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;
unsigned int size = nz;

while( size > 1 )
{
kernel_vec_subsum(size, g_vec, g_sum);
size = (size + BLOCK_SIZE - 1) / BLOCK_SIZE;
__syncthreads();

// 将本轮计算结果从g_sum 复制到 g_vec 向量中
if( tid == 0 && bid < size )
g_vec[bid] = g_sum[bid];
__syncthreads();
}

}

而当将该函数中所用的流程用于 host 端的函数时（函数vec_sum_v2中直接循环调用global_vec_subsum ），则不会产生问题。仍然没有想到问题出在什么地方？

__global__ void
global_vec_subsum(unsigned int nz, Real* g_idata, Real* g_odata)
{
kernel_vec_subsum(nz, g_idata, g_odata);
}

Real
vec_sum_v2(unsigned int nz, Real* vec)
{
Real* g_idata;
size_t mem_size = nz * sizeof(Real);
cutilSafeCall( cudaMalloc( (void**) &g_idata, mem_size));
cutilSafeCall( cudaMemcpy( g_idata, vec, mem_size, cudaMemcpyHostToDevice) );

Real* g_odata;
cutilSafeCall( cudaMalloc( (void**) &g_odata, mem_size));

while( nz > 1 ) {
unsigned int nz_new = (nz + BLOCK_SIZE - 1) / BLOCK_SIZE;
global_vec_subsum <<< nz_new, BLOCK_SIZE >>>
(nz, g_idata, g_odata);

nz = nz_new;
cutilSafeCall( cudaMemcpy( g_idata, g_odata, nz * sizeof(Real), cudaMemcpyDeviceToDevice) );
}

Real sum;
cutilSafeCall( cudaMemcpy( &sum, g_odata, sizeof(Real), cudaMemcpyDeviceToHost) );

cutilSafeCall(cudaFree(g_idata));
cutilSafeCall(cudaFree(g_odata));

return sum;
}

laughcry2002 2010-01-22

打赏
举报

仍然有问题：

我试着将上述的 __device__ 函数 kernel_vec_sum 修改如下（与之相适应，调用此函数时要为 g_sum 分配 nz 个 Real 的存储空间），结果仍然不确定。



__device__ void 

kernel_vec_sum_v2(unsigned int nz, Real* g_vec, Real* g_sum)

// 这里要求 g_sum 是与 g_vec 等长的向量，用于临时交换数据

{

	unsigned int tid = threadIdx.x;

	unsigned int bid = blockIdx.x;

	unsigned int i = blockIdx.x * blockDim.x + threadIdx.x;

	unsigned int size = nz;

	

	while( size > 1 ) 

	{

		kernel_vec_subsum(size, g_vec, g_sum);

		size = (size + BLOCK_SIZE - 1) / BLOCK_SIZE;

		__syncthreads();

		

		// 将本轮计算结果 从g_sum 复制到 g_vec 向量中

		if( tid == 0 && bid < size )

			g_vec[bid] = g_sum[bid];

		__syncthreads();

	}



}

而当将该函数中所用的流程用于 host 端的函数时（函数vec_sum_v2中直接循环调用global_vec_subsum ），则不会产生问题。仍然没有想到问题出在什么地方？



__global__ void 

global_vec_subsum(unsigned int nz, Real* g_idata, Real* g_odata)

{

	kernel_vec_subsum(nz, g_idata, g_odata);

}



Real 

vec_sum_v2(unsigned int nz, Real* vec)

{

	Real* g_idata;

	size_t mem_size = nz * sizeof(Real);

	cutilSafeCall( cudaMalloc( (void**) &g_idata, mem_size));

	cutilSafeCall( cudaMemcpy( g_idata, vec, mem_size, cudaMemcpyHostToDevice) );



	Real* g_odata;

	cutilSafeCall( cudaMalloc( (void**) &g_odata, mem_size));



	while( nz > 1 ) {

		unsigned int nz_new = (nz + BLOCK_SIZE - 1) / BLOCK_SIZE;

		global_vec_subsum <<< nz_new, BLOCK_SIZE >>>

			(nz, g_idata, g_odata);

		

		nz = nz_new;

		cutilSafeCall( cudaMemcpy( g_idata, g_odata, nz * sizeof(Real), cudaMemcpyDeviceToDevice) );

	}

	

	Real sum;

	cutilSafeCall( cudaMemcpy( &sum, g_odata, sizeof(Real), cudaMemcpyDeviceToHost) );



	cutilSafeCall(cudaFree(g_idata));

	cutilSafeCall(cudaFree(g_odata));



	return sum;

}

无心人_过过小日子 2010-01-22

打赏
举报

[Quote=引用 2 楼 laughcry2002 的回复:]
当线程号 i > nz 时，sdata[tid]取为0值；又因为是求和，取0值累加对结果没影响
[/Quote]

没多想,好像是如此.呵呵.

[Quote=引用 2 楼 laughcry2002 的回复:]
改用两个（一个用作 input, 另一个用作 output)
[/Quote]

应该可以解决问题吧.(性能不算)

无心人_过过小日子 2010-01-22

打赏
举报

对超过一个block的规约问题,就该通过反复启动kernel来同步的.呵呵.
当然,为更好的性能,要尽量启动一次kernel来处理最大的"块".(同一block中可以通过__syncthreads();同步的).

另外,threadfence不是同步!

下面是樟树同志的解说:
threadfence不是保证所有线程都完成同一操作
而只保证正在进行fence的线程本身的操作能够对所有线程安全可见
fence不要求线程运行到同一指令，而barrier有要求

laughcry2002 2010-01-22

打赏
举报

[Quote=引用 7 楼 l7331014 的回复:]
__syncthreads();
只同步一个block之内的,block之间的不同步!
因此上面的修改1等于无效.呵呵.
[/Quote]

这个我后来也注意到了，将 __syncthreads() 换为 __threadfence() 应该使得所有线程同步吗？但尝试的结果似乎仍然不行。

都快被这个程序折磨得没脾气了。我本意是想将 vec_sum(...) 包装成一个 __device__ 函数以便其他的 __device__ 或 __global__ 函数来调用它。举个例子，求两个向量内积的 __device__ vec_dot(...) 函数就可会用到这个向量元素求和的 vec_sum。

l7331014君还有什么建议提示一下？谢谢！

无心人_过过小日子 2010-01-22

打赏
举报

下一修改是正解.

无心人_过过小日子 2010-01-22

打赏
举报

__syncthreads();
只同步一个block之内的,block之间的不同步!
因此上面的修改1等于无效.呵呵.

laughcry2002 2010-01-21

打赏
举报

非常感谢l7331014的指导！

第1个问题我觉得不会有什么问题，因为 for 循环内操作的是 shared 内存变量 sdata，这个变量在参与计算的任何线程块中都是有值的（当线程号 i > nz 时，sdata[tid]取为0值；又因为是求和，取0值累加对结果没影响），从而不会产生问题。

您提到的第2个问题可能是出错的症结所在，由于手边没有调试环境，我明天上班时检验一下效果。初步设想解决的办法是调用 kernel_vec_subsum(size, g_vec, g_vec) 时后两个参数不能使用同一数组，改用两个（一个用作 input, 另一个用作 output）。不知您觉得如何？

无心人_过过小日子 2010-01-21

打赏
举报

好像有2个问题:
1)
for(unsigned int s = BLOCK_SIZE / 2; s > 0; s >>= 1)
{
if (tid < s) sdata[tid] += sdata[tid + s];
__syncthreads();
}
当nz为奇数时,结果正确吗?LZ再仔细考虑一下.
2)
kernel_vec_subsum(size, g_vec, g_vec);
假设g_vec被分成k份BLOCK_SIZE,"宏观"上这k份是并行计算,得到g_vec[h](h=0...k-1).而且在并行时,在"微观"上实际计算顺序又是不确定的,有可能在计算某一个份时,输入的已经其它的归约结果了....

。。。

本次只讲述了以上三种规约求和的写法及优化，更多的优化方式在后面继续补充。本博客只涉及代码层面的优化，具体的理论知识如bank冲突，共享内存，合并访存等知识，有时间另开一个系列。

归约是一种常见的数据并行原语，它将数组中的元素通过某种二元操作（如加法）合并成一个单一的值。来演示重要的优化策略。由于规约的算术操作很简单，对算力要求不高，因此我们逐步优化目标是尽可能达到最高的带宽利用率，基本想法是：树状归约方法：在每个线程块内使用基于树的方法进行局部归约，然后需要处理如何跨线程块通信部分结果。

Reduction算法从一组数值中产生一个单个数值。这个单个数值可以是所有元素中的总和、最大值、最小值等。图1展示了一个求和Reduction的例子。

MapReduce 是一种编程模型（没有集群的概念，会把任务提交到 yarn 集群上跑），用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（归约）"，是它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。