cuda流数据传输和核函数执行无法并行？

禅悟人生 2015-07-22 09:58:45

我的gpu型号为gtx850m，计算能力5.0.按理来说我这显卡肯定支持数据传输和核函数并行的。可是调试中发现无论怎么改写发布顺序。数据传输与核函数就是无法并发执行，但是核函数可以并发，请问什么原因？
核心代码如下：

cudaStream_t *stream1 = (cudaStream_t*)malloc(nStream * sizeof(cudaStream_t));

	for (unsigned int i = 0; i<nStream; i++)

		HANDLE_ERROR(cudaStreamCreate(&(stream1[i])));



	cufftHandle plan1[nStream];

	for (unsigned int i = 0; i<nStream; i++)

	{

		cufftSafeCall(cufftPlan1d(&plan1[i], nChannel, CUFFT_C2C, dataSteam));

		cufftSafeCall(cufftSetStream(plan1[i], stream1[i]));

	}

	

	

		for (unsigned int i = 0; i < nStream; i++)

		{

		HANDLE_ERROR(cudaMemcpyAsync(dXX + (dataSteam * nChannel + iniValue)*i,

			xx + dataSteam * nChannel * i, (dataSteam * nChannel + iniValue)*

			sizeof(Complex), cudaMemcpyHostToDevice, stream1[i]));

		}



		for (unsigned int i = 0; i < nStream; i++)

		{

			cudaMakevv(dXX + i *(dataSteam * nChannel + iniValue), dHH, dVV +

				(nStream - 1 - i) * dataSteam * nChannel, stream1[i]);//此函数为一个核函数

		}



		for (unsigned int i = 0; i < nStream; i++)

		{

			cufftSafeCall((cufftExecC2C(plan1[i], (cufftComplex *)(dVV +

				(nStream - 1 - i) * dataSteam * nChannel), (cufftComplex *)(dVV + (nStream - 1 - i) *

				dataSteam * nChannel), CUFFT_FORWARD)));

		}



		for (unsigned int i = 0; i < nStream; i++)

		{

			HANDLE_ERROR(cudaMemcpyAsync(yy2 + 64 * 9 + (nStream - 1 - i)*dataSteam * nChannel,

				dVV + (nStream - 1 - i)*dataSteam * nChannel, dataSteam * nChannel * sizeof(Complex),

				cudaMemcpyDeviceToHost, stream1[i]));

		}

profiler结果如下：

改写成这样后也是无法并行：

cudaStream_t *stream1 = (cudaStream_t*)malloc(nStream * sizeof(cudaStream_t));

	for (unsigned int i = 0; i<nStream; i++)

		HANDLE_ERROR(cudaStreamCreate(&(stream1[i])));



	cufftHandle plan1[nStream];

	for (unsigned int i = 0; i<nStream; i++)

	{

		cufftSafeCall(cufftPlan1d(&plan1[i], nChannel, CUFFT_C2C, dataSteam));

		cufftSafeCall(cufftSetStream(plan1[i], stream1[i]));

	}

	

	

		for (unsigned int i = 0; i < nStream; i++)

		{

		HANDLE_ERROR(cudaMemcpyAsync(dXX + (dataSteam * nChannel + iniValue)*i,

			xx + dataSteam * nChannel * i, (dataSteam * nChannel + iniValue)*

			sizeof(Complex), cudaMemcpyHostToDevice, stream1[i]));

		cudaMakevv(dXX + i *(dataSteam * nChannel + iniValue), dHH, dVV +

			(nStream - 1 - i) * dataSteam * nChannel, stream1[i]);

		cufftSafeCall((cufftExecC2C(plan1[i], (cufftComplex *)(dVV +

			(nStream - 1 - i) * dataSteam * nChannel), (cufftComplex *)(dVV + (nStream - 1 - i) *

			dataSteam * nChannel), CUFFT_FORWARD)));//在GPU上执行

		HANDLE_ERROR(cudaMemcpyAsync(yy2 + 64 * 9 + (nStream - 1 - i)*dataSteam * nChannel,

			dVV + (nStream - 1 - i)*dataSteam * nChannel, dataSteam * nChannel * sizeof(Complex),

			cudaMemcpyDeviceToHost, stream1[i]));

		}