CUFFT首次调用函数的开销。

adagio_chen 2014-08-04 01:47:56
加精
我们知道,程序在首次执行调用GPU函数时,会有一个初始化的过程。该初始化过程有很大的开销,不应被计入实际执行时间。然而我们发现,在调用CUFFT库的时候,第一次生成plan handle 也会有很大的开销:



void main()
{
int n = 100;
float2 *data_h = new float2[n];
for (int i=0; i<n; ++i)
{
data_h[i].x = i;
data_h[i].y = 0;
}
float2 *data_d;
cudaMalloc((void**)&data_d, n * sizeof(float2));
cudaMemcpy(data_d, data_h, n * sizeof(float2), cudaMemcpyHostToDevice);

static StopWatchInterface *timer;
sdkCreateTimer(&timer);

sdkStartTimer(&timer);

cufftHandle plan1;
cufftPlan1d(&plan1, n, CUFFT_C2C, 1);

sdkStopTimer(&timer);
cout<<"Create plan1: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

sdkResetTimer(&timer);
sdkStartTimer(&timer);

cufftExecC2C(plan1, data_d, data_d, CUFFT_FORWARD);
cufftDestroy(plan1);

sdkStopTimer(&timer);
cout<<"Execute plan1: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

sdkResetTimer(&timer);
sdkStartTimer(&timer);

cufftHandle plan2;
cufftPlan1d(&plan2, n, CUFFT_C2C, 1);

sdkStopTimer(&timer);
cout<<"Create plan2: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

sdkResetTimer(&timer);
sdkStartTimer(&timer);

cufftExecC2C(plan2, data_d, data_d, CUFFT_INVERSE);
cufftDestroy(plan2);

sdkStopTimer(&timer);
cout<<"Execute plan2: "<<sdkGetTimerValue(&timer)<<"ms"<<endl;

}



运行结果:

Create plan1: 228.562ms
Execute plan1: 0.27255ms
Create plan2: 0.328378ms
Execute plan2: 0.275842ms

可以看到,第一次调用 cufftPlan1d 函数时,耗时高达228毫秒,远远超过执行第二次调用 cufftPlan1d 函数以及执行FFT的时间。因此,大家在测试 CUFFT 运行时间时,应该注意吧首次生成 Plan 的函数排除在外,或者在此之前执行一个额外的 Plan 调用。
...全文
806 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
xusir98 2014-08-05
  • 打赏
  • 举报
回复

579

社区成员

发帖
与我相关
我的任务
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
  • CUDA编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧