求助:运行《cuda for Engineers》的dd_ld_shared案例一直出错?求指导

lugui2009 2019-03-22 04:26:05

在学习cuda的时候,运行了《CUDA for Engineers an Introduction to High-Performance Parallel Computing》的dd_ld_shared这个案例时,一直出错,这个案例主要是输入一个一维数组,然后每个数组值取其前后两值做个加加减减的运算,然后输出打印,发现打印的值都是初始值,说明这个核没有运行过。然后我在每个cuda函数加了各check_error的函数,发现运行到从显存写出数据到内存的时候,说是非法的内存访问(illeage memory之类的),那么也间接说明了那个核根本没有运算。这个案例用到了动态申请共享内存。所有代码如下:


#include <math.h>
#include <stdio.h>

static void HandleError( cudaError_t err,
const char *file,
int line ) {
if (err != cudaSuccess) {
printf( "%s in %s at line %d\n", cudaGetErrorString( err ),
file, line );
exit( EXIT_FAILURE );
}
}
#define HANDLE_ERROR( err ) (HandleError( err, __FILE__, __LINE__ ))

#define TPB 64
#define RAD 1

__global__ void ddKernel(float *d_out, const float *d_in, int size, float h) {
const int i = threadIdx.x + blockDim.x * blockIdx.x;
if (i >= size) return;

const int s_idx = threadIdx.x + RAD;
extern __shared__ float s_in[];

// Regular cells
s_in[s_idx] = d_in[i];

// Halo cells
if (threadIdx.x < RAD) {
// careful: the two lines below will also access d_in[-1] and d_in[size+1] which
// are undefined! This bug is fixed in heat_2d (cf. idxClip function)
s_in[s_idx - RAD] = d_in[i - RAD];
s_in[s_idx + blockDim.x] = d_in[i + blockDim.x];
}
__syncthreads();
d_out[i] = (s_in[s_idx-1] - 2.f*s_in[s_idx] + s_in[s_idx+1])/(h*h);
}

int main(){
const float PI = 3.1415927;
const int N = 150;
const float h = 2*PI/N;

float x[N] = {0.0};
float u[N] = {0.0};
float result_parallel[N] = {0.0};

for(int i=0;i<N;i++)
{
x[i] = 2*PI*i/N;
u[i] = sinf(x[i]);
}

float *d_in = 0;
float *d_out = 0;
HANDLE_ERROR(cudaMalloc(&d_in,N*sizeof(float)));
HANDLE_ERROR(cudaMalloc(&d_out,N*sizeof(float)));
HANDLE_ERROR(cudaMemcpy(d_in,&u[0],N*sizeof(float),cudaMemcpyHostToDevice));

const size_t smemSize = (TPB+2*RAD)*sizeof(float);

ddKernel<<<(N+TPB-1)/TPB,TPB,smemSize>>>(d_out,d_in,N,h);

HANDLE_ERROR(cudaMemcpy(result_parallel,d_out,N*sizeof(float),cudaMemcpyDeviceToHost));

HANDLE_ERROR(cudaFree(d_in));
HANDLE_ERROR(cudaFree(d_out));

FILE *outfile = fopen("results.csv", "w");
for (int i = 1; i < N - 1; ++i) {
fprintf(outfile, "%f,%f,%f,%f\n", x[i], u[i],
result_parallel[i], result_parallel[i] + u[i]);
}
fclose(outfile);

}


我用的显卡RTX2080,TITTAN V都试过,CUDA版本9.1和10.1试过。我想是不是新的显卡或者cuda将什么功能给改变了什么,望高手能指导一下,谢谢。
...全文
537 3 打赏 收藏 转发到动态 举报
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
wjsjason 2019-03-23
  • 打赏
  • 举报
回复
你的核函数里面不是有一行注释吗“ // careful: ***”,关注一下
pstrunner 2019-03-23
  • 打赏
  • 举报
回复
const int s_idx = threadIdx.x + RAD;// 有没有可能为零 如果为0, 则s_in[s_idx-1]就会出现越界
wjsjason 2019-03-22
  • 打赏
  • 举报
回复
非法内存访问这个错误可能是核函数报出来的,只是在别处被你检测到了而已。导致非法内存访问的原因一般都是由于访问全局内存或者共享内存的index超出界限了,所以你可以检查一下核函数里index的计算是否正确

579

社区成员

发帖
与我相关
我的任务
社区描述
CUDA™是一种由NVIDIA推出的通用并行计算架构,该架构使GPU能够解决复杂的计算问题。 它包含了CUDA指令集架构(ISA)以及GPU内部的并行计算引擎。
社区管理员
  • CUDA编程社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧