cuda 中 printf 不能显示在屏幕

一百元 2015-04-19 09:47:48

#include <stdio.h>

__global__ void childKernel()
{
printf("Hello ");
}

__global__ void parentKernel()
{
// launch child
childKernel<<<1,1>>>();
if (cudaSuccess != cudaGetLastError()) {
return;
}

// wait for child to complete
if (cudaSuccess != cudaDeviceSynchronize()) {
return;
}

printf("World!\n");
}

int main(int argc, char *argv[])
{
// launch parent
parentKernel<<<1,1>>>();
if (cudaSuccess != cudaGetLastError()) {
return 1;
}

// wait for parent to complete
if (cudaSuccess != cudaDeviceSynchronize()) {
return 2;
}

return 0;
}
This program may be built in a single step from the command line as follows:

$ nvcc -arch=sm_35 -rdc=true hello_world.cu -o hello -lcudadevrt

Read more at: http://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#ixzz3XlLde1G5
Follow us: @GPUComputing on Twitter | NVIDIA on Facebook

如上所示，按照上面编译通过，但是不能显示在屏幕，不知哪位大牛帮忙解答一下，小弟初学cuda

...全文

2580 3 打赏收藏转发到动态举报

写回复

3 条回复

切换为时间正序

请发表友善的回复…

发表回复

fallening 2015-05-01

打赏
举报

回复

这是 dynamic parallel，不该这么编译，而且要检查你的显卡是否支持 dynamic parallel 这个特性，也就是支持到 3.5 编译要分两步 nvcc x.cu -o _x.o -m64 -dc -gencode arch=compute_35,code=sm_35 --relocatable-device-code true -O2 -Xptxas -v nvcc -dlink _x.o -arch=sm_35 -o x.o -m64 -rdc=true -O2 -Xptxas -v 最后是链接 nvcc -o x x.o _x.o -lcudadevrt -lcudart -m64 如果你的显卡支持到 3.5，那么就可以运行 ./x 了。

fallening 2015-05-01

打赏
举报

回复

这是 dynamic parallel，不该这么编译，而且要检查你的显卡是否支持 dynamic parallel 这个特性，也就是支持到 3.5 编译要分两步 nvcc x.cu -o _x.o -m64 -dc -gencode arch=compute_35,code=sm_35 --relocatable-device-code true -O2 -Xptxas -v nvcc -dlink _x.o -arch=sm_35 -o x.o -m64 -rdc=true -O2 -Xptxas -v 最后是链接 nvcc -o x x.o _x.o -lcudadevrt -lcudart -m64 如果你的显卡支持到 3.5，那么就可以运行 ./x 了。

feixiangyundjf 2015-04-30

打赏
举报

回复

请问你的问题解决了吗？我也遇到了同样的问题

问题描述：当维度很小的时候可以输出，例如 grid=500。大到一定程度的时候不能输出。例如grid=8000. 解决方法：因为输出太多了，所以没有输出。在输出前加上条件。例如： const int tid = threadIdx.x;if(tid==0) printf("!!%d\n",tid); 就可以输出了

对于每个体素，我们使用磁贴纹理来计算其密度，并使用转移函数将其转换为颜色和透明度值。最后，我们将颜色和透明度乘以归一化的累计值，并将其添加到屏幕像素的颜色中。首先，我们创建一个3D纹理，然后将体积数据复制到CUDA数组中。在本文中，我们将介绍如何使用CUDA从磁盘加载三维体积，并使用光线行进和三维纹理来显示它。我们将使用CUDA C++编写代码，并使用OpenGL来渲染结果。我们将同时发射多个光线，并计算它们的路径上的体素密度。最后，我们需要使用OpenGL来渲染CUDA Surface中的结果。

cudaPrintfInit和cudaPrintfEnd在你整个工程的使用中只需调用一次。显示结果不会自动显示在屏幕上，而是存储在缓存中，当调用cudaPrintfDisplay时被清除和显示。这个缓存的大小可以通过函数cudaPrintfInit(size_tbufferLen)的可选参数来指定。 cudaPrintfEnd简单的释放由cudaPrintfInit申请的存储空间。当...

cuda的输出就是printf 可以在屏幕上显示出来，但你修改之后一定要make编译，不然只是修改了源代码，但生成的可执行文件还是之前编译的

在 CUDA 术语中，CPU 内存称为主机内存，GPU 内存称为设备内存。指向 CPU 和 GPU 内存的指针分别称为主机指针和设备指针。在本章中，我们演示了如何在 CUDA 中编写一个简单的向量加法。此外，我们还介绍了 CPU 和 GPU 之间分离内存空间的概念。该示例计算存储在数组和./vector_add.c中的两个向量的加法，并将结果放入数组中。在 CUDA 工具包中提供了一个名为 CUDA 编译器来编译 CUDA 代码，通常存储在扩展名为的文件中。CUDA 提供了几个用于分配设备内存的函数。

高性能计算

2,408

社区成员

1,025

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章