怎么将一个过长的Kernel分次运行？

qq_26793325 2016-11-10 02:13:31

请教各位大神：
我现在有一个kernel，里面每一个thread要做迭代运算。当迭代次数过大的时候，我的程序结果就会完全出错（全零，说明kernel完全没有工作），并且我给kernel计时得到的结果是0.
我之前遇到the launch time out and was terminated的错误，但是这个并没有报错，而是直接给了我一个错误的结果。
然后我就想把这个kernel分成多次运行，减少每一次的迭代次数，像这样：
kernel1<<<1,tn>>>(d_state, obsval, d_initval, d_funpara, d_inv, d_C);
cudaThreadSynchronize();
printf("first kernel finished. Take a break here\n");
kernel2<<<1,tn>>>(d_state, d_mcmc_arr_total, obsval, d_initval, d_funpara, d_inv, d_C);
kernel2继续kernel1的结果。按道理这样的话我也可以再叠加第三个kernel，但是我加了第三个之后又遇到相同的问题，运行时间为0，结果错误。我的问题是：
1.我这样分割kernel运行的做法可行吗？
2.我在第一次kernel运行中得到的一个迭代结果，在没有cudafree掉的情况下是不是仍旧储存在device中，让我的第二个kernel可以直接使用它？
谢谢！

...全文

551 1 打赏收藏转发到动态举报

写回复

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

sinat_40640783 2017-10-15

打赏
举报

回复

是的，会存在DEVICE内

So you found something called “kernel_task”in Activity Monitor, and you want to know what it is. Good news: it’s nothing nefarious.... 因此，您在Activity Monitor中找到了一个名为...

今天就来谈其中一个不太有用的小技巧：预创建所有Kernel。第一次进行OpenCL加速时，我注意到，创建cl_kernel时，会耗费几毫秒到二十几毫秒的时间。如果算法中需要创建几十个cl_kernel，那花费的时间也有几百毫秒了...

本文系itspy原创，复制/转载请尽量...做了什么，怎么做，流程如何等等，均需要一个清晰的过程（因为要给我们一个说法~！），如何更好的亲密、深入的了解，接触它，找到一个很好的突破点是很关键的---那就是‘从头开始’

本专题文章承接之前《kernel启动流程_head.S的执行》专题文章，我们知道在head.S执行过程中保存了bootloader传递的启动参数、启动模式以及FDT地址等，创建了内核空间的页表，最后为init进程初始化好了堆栈，并跳转到...

在使用Windows操作系统过程中，有可能出现kernelbase.dll故障的情况。本文将详细介绍几种修复kernelbase.dll文件的方法，并对这个重要的dll文件进行简要的介绍。

580

社区成员

2,919

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章