cudafree()耗时的疑惑！

leayaung 2010-08-20 01:43:29

小弟写了个小程序，程序中的某个kernel函数是要在某个循环里执行,而kernel函数里申请了很多用于中间计算的gmem,这些gmem在每次循环时都要发生数值的变化，然后在每次循环之后都要释放显存，如下：
for()
{
kernel();
}

kernel()
{
double* d_a ;... ...
cudamalloc();... ...
cudamemset();... ...

cudamemcpy();

......

cudafree();... ...
}

问题是我在测试kernel耗时的时候发现时间几乎全部耗在了第一个调用的cudafree()上面，数据量很大的时候，这部分耗时及其可观。（其他的cudafree()耗时几乎全部为零）
请问有没有那位碰到过类似的额问题，应该怎样解决才好？？？
另外我自己试着在循环之外申请内存，这样在所有的循环结束之后再释放显存，但是又出现一个问题，就是每次的cudamemcpy()的耗时突然变大，而这在修改之前几乎是不耗时的。

感谢高手指点！！！！！！！！！

...全文

629 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

Baezhou 2012-06-15

打赏
举报

回复

请问这个问题解决了吗？

飞跃那遥远的地方 2010-12-02

打赏
举报

回复

挺有意思的。

leayaung 2010-08-21

打赏
举报

回复

每次计时都要同步操作吗?包括cudaFree()?我看到的相关例子都是在执行kernel后加cudaThreadSynchronize();

无心人_过过小日子 2010-08-20

打赏
举报

回复

[Quote=引用 4 楼 leayaung 的回复:]
是通过clock()完成计时的，计时方面应该问题不大的。
[/Quote]

问的是计时前是否注意同步了？

leayaung 2010-08-20

打赏
举报

回复

是通过clock()完成计时的，计时方面应该问题不大的。

无心人_过过小日子 2010-08-20

打赏
举报

回复

1)LZ如何测试时间的？时间的测试方法是否正确？
2)一般是一次申请一次释放更有效。
3)一般一次申请一块，在程序中自己分块使用更有效。

leayaung 2010-08-20

打赏
举报

回复

具体应该怎么理解？

windog18 2010-08-20

打赏
举报

回复

因为kernel是异步调用的吧

VSCode的CUDA（语法+片段）此扩展旨在为VS Code中的CUDA（C ++）提供语法支持和摘要。此扩展不提供“类似IntelliSense”的功能，因为实现它的任务确实很大。当您需要快速编辑内核或__device__函数并希望变量和函数可读时，请使用此扩展名。特征代码着色该扩展支持大多数基本的CUDA关键字和功能，例如但不限于： cudaMalloc，cudaFree，... __global __，__ device __，__ host __，... atomicAdd，atomicSub，surfCubemapLayeredread，... __shfl_down，__ syncthreads ... 为了最大程度地与现有的流行主题兼容，始终不遵守（支持范围内的外部库，如CUDA）。如果您的主题仍然没有为CUDA代码着色，则可以使用以下模板规则进

在学习代码的时候，遇到cudaFree(0)，疑惑了一下，之前记得是释放显存，那么参数0是做什么操作？查阅资料并记录一下。 1：cudaFree函数API：接收void* devptr指针。释放指针指向的显存。如果输入参数时0，不会进行释放操作。 extern __host__ __cudart_builtin__ cudaError_t CUDARTAPI cudaFree(void *devPtr); 2：那cudaFree（0）的到底是干嘛的呢？参考1：https://blog.c

#include "cuda_runtime.h" #include "device_launch_parameters.h" #include "device_functions.h" #include <stdio.h> #include "opencv2/imgproc/imgproc.hpp" #include "opencv2/imgproc/types_c.h" #...

测试发现cuda的launch kernel的过程中不能释放该gpu上的显存，cuda任务被释放的显存可能被kernel调用，所以禁止在laucn kernel过程中释放该gpu上的显存。测试代码如下： #include &lt;stdio.h&gt; #include &lt;thread&gt; #include &lt;unistd.h&gt; #include &lt;iost

GPT-3.5太好用了，报错情况如下：

579

社区成员

2,918

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章