神秘的cuda,将函数砍掉一半,运算速度反而下降一倍.....
社区首页 (3508)
我加入的社区
我管理的社区
官方推荐社区
76
其他社区
3508
请编写您的帖子内容
社区频道(7)
显示侧栏
卡片版式
全部
CUDA高性能计算讨论
CUDA on Linux
CUDA on Win
博文收录
Ada助手
问答
最新发布
最新回复
标题
阅读量
内容评分
精选
18
评分
回复
神秘的cuda,将函数砍掉一半,运算速度反而下降一倍.....
神秘的cuda,将函数砍掉一半,运算速度反而下降一倍..................
复制链接 扫一扫
分享
cuda线程能挂起吗?
如题:cuda线程能挂起吗?
...全文
21
评分
回复
cuda线程能挂起吗?
如题:cuda线程能挂起吗?
复制链接 扫一扫
分享
16
评分
回复
cuda多流,但仍然串行的问题?
// 如题: vs2022, cuda 12.6 __device__ volatile int a = 0; __device__ volatile int b = 0; __global__ void ga()//使用流1 { a = 1; f
复制链接 扫一扫
分享
33
评分
回复
请教一个cuda动态并行,随机卡死的问题
// 源代码如下, VS2022, cuda 12.6, __global__ void SetBool(volatile int* b) { if (ptrdiff_t(b) > 100) * b = 1; else __nanosleep(1)
复制链接 扫一扫
分享
52
评分
回复
请教:cuda的动态并行库,与c++ 的iomanip库,为什么在特殊情况下,存在冲突?
// vs2022, c++20, cuda12.6, x64, DEBUG // // 请教下,为什么在自建lib项目中使用了<iomanip>, // 而如果在cuda动态并行项目中,使用了此lib, 但不主动使用<iomanip> // 那么
复制链接 扫一扫
分享
166
评分
回复
cuda中的结构体数据传递问题
结构体中有数组,结构体传入GPU后在核函数中分配了数组内存(new),给数组传入了数据 怎么把数据带回CPU端
复制链接 扫一扫
分享
419
评分
1
急需cuda大佬!急需cuda大佬!
兼职职位、时间自由、地点自由,不耽误个人事宜。 根据要求完成CUDA相关任务 薪资:200-300/h,200-800/次(根据难度上下浮动) 招聘要求: 1.国内985/211/qs前300院校本科大三以上在读或毕业。 2.四级/六级500左右/雅
复制链接 扫一扫
分享
421
评分
1
要如何提高CUDA内核运行速度?
我的内核函数执行较慢,于是我想通过调试来判断是什么因素影响了CUDA内核的执行速度。 我从后向前不停地注释代码,然后反复测试执行时间,发现当代码注释到某一段后,其整体运算时间突然由25s降低到了9s。然后发生跳变的那条注释代码是一条非常普通的运算,不
复制链接 扫一扫
分享
550
评分
回复
cuda 设备内memcpy速度太慢
如果直接写核函数实现显存到显存的拷贝 __global__ void NavieCpy(cufftComplex* src, cufftComplex* des) { int id = blockIdx.x + threadIdx.x * gri
复制链接 扫一扫
分享
576
评分
2
CUDA的纹理内存的大小限制该如何理解?
CUDA Texture memory的大小限制该如何理解
复制链接 扫一扫
分享
501
评分
回复
想咨询下博世拧紧控制软件BS350应该怎么安装
在博世官网下载的BS350软件,可是没有办法安装 安装时候弹出未安装过以前的软件 可是在官网和其他网站上寻找了大半天也没有低版本的软件下载 有没有大佬可以解惑,帮个忙
复制链接 扫一扫
分享
我想问一下,我自己写cuda跑1000轮训练,一开始还比较快,一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗?之前看到都是说GPU训练需要预热,应该会越来越快,为什么会越来越慢呢?内存监控也没
505
评分
回复
我想问一下,我自己写cuda跑1000轮训练,一开始还比较快,一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗?之前看到都是说GPU训练需要预热,应该会越来越快,为什么会越来越慢呢?内存监控也没
我想问一下,我自己写cuda跑1000轮训练,一开始还比较快,一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗?之前看到都是说GPU训练需要预热,应该会越来越快,为什么会越来越慢呢?内存监控也没有出现异常的地方
复制链接 扫一扫
分享
463
评分
1
在核函数中定义的局部变量,打印其地址都是相同的?
代码如下: 输出结果: 请教一下啊,难道每个线程都访问相同的显存地址,并给地址赋值,这不会数据冲突吗?
复制链接 扫一扫
分享
722
评分
回复
cuda内存拷贝失败
前段时间因为工作需要写了一个png图片处理的功能,由于需要逐像素的处理,所有上了cuda。之前运行一直都是正常的,处理过的最大图像最大差不多是8k。今天突然接到反馈说图像处理失败了,排查了一下午,结果发现问题本身非常奇怪。 总体而言就是只对特定数据量
复制链接 扫一扫
分享
524
评分
回复
关于CUDA进行FFT的速度问题
我最近在写代码的时候用到了FFT,在matlab中一个2097152点的数据进行FFT用了0.15S,在cuda中用CUFFT库中的C2C,用了0.14S,只相差了0.1S,请问本来就是这样子的吗?可是我在网上查资料发现CUFFT按理说应该提速100
复制链接 扫一扫
分享
521
评分
回复
洗牌束指令归约与使用共享内存归约谁更快?
我做了一个测试,分别用洗牌束指令与共享内存进行归约计算,一个block内,循环做100000次,结果如下: 为什么洗牌束指令的速度不如shared memory?按照cuda操作指南的描述,洗牌束指令应该更快的,是程序有问题么?
复制链接 扫一扫
分享
564
评分
1
初次尝试GUP运行python,测试代码时发现结果不好
使用的时pycharm,显卡为nvidia 2060 运行网上别人写的测试代码,据他所说gpu运行速度应当比cpu快很多 结果我自己运行时刚好相反,我是gpu设置出错了,还是代码有问题?请大佬指点!!! from numba import cuda
复制链接 扫一扫
分享
551
评分
回复
cudaSetDevice(i)使用出现问题
我在进行cuda多gpu进行计算时,cudaSetDevice(i)设置使用第一张显卡计算的结果没有问题,但是在使用第二张显卡时却无法计算出正确的结果,cudaMemcpy后结果为初始的默认值,请问有没有老哥知道这是什么原因?
复制链接 扫一扫
分享
749
评分
1
caffee编译时报错error == cudaSuccess (209 vs. 0)
Ubuntu18.04 ROS melodic CUDA 10.2
复制链接 扫一扫
分享
为您搜索到以下结果: