CUDA社区-CSDN社区云

社区首页 (3642)

我加入的社区

我管理的社区

官方推荐社区 76

其他社区 3642

请编写您的帖子内容

社区频道(7)

显示侧栏

卡片版式

全部

CUDA高性能计算讨论

CUDA on Linux

CUDA on Win

博文收录

Ada助手

问答

最新发布

最新回复

标题

阅读量

内容评分

精选

weixin_49370318 07-17

千寻智能Spirit AI寻找AI Infra方向顶尖人才

具身智能头部公司千寻智能Spirit AI寻找AI Infra方向的优秀人才，欢迎各位感兴趣的朋友联系~ 简历直达CEO~ 关于千寻智能Spirit AI：https://www.spirit-ai.com/ 欢迎私戳~

...全文

115

评分

回复

qq_43154002 03-05

cuda流并行求助贴

我的核函数数据量比较小，占不满4090的计算资源，而且还需要对计算结果进行回传，要进行很多次。我使用流进行核函数并行，让数据计算与传输同时进行达到隐藏延迟的目的。因本人比较菜，遇到如图问题，一开始并行的很好，但是为什么后半段效果就完全没有呢。而且

...全文

98

评分

1

GKatHere 2024-12-10

神秘的cuda,将函数砍掉一半，运算速度反而下降一倍.....

神秘的cuda,将函数砍掉一半，运算速度反而下降一倍..................

...全文

135

评分

回复

GKatHere 2024-12-09

cuda线程能挂起吗？

如题：cuda线程能挂起吗？

...全文

109

评分

回复

GKatHere 2024-12-02

cuda多流，但仍然串行的问题？

// 如题: vs2022, cuda 12.6 __device__ volatile int a = 0; __device__ volatile int b = 0; __global__ void ga()//使用流1 { a = 1; f

...全文

109

评分

回复

GKatHere 2024-11-06

请教一个cuda动态并行，随机卡死的问题

// 源代码如下, VS2022, cuda 12.6, __global__ void SetBool(volatile int* b) { if (ptrdiff_t(b) > 100) * b = 1; else __nanosleep(1)

...全文

179

评分

回复

GKatHere 2024-10-17

请教：cuda的动态并行库，与c++ 的iomanip库，为什么在特殊情况下，存在冲突？

// vs2022, c++20, cuda12.6, x64, DEBUG // // 请教下，为什么在自建lib项目中使用了<iomanip>， // 而如果在cuda动态并行项目中，使用了此lib, 但不主动使用<iomanip> // 那么

...全文

259

评分

回复

m0_63027072 2024-04-25

cuda中的结构体数据传递问题

结构体中有数组，结构体传入GPU后在核函数中分配了数组内存(new)，给数组传入了数据怎么把数据带回CPU端

...全文

268

评分

回复

玥玥95132 2024-01-25

急需cuda大佬！急需cuda大佬！

兼职职位、时间自由、地点自由，不耽误个人事宜。根据要求完成CUDA相关任务薪资：200-300/h,200-800/次(根据难度上下浮动) 招聘要求: 1.国内985/211/qs前300院校本科大三以上在读或毕业。 2.四级/六级500左右/雅

...全文

617

评分

1

QiuHan_Ahha 2023-11-27

要如何提高CUDA内核运行速度？

我的内核函数执行较慢，于是我想通过调试来判断是什么因素影响了CUDA内核的执行速度。我从后向前不停地注释代码，然后反复测试执行时间，发现当代码注释到某一段后，其整体运算时间突然由25s降低到了9s。然后发生跳变的那条注释代码是一条非常普通的运算，不

...全文

628

评分

1

df夜落花千树 2023-11-13

cuda 设备内memcpy速度太慢

如果直接写核函数实现显存到显存的拷贝 __global__ void NavieCpy(cufftComplex* src, cufftComplex* des) { int id = blockIdx.x + threadIdx.x * gri

...全文

729

评分

回复

识得天高地厚 2023-10-14

CUDA的纹理内存的大小限制该如何理解？

CUDA Texture memory的大小限制该如何理解

...全文

792

评分

2

LYnb233 2023-07-26

想咨询下博世拧紧控制软件BS350应该怎么安装

在博世官网下载的BS350软件，可是没有办法安装安装时候弹出未安装过以前的软件可是在官网和其他网站上寻找了大半天也没有低版本的软件下载有没有大佬可以解惑，帮个忙

...全文

772

评分

回复

西瓜奶蛋 2023-07-26

我想问一下，我自己写cuda跑1000轮训练，一开始还比较快，一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗？之前看到都是说GPU训练需要预热，应该会越来越快，为什么会越来越慢呢？内存监控也没

我想问一下，我自己写cuda跑1000轮训练，一开始还比较快，一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗？之前看到都是说GPU训练需要预热，应该会越来越快，为什么会越来越慢呢？内存监控也没有出现异常的地方

...全文

615

评分

回复

zsef_val 2023-07-18

在核函数中定义的局部变量，打印其地址都是相同的？

代码如下：输出结果：请教一下啊，难道每个线程都访问相同的显存地址，并给地址赋值，这不会数据冲突吗？

...全文

559

评分

1

qingbeiwang 2023-04-20

cuda内存拷贝失败

前段时间因为工作需要写了一个png图片处理的功能，由于需要逐像素的处理，所有上了cuda。之前运行一直都是正常的，处理过的最大图像最大差不多是8k。今天突然接到反馈说图像处理失败了，排查了一下午，结果发现问题本身非常奇怪。总体而言就是只对特定数据量

...全文

1003

评分

回复

本周也不服输的朱朱 2023-03-23

关于CUDA进行FFT的速度问题

我最近在写代码的时候用到了FFT，在matlab中一个2097152点的数据进行FFT用了0.15S，在cuda中用CUFFT库中的C2C，用了0.14S，只相差了0.1S，请问本来就是这样子的吗？可是我在网上查资料发现CUFFT按理说应该提速100

...全文

666

评分

回复

ljd627 2022-12-01

洗牌束指令归约与使用共享内存归约谁更快？

我做了一个测试，分别用洗牌束指令与共享内存进行归约计算，一个block内，循环做100000次，结果如下：为什么洗牌束指令的速度不如shared memory？按照cuda操作指南的描述，洗牌束指令应该更快的，是程序有问题么？

...全文

635

评分

回复

EarAST。 2022-09-30

初次尝试GUP运行python，测试代码时发现结果不好

使用的时pycharm，显卡为nvidia 2060 运行网上别人写的测试代码，据他所说gpu运行速度应当比cpu快很多结果我自己运行时刚好相反，我是gpu设置出错了，还是代码有问题？请大佬指点!!! from numba import cuda

...全文

685

评分

1

589

社区成员

2,925

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告