cuda中的结构体数据传递问题
社区首页 (3341)
我加入的社区
我管理的社区
官方推荐社区
76
其他社区
3341
请编写您的帖子内容
社区频道(7)
显示侧栏
卡片版式
全部
CUDA高性能计算讨论
CUDA on Linux
CUDA on Win
博文收录
Ada助手
问答
最新发布
最新回复
标题
阅读量
内容评分
精选
130
评分
回复
cuda中的结构体数据传递问题
结构体中有数组,结构体传入GPU后在核函数中分配了数组内存(new),给数组传入了数据 怎么把数据带回CPU端
复制链接 扫一扫
分享
378
评分
1
急需cuda大佬!急需cuda大佬!
兼职职位、时间自由、地点自由,不耽误个人事宜。 根据要求完成CUDA相关任务 薪资:200-300/h,200-800/次(根据难度上下浮动) 招聘要求: 1.国内985/211/qs前300院校本科大三以上在读或毕业。 2.四级/六级500左右/雅
复制链接 扫一扫
分享
374
评分
回复
要如何提高CUDA内核运行速度?
我的内核函数执行较慢,于是我想通过调试来判断是什么因素影响了CUDA内核的执行速度。 我从后向前不停地注释代码,然后反复测试执行时间,发现当代码注释到某一段后,其整体运算时间突然由25s降低到了9s。然后发生跳变的那条注释代码是一条非常普通的运算,不
复制链接 扫一扫
分享
463
评分
回复
cuda 设备内memcpy速度太慢
如果直接写核函数实现显存到显存的拷贝 __global__ void NavieCpy(cufftComplex* src, cufftComplex* des) { int id = blockIdx.x + threadIdx.x * gri
复制链接 扫一扫
分享
470
评分
2
CUDA的纹理内存的大小限制该如何理解?
CUDA Texture memory的大小限制该如何理解
复制链接 扫一扫
分享
449
评分
回复
想咨询下博世拧紧控制软件BS350应该怎么安装
在博世官网下载的BS350软件,可是没有办法安装 安装时候弹出未安装过以前的软件 可是在官网和其他网站上寻找了大半天也没有低版本的软件下载 有没有大佬可以解惑,帮个忙
复制链接 扫一扫
分享
我想问一下,我自己写cuda跑1000轮训练,一开始还比较快,一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗?之前看到都是说GPU训练需要预热,应该会越来越快,为什么会越来越慢呢?内存监控也没
463
评分
回复
我想问一下,我自己写cuda跑1000轮训练,一开始还比较快,一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗?之前看到都是说GPU训练需要预热,应该会越来越快,为什么会越来越慢呢?内存监控也没
我想问一下,我自己写cuda跑1000轮训练,一开始还比较快,一百轮之后每轮的耗时会越来越慢。有人遇到类似的问题了吗?之前看到都是说GPU训练需要预热,应该会越来越快,为什么会越来越慢呢?内存监控也没有出现异常的地方
复制链接 扫一扫
分享
426
评分
1
在核函数中定义的局部变量,打印其地址都是相同的?
代码如下: 输出结果: 请教一下啊,难道每个线程都访问相同的显存地址,并给地址赋值,这不会数据冲突吗?
复制链接 扫一扫
分享
628
评分
回复
cuda内存拷贝失败
前段时间因为工作需要写了一个png图片处理的功能,由于需要逐像素的处理,所有上了cuda。之前运行一直都是正常的,处理过的最大图像最大差不多是8k。今天突然接到反馈说图像处理失败了,排查了一下午,结果发现问题本身非常奇怪。 总体而言就是只对特定数据量
复制链接 扫一扫
分享
479
评分
回复
关于CUDA进行FFT的速度问题
我最近在写代码的时候用到了FFT,在matlab中一个2097152点的数据进行FFT用了0.15S,在cuda中用CUFFT库中的C2C,用了0.14S,只相差了0.1S,请问本来就是这样子的吗?可是我在网上查资料发现CUFFT按理说应该提速100
复制链接 扫一扫
分享
483
评分
回复
洗牌束指令归约与使用共享内存归约谁更快?
我做了一个测试,分别用洗牌束指令与共享内存进行归约计算,一个block内,循环做100000次,结果如下: 为什么洗牌束指令的速度不如shared memory?按照cuda操作指南的描述,洗牌束指令应该更快的,是程序有问题么?
复制链接 扫一扫
分享
526
评分
1
初次尝试GUP运行python,测试代码时发现结果不好
使用的时pycharm,显卡为nvidia 2060 运行网上别人写的测试代码,据他所说gpu运行速度应当比cpu快很多 结果我自己运行时刚好相反,我是gpu设置出错了,还是代码有问题?请大佬指点!!! from numba import cuda
复制链接 扫一扫
分享
515
评分
回复
cudaSetDevice(i)使用出现问题
我在进行cuda多gpu进行计算时,cudaSetDevice(i)设置使用第一张显卡计算的结果没有问题,但是在使用第二张显卡时却无法计算出正确的结果,cudaMemcpy后结果为初始的默认值,请问有没有老哥知道这是什么原因?
复制链接 扫一扫
分享
704
评分
1
caffee编译时报错error == cudaSuccess (209 vs. 0)
Ubuntu18.04 ROS melodic CUDA 10.2
复制链接 扫一扫
分享
522
评分
回复
CUDA中的动态并行---如何在核函数中启动另一个核函数
Dynamic Parallelism是 CUDA 编程模型的扩展,使 CUDA 内核能够直接在 GPU 上创建新工作并与新工作同步。在程序中需要的任何位置动态创建并行性提供了令人兴奋的新功能。直接从 GPU 创建工作的能力可以减少在主机和设备之间传输执行控制和数据的需要,因为现在可以通过在设备上执行的线程在运行时做出启动配置决策。此外,可以在运行时在内核内内联生成依赖于数据的并行工作,动态利用 GPU 的硬件调度程序和负载平衡器,并根据数据驱动的决策或工作负载进行调整。以前需要修改以消除递归、不规则循环结
复制链接 扫一扫
分享
524
评分
回复
CUDA中动态Global Memory分配和操作
动态全局内存分配和操作仅受计算能力 2.x 及更高版本的设备支持。从全局内存中的固定大小的堆中动态分配和释放内存。从 指向的内存位置复制 个字节到 指向的内存位置。将 指向的内存块的 字节设置为 (解释为无符号字符)。CUDA 内核中的 函数从设备堆中分配至少 个字节,并返回一个指向已分配内存的指针,如果没有足够的内存来满足请求,则返回 NULL。返回的指针保证与 16 字节边界对齐。内核中的 CUDA 函数从设备堆中分配至少 个字节,并返回一个指向已分配内存的指针,如果内存不足以满
复制链接 扫一扫
分享
545
评分
回复
GPU性能优化之CUDA调优指南
性能优化围绕四个基本策略:哪些策略将为应用程序的特定部分产生最佳性能增益取决于该部分的性能限值; 例如,优化主要受内存访问限制的内核的指令使用不会产生任何显着的性能提升。 因此,应该通过测量和监控性能限制来不断地指导优化工作,例如使用 CUDA 分析器。 此外,将特定内核的浮点运算吞吐量或内存吞吐量(以更有意义的为准)与设备的相应峰值理论吞吐量进行比较表明内核还有多少改进空间。为了最大限度地提高利用率,应用程序的结构应该尽可能多地暴露并行性,并有效地将这种并行性映射到系统的各个组件,以使它们大部分时间都处于
复制链接 扫一扫
分享
525
评分
回复
CUDA环境配置最新教程(ubuntu 20.04 + cuda 11.7 + cuDNN 8.4)
ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程 ubuntu 20.04 CUDA 11.7 cuDNN 8.4 环境配置教程1.查看是否有合适的GPU2.查看系统版本,我用的是ubuntu 20.04:3.验证系统GCC版本:4.通过下面的地址下载安装包:这里奉劝各位一句, 如果你实在是新手, 可以选择deb(local)5.禁用系统自带的显卡驱动6.安装cuda程序7.将CUDA路径加入系统环境这里再次强调一下, 如果没学过vim的同学可以学一下, 在Linux中用的非
复制链接 扫一扫
分享
573
评分
回复
CUDA Graph图详解
CUDA图CUDA Graphs 为 CUDA 中的工作提交提供了一种新模型。图是一系列操作,例如内核启动,由依赖关系连接,独立于其执行定义。这允许一个图被定义一次,然后重复启动。将图的定义与其执行分开可以实现许多优化:首先,与流相比,CPU 启动成本降低,因为大部分设置都是提前完成的;其次,将整个工作流程呈现给 CUDA 可以实现优化,这可能无法通过流的分段工作提交机制实现。要查看图形可能的优化,请考虑流中发生的情况:当您将内核放入流中时,主机驱动程序会执行一系列操作,以准备在 GPU 上执行内核。
复制链接 扫一扫
分享
为您搜索到以下结果: