CUDA高性能计算讨论社区-CSDN社区云

社区首页 (3643)

我加入的社区

我管理的社区

官方推荐社区 76

其他社区 3643

请编写您的帖子内容

社区频道(2)

显示侧栏

卡片版式

全部

Ada助手

最新发布

最新回复

标题

阅读量

内容评分

精选

weixin_44919098 2024-09-14

VS2022和CUDA12.2

我在VS2022和CUDA12.2的环境配置下，单纯的C/C++以及CUDA运行，并没有制作GUI界面，程序中有耗时计算，在VS的release模式下，我在弹出的调试黑框中会实时统计cuda运行时长，在黑框在前端时耗时大概在10ms左右（正常时长），

...全文

235

评分

回复

ZzhH121 2023-11-02

我运行tensflow-gpu2.7.0框架下的代码，在训练模型时出现下面的问题，但是当使用训练好的模型进行预测时，却能正常调用GPU运行代码。

Epoch 1/50 2023-11-02 15:34:15.983828: I tensorflow/stream_executor/cuda/cuda_dnn.cc:366] Loaded cuDNN version 8100 2023-11-0

...全文

338

评分

回复

何遇chh 2022-01-07

CUDA 并行计算中，20系显卡和30系显卡需要注意什么吗

发现同样的代码再20系显卡（2070，2060.2080ti）跑出来的结果都是对的，但是再30系显卡（3060，3090）的结果都是错误的，怀疑是并行计算时，哪里出了问题，但是一直没有找到原因，有没有大神说一下需要注意的点呢

...全文

637

评分

1

cynh4234658 2021-04-14

编译的CUDA程序换台电脑后能顺利跑通但是结果不对。

我用CUDA加速信号处理算法，之前是用VS编译的，结果发现用单位的一台比较旧的电脑，用的CUDA8.0，VS调试结果正常，但是我自己的电脑（拯救者R7000）上，VS调试能顺利跑通，但是结果不对，用的CUDA10.0，所以后来改成写makefile的方式编译，先安装了minGW，这样就可以像linux上在命令行中输入make来编译了，makefile中指定的编译器是nvcc，不过默认是C部分会使用cl.exe编译，CUDA C部分用nvcc编译，这样编译出来的exe，在自己电脑上也能跑出正确的结

...全文

865

评分

5

_Raymond_ 2021-04-08

做图像分类的时候，loss不降

二分类。损失=In2=0.69。五分类。损失=In5=1.60。损失函数是交叉熵。 torch 架构。网络是vgg 16。试了一下网上的方法，不是权重初始化的问题。大佬们有没有思路。

...全文

808

评分

回复

belongAL 2021-02-18

求一个cuda学习交流群

...全文

645

评分

回复

源代码杀手 2021-02-07

如何让3080显卡在Ubuntu下适配深度学习环境？

3080显卡在Ubuntu下适配深度学习环境 Ubuntu16.04 Ubuntu18.04

...全文

710

评分

回复

xbcbcnzb 2021-01-26

有人能给我发一下cuda9.0下的bin文件吗?我用cudnn把它替换后就没了，现在需要用到

...全文

594

评分

回复

Su__77 2020-12-28

GPU对操作系统有什么影响啊？

GPU的出现和引入会给操作系统带来什么影响？操作系统需要有什么提升？

...全文

636

评分

回复

考完高考high起来 2020-12-22

CUDA中一个SM如果包含了多个线程块

那么这个SM是一个线程块一个线程块的进行处理呢，即对第一个线程块取一个线程束，处理完之后对这个线程块的第二个线程束处理。还是每个线程块，各取几个线程，组合成一个线程束进行处理。还是第一个线程块的第一个线程束处理完之后，从另一个线程块中选择一个线程束进行处理？

...全文

712

评分

回复

Xiao.D 2020-12-13

如何在opencl框架下使用cuda

目前一边学习一边跟进一个项目。这是一个关于opencl和cuda的问题。我需要管理一个异构计算平台，除了主机CPU，这个平台包括了GPU和FPGA，其中GPU只有NVIDIA。若使用opencl，那么对于NVIDIA的GPU的优化可能做不了太好，或者说使用难度稍大。所以我想建立一个系统，使用opencl作为管理者，若需要GPU设备，则跳转到cuda，若使用到FPGA，则任然使用opencl。我有一些问题。 1.这样的想法是否可行，应该没问题吧。 2.如何使我写的代码，包括opencl和cu

...全文

608

评分

回复

larlyii 2020-12-08

如何评估kernel函数内部子模块的耗时

请教大神，我在kernel函数内部，不停地产生伪随机的原始数据，然后对原始数据进行算法处理，最后，定时（比如每隔10秒）将数据处理的结果传回CPU端。现在，我想通过profile评估kernel函数内部各个子模块的耗时，却发现行不通。因为profile只会显示整个kernel函数的耗时，而不能再细化到子模块。想请教，如何看到各个子模块的耗时。难道我只能把各个子模块拆分为单独的kernel函数才能评估耗时么？但这样就会导致GPU与CPU之间的数据交互变得复杂且低效。

...全文

585

评分

回复

Emma_YeNT 2020-11-12

以pytorch为框架运行bert，在gpu内存分配遇到问题？在网上找解决方案，说是减小bachsize，减小后还是报错。

...全文

793

评分

回复

OngoingDC 2020-11-11

yolov3-pytorch训练报错

/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:60: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [41,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed. /pytorch/aten/src/ATen/native/cuda

...全文

3611

评分

2

gentlemanQ 2020-10-06

如何利用电脑中--共享GPU内存--运行python程序

最近实验室的服务器一直崩溃，无奈只好在自己的笔记本中搭建环境训练神经网络，无奈自己的笔记本过于陈旧，显存太低，训练神经网络总是出现out of memory。看到系统还有“共享GPU内存”，想问一下各位大神，python程序如何调用这个“共享GPU 内存”，“专用GPU内存”大小是否可以更改？如何更改？非常感谢！！！

...全文

4471

评分

8

天下第一小白 2020-09-20

keras自定义层Lambda 输出维度不对

def reduce_sums(self, vec): user_out = vec[0] item_out = vec[1] res = tf.nn.sigmoid(tf.reduce_sum(tf.multiply(user_out, item_out), axis=1, keep_dims=False)) return res prediction = Lambda(self.reduce_sums)([user_latent, item_latent]) ValueError: Err

...全文

781

评分

1

~哈 2020-09-02

cuda内存传输速率问题

上图是使用cuda-z测出来的1650的内存数据传输速率，小弟有几个问题想问问大家 1、在cuda-z上分了device to host和host to device，这应该说明device和host之间的传输速率和传输方向有关吧，那这是什么因素导致的呢？ 2、device to device的速率应该指的就是global到global的速率吧？我知道显存（也就是global）到GPU芯片的传输速率和显存带宽有关，那global到global的速率是和什么有关呢，它的瓶颈是什么？

...全文

587

评分

回复

deitydamin 2020-08-13

有没有用GPU实现雷达成像算法的，一起交流下

最近在做一个小项目，用GPU实现BP成像算法，有兴趣的可以一起交流下。

...全文

812

评分

1

Eric_Huuuui 2020-08-03

CUDA+OPENCV对尺寸较大的图片进行处理的时候 GPU无法实现并行计算

各位大佬！我用CUDA的OPENCV库对图像进行计算，图像尺寸较大（2000万像素），同时需要处理8张图片，此时GPU无法实现并行计算，现在计算时间差不多要十几秒。但是当我以实现并行使用小图片时，GPU便可实现并行计算。。。请问这怎么解决呢？？？此致敬礼！

...全文

857

评分

1

CUDA高性能计算讨论

357

社区成员

615

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告