VS2022和CUDA12.2
社区首页 (3597)




请编写您的帖子内容
社区频道(2)
显示侧栏
卡片版式
全部
Ada助手

181
评分
回复


VS2022和CUDA12.2
我在VS2022和CUDA12.2的环境配置下,单纯的C/C++以及CUDA运行,并没有制作GUI界面,程序中有耗时计算,在VS的release模式下,我在弹出的调试黑框中会实时统计cuda运行时长,在黑框在前端时耗时大概在10ms左右(正常时长),
复制链接 扫一扫
分享

300
评分
回复


我运行tensflow-gpu2.7.0框架下的代码,在训练模型时出现下面的问题,但是当使用训练好的模型进行预测时,却能正常调用GPU运行代码。
Epoch 1/50 2023-11-02 15:34:15.983828: I tensorflow/stream_executor/cuda/cuda_dnn.cc:366] Loaded cuDNN version 8100 2023-11-0
复制链接 扫一扫
分享

597
评分
1


CUDA 并行计算中,20系显卡和30系显卡需要注意什么吗
发现同样的代码再20系显卡(2070,2060.2080ti)跑出来的结果都是对的,但是再30系显卡(3060,3090)的结果都是错误的,怀疑是并行计算时,哪里出了问题,但是一直没有找到原因,有没有大神说一下需要注意的点呢
复制链接 扫一扫
分享

818
评分
5


编译的CUDA程序换台电脑后能顺利跑通但是结果不对。
我用CUDA加速信号处理算法,之前是用VS编译的,结果发现用单位的一台比较旧的电脑,用的CUDA8.0,VS调试结果正常,但是我自己的电脑(拯救者R7000)上,VS调试能顺利跑通,但是结果不对,用的CUDA10.0,所以后来改成写makefile的方式编译,先安装了minGW,这样就可以像linux上在命令行中输入make来编译了,makefile中指定的编译器是nvcc,不过默认是C部分会使用cl.exe编译,CUDA C部分用nvcc编译,这样编译出来的exe,在自己电脑上也能跑出正确的结
复制链接 扫一扫
分享

768
评分
回复


做图像分类的时候,loss不降
二分类。损失=In2=0.69。 五分类。损失=In5=1.60。 损失函数是交叉熵。 torch 架构。 网络是vgg 16。 试了一下网上的方法,不是权重初始化的问题。 大佬们有没有思路。
复制链接 扫一扫
分享

cuda
求一个cuda学习交流群
...全文

673
评分
回复


如何让3080显卡在Ubuntu下适配深度学习环境?
3080显卡在Ubuntu下适配深度学习环境 Ubuntu16.04 Ubuntu18.04
复制链接 扫一扫
分享



671
评分
回复


CUDA中一个SM如果包含了多个线程块
那么这个SM是一个线程块一个线程块的进行处理呢,即对第一个线程块取一个线程束,处理完之后对这个线程块的第二个线程束处理。 还是每个线程块,各取几个线程,组合成一个线程束进行处理。 还是第一个线程块的第一个线程束处理完之后,从另一个线程块中选择一个线程束进行处理?
复制链接 扫一扫
分享

570
评分
回复


如何在opencl框架下使用cuda
目前一边学习一边跟进一个项目。 这是一个关于opencl和cuda的问题。 我需要管理一个异构计算平台,除了主机CPU,这个平台包括了GPU和FPGA,其中GPU只有NVIDIA。若使用opencl,那么对于NVIDIA的GPU的优化可能做不了太好,或者说使用难度稍大。所以我想建立一个系统,使用opencl作为管理者,若需要GPU设备,则跳转到cuda,若使用到FPGA,则任然使用opencl。 我有一些问题。 1.这样的想法是否可行,应该没问题吧。 2.如何使我写的代码,包括opencl和cu
复制链接 扫一扫
分享

547
评分
回复


如何评估kernel函数内部子模块的耗时
请教大神,我在kernel函数内部,不停地产生伪随机的原始数据,然后对原始数据进行算法处理,最后,定时(比如每隔10秒)将数据处理的结果传回CPU端。现在,我想通过profile评估kernel函数内部各个子模块的耗时,却发现行不通。因为profile只会显示整个kernel函数的耗时,而不能再细化到子模块。想请教,如何看到各个子模块的耗时。难道我只能把各个子模块拆分为单独的kernel函数才能评估耗时么?但这样就会导致GPU与CPU之间的数据交互变得复杂且低效。
复制链接 扫一扫
分享


3551
评分
2


yolov3-pytorch训练报错
/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:60: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [41,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed. /pytorch/aten/src/ATen/native/cuda
复制链接 扫一扫
分享

4421
评分
8


如何利用电脑中--共享GPU内存--运行python程序
最近实验室的服务器一直崩溃,无奈只好在自己的笔记本中搭建环境训练神经网络,无奈自己的笔记本过于陈旧,显存太低,训练神经网络总是出现out of memory。看到系统还有“共享GPU内存”,想问一下各位大神,python程序如何调用这个“共享GPU 内存”,“专用GPU内存”大小是否可以更改?如何更改?非常感谢!!!
复制链接 扫一扫
分享

743
评分
1


keras自定义层Lambda 输出维度不对
def reduce_sums(self, vec): user_out = vec[0] item_out = vec[1] res = tf.nn.sigmoid(tf.reduce_sum(tf.multiply(user_out, item_out), axis=1, keep_dims=False)) return res prediction = Lambda(self.reduce_sums)([user_latent, item_latent]) ValueError: Err
复制链接 扫一扫
分享

556
评分
回复


cuda内存传输速率问题
上图是使用cuda-z测出来的1650的内存数据传输速率,小弟有几个问题想问问大家 1、在cuda-z上分了device to host和host to device,这应该说明device和host之间的传输速率和传输方向有关吧,那这是什么因素导致的呢? 2、device to device的速率应该指的就是global到global的速率吧?我知道显存(也就是global)到GPU芯片的传输速率和显存带宽有关,那global到global的速率是和什么有关呢,它的瓶颈是什么?
复制链接 扫一扫
分享


824
评分
1


CUDA+OPENCV对尺寸较大的图片进行处理的时候 GPU无法实现并行计算
各位大佬! 我用CUDA的OPENCV库对图像进行计算,图像尺寸较大(2000万像素),同时需要处理8张图片,此时GPU无法实现并行计算,现在计算时间差不多要十几秒。但是当我以实现并行使用小图片时,GPU便可实现并行计算。。。请问这怎么解决呢??? 此致 敬礼!
复制链接 扫一扫
分享
为您搜索到以下结果:
357
社区成员
615
社区内容





CUDA高性能计算讨论
CUDA高性能计算讨论
复制链接 扫一扫

确定
社区描述
CUDA高性能计算讨论
加入社区
获取链接或二维码
- 近7日
- 近30日
- 至今
加载中
社区公告
暂无公告