VS2022和CUDA12.2
社区首页 (3584)




请编写您的帖子内容
社区频道(2)
显示侧栏
卡片版式
全部
Ada助手
最新发布
最新回复
标题
阅读量
内容评分
精选

160
评分
回复


VS2022和CUDA12.2
我在VS2022和CUDA12.2的环境配置下,单纯的C/C++以及CUDA运行,并没有制作GUI界面,程序中有耗时计算,在VS的release模式下,我在弹出的调试黑框中会实时统计cuda运行时长,在黑框在前端时耗时大概在10ms左右(正常时长),
复制链接 扫一扫
分享

292
评分
回复


我运行tensflow-gpu2.7.0框架下的代码,在训练模型时出现下面的问题,但是当使用训练好的模型进行预测时,却能正常调用GPU运行代码。
Epoch 1/50 2023-11-02 15:34:15.983828: I tensorflow/stream_executor/cuda/cuda_dnn.cc:366] Loaded cuDNN version 8100 2023-11-0
复制链接 扫一扫
分享

587
评分
1


CUDA 并行计算中,20系显卡和30系显卡需要注意什么吗
发现同样的代码再20系显卡(2070,2060.2080ti)跑出来的结果都是对的,但是再30系显卡(3060,3090)的结果都是错误的,怀疑是并行计算时,哪里出了问题,但是一直没有找到原因,有没有大神说一下需要注意的点呢
复制链接 扫一扫
分享

808
评分
5


编译的CUDA程序换台电脑后能顺利跑通但是结果不对。
我用CUDA加速信号处理算法,之前是用VS编译的,结果发现用单位的一台比较旧的电脑,用的CUDA8.0,VS调试结果正常,但是我自己的电脑(拯救者R7000)上,VS调试能顺利跑通,但是结果不对,用的CUDA10.0,所以后来改成写makefile的方式编译,先安装了minGW,这样就可以像linux上在命令行中输入make来编译了,makefile中指定的编译器是nvcc,不过默认是C部分会使用cl.exe编译,CUDA C部分用nvcc编译,这样编译出来的exe,在自己电脑上也能跑出正确的结
复制链接 扫一扫
分享

761
评分
回复


做图像分类的时候,loss不降
二分类。损失=In2=0.69。 五分类。损失=In5=1.60。 损失函数是交叉熵。 torch 架构。 网络是vgg 16。 试了一下网上的方法,不是权重初始化的问题。 大佬们有没有思路。
复制链接 扫一扫
分享

cuda
求一个cuda学习交流群
...全文
597
评分
回复


cuda
求一个cuda学习交流群
复制链接 扫一扫
分享

663
评分
回复


如何让3080显卡在Ubuntu下适配深度学习环境?
3080显卡在Ubuntu下适配深度学习环境 Ubuntu16.04 Ubuntu18.04
复制链接 扫一扫
分享

545
评分
回复


求救-cuda
有人能给我发一下cuda9.0下的bin文件吗?我用cudnn把它替换后就没了,现在需要用到
复制链接 扫一扫
分享

595
评分
回复


GPU对操作系统有什么影响啊?
GPU的出现和引入会给操作系统带来什么影响?操作系统需要有什么提升?
复制链接 扫一扫
分享

660
评分
回复


CUDA中一个SM如果包含了多个线程块
那么这个SM是一个线程块一个线程块的进行处理呢,即对第一个线程块取一个线程束,处理完之后对这个线程块的第二个线程束处理。 还是每个线程块,各取几个线程,组合成一个线程束进行处理。 还是第一个线程块的第一个线程束处理完之后,从另一个线程块中选择一个线程束进行处理?
复制链接 扫一扫
分享

562
评分
回复


如何在opencl框架下使用cuda
目前一边学习一边跟进一个项目。 这是一个关于opencl和cuda的问题。 我需要管理一个异构计算平台,除了主机CPU,这个平台包括了GPU和FPGA,其中GPU只有NVIDIA。若使用opencl,那么对于NVIDIA的GPU的优化可能做不了太好,或者说使用难度稍大。所以我想建立一个系统,使用opencl作为管理者,若需要GPU设备,则跳转到cuda,若使用到FPGA,则任然使用opencl。 我有一些问题。 1.这样的想法是否可行,应该没问题吧。 2.如何使我写的代码,包括opencl和cu
复制链接 扫一扫
分享

536
评分
回复


如何评估kernel函数内部子模块的耗时
请教大神,我在kernel函数内部,不停地产生伪随机的原始数据,然后对原始数据进行算法处理,最后,定时(比如每隔10秒)将数据处理的结果传回CPU端。现在,我想通过profile评估kernel函数内部各个子模块的耗时,却发现行不通。因为profile只会显示整个kernel函数的耗时,而不能再细化到子模块。想请教,如何看到各个子模块的耗时。难道我只能把各个子模块拆分为单独的kernel函数才能评估耗时么?但这样就会导致GPU与CPU之间的数据交互变得复杂且低效。
复制链接 扫一扫
分享

749
评分
回复


以pytorch为框架运行bert,在gpu内存分配遇到问题?在网上找解决方案,说是减小bachsize,减小后还是报错。
[图片]
复制链接 扫一扫
分享

3535
评分
2


yolov3-pytorch训练报错
/pytorch/aten/src/ATen/native/cuda/IndexKernel.cu:60: lambda [](int)->auto::operator()(int)->auto: block: [0,0,0], thread: [41,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && "index out of bounds"` failed. /pytorch/aten/src/ATen/native/cuda
复制链接 扫一扫
分享

4407
评分
8


如何利用电脑中--共享GPU内存--运行python程序
最近实验室的服务器一直崩溃,无奈只好在自己的笔记本中搭建环境训练神经网络,无奈自己的笔记本过于陈旧,显存太低,训练神经网络总是出现out of memory。看到系统还有“共享GPU内存”,想问一下各位大神,python程序如何调用这个“共享GPU 内存”,“专用GPU内存”大小是否可以更改?如何更改?非常感谢!!!
复制链接 扫一扫
分享

736
评分
1


keras自定义层Lambda 输出维度不对
def reduce_sums(self, vec): user_out = vec[0] item_out = vec[1] res = tf.nn.sigmoid(tf.reduce_sum(tf.multiply(user_out, item_out), axis=1, keep_dims=False)) return res prediction = Lambda(self.reduce_sums)([user_latent, item_latent]) ValueError: Err
复制链接 扫一扫
分享

549
评分
回复


cuda内存传输速率问题
上图是使用cuda-z测出来的1650的内存数据传输速率,小弟有几个问题想问问大家 1、在cuda-z上分了device to host和host to device,这应该说明device和host之间的传输速率和传输方向有关吧,那这是什么因素导致的呢? 2、device to device的速率应该指的就是global到global的速率吧?我知道显存(也就是global)到GPU芯片的传输速率和显存带宽有关,那global到global的速率是和什么有关呢,它的瓶颈是什么?
复制链接 扫一扫
分享

762
评分
1


有没有用GPU实现雷达成像算法的,一起交流下
最近在做一个小项目,用GPU实现BP成像算法,有兴趣的可以一起交流下。
复制链接 扫一扫
分享

813
评分
1


CUDA+OPENCV对尺寸较大的图片进行处理的时候 GPU无法实现并行计算
各位大佬! 我用CUDA的OPENCV库对图像进行计算,图像尺寸较大(2000万像素),同时需要处理8张图片,此时GPU无法实现并行计算,现在计算时间差不多要十几秒。但是当我以实现并行使用小图片时,GPU便可实现并行计算。。。请问这怎么解决呢??? 此致 敬礼!
复制链接 扫一扫
分享
为您搜索到以下结果:
355
社区成员
615
社区内容





CUDA高性能计算讨论
CUDA高性能计算讨论
复制链接 扫一扫

确定
社区描述
CUDA高性能计算讨论
加入社区
获取链接或二维码
- 近7日
- 近30日
- 至今
加载中
社区公告
暂无公告