请教在分布式内存上系统上运行CUDA程序出现的问题

jzjayz 2014-12-08 08:03:33

如题，我编写了一个基于MPI和CUDA并行的程序，实验室的集群是分布式系统，有两个节点，每个节点上有4块GPU。之前没有将程序搬到GPU上只用MPI并行时，程序可以在两个节点上运行。将程序使用了CUDA并行后，如果只是单独在一个节点上调用4个GPU并行没出问题（两个节点都验证过），一旦跨节点调用后就出现报错，报错信息为error while loading shared libraries: libcudart.so.5.0: cannot open shared object file: No such file or directory。之后又运行了SDK 中的 simpleMPI程序，遇到同样的结果。我在程序计算前，已经设置了环境变量。请教大家有没有遇到过类似的问题。

...全文

1293 8 打赏收藏转发到动态举报

写回复

8 条回复

切换为时间正序

请发表友善的回复…

发表回复

linxxx3 2014-12-15

打赏
举报

回复

引用 7 楼 jzjayz 的回复:

[quote=引用 3 楼 linxxx3 的回复:] 怎么设置环境变量的？用bashrc设置可能会不生效。可以试试单独写一个shell脚本，在脚本里设置环境变量和启动程序，然后MPI启动shell脚本： LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 your_exe args ...

不好意思之前不知道怎么回复。环境变量就是按照网上说的设置的，在单节点上没有问题。我的程序是在集群上面跑的，提交任务时要写一个pbs脚本，我在脚本里面设置了环境变量，所以每次提交任务就会自动设置环境变量。应该和你说的意思一样吧？可是跨节点时还是不行，是不是集群设置的时候没有设置好什么参数之类的问题？[/quote] 我就是不确定PBS是不是正确设置环境变量，所以让你做这个测试。我用过slurm就碰到过这种bug。自己在shell里设一遍，肯定是万无一失的。想确定资源管理器是不是正常，写个脚本，内容就echo你在pbs里导出的环境变量，然后pbs运行。

ww506772362 2014-12-10

打赏
举报

回复

没有碰到过……

jzjayz 2014-12-10

打赏
举报

回复

引用 3 楼 linxxx3 的回复:

怎么设置环境变量的？用bashrc设置可能会不生效。可以试试单独写一个shell脚本，在脚本里设置环境变量和启动程序，然后MPI启动shell脚本： LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 your_exe args ...

不好意思之前不知道怎么回复。环境变量就是按照网上说的设置的，在单节点上没有问题。我的程序是在集群上面跑的，提交任务时要写一个pbs脚本，我在脚本里面设置了环境变量，所以每次提交任务就会自动设置环境变量。应该和你说的意思一样吧？可是跨节点时还是不行，是不是集群设置的时候没有设置好什么参数之类的问题？

jzjayz 2014-12-10

打赏
举报

回复

OK，感谢回复！

jzjayz 2014-12-09

打赏
举报

回复

环境变量就是按照网上说的设置的，在单节点上没有问题。我的程序是在集群上面跑的，提交任务时要写一个pbs脚本，我在脚本里面设置了环境变量，所以每次提交任务就会自动设置环境变量。应该和你说的意思一样吧？可是跨节点时还是不行，是不是集群设置的时候没有设置好什么参数之类的问题？

linxxx3 2014-12-09

打赏
举报

回复

怎么设置环境变量的？用bashrc设置可能会不生效。可以试试单独写一个shell脚本，在脚本里设置环境变量和启动程序，然后MPI启动shell脚本： LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda/lib64 your_exe args ...

jzjayz 2014-12-08

打赏
举报

回复

没事，还是谢谢了

YCMyTot 2014-12-08

打赏
举报

回复

没有碰到过！Sorry！

真心向大家推荐一本学习操作系统的好书Linux内核代码已经多达几千万行，那么从简单到复杂地进行...image.png之前海纳老师在极客时间上出了两个非常火爆的高质量专栏《编程高手必学的内存知识》，《手写Python虚拟机...

极客星球：深入理解计算机系统分享本文介绍一下相关计算机基础知识，并将一些计算机的基础知识串在一起, 构成相对完整的知识体系。一、计算机基础知识我们知道, 一台电脑主要由四部分组成: CPU (Central ...

最近在看论文时，经常会出现CPU，core和cache之类的，实验室的服务器又总是node和processor之类的，概念很多，有些晕。经过调研请教，现总结如下：（1）node和CPU是等价的，其标志就是都有自己的cache。（2）一...

PaddleOCR问题汇总 Q3.1.64: config yml文件中的ratio_list参数的作用是什么？ A: 在动态图中，ratio_list在有多个数据源的情况下使用，ratio_list中的每个值是每个epoch从对应数据源采样数据的比例。如ratio_list...

程序通用语言的--括号设备： packet外套装（外套前后面 FB）三层嵌套序积 ((()))context-语用实现。 racket套打页（中通套筒上下级 UD）三级级联行矢 {{{}}}facts -语义扩展。 socket套接字（内接左右层 LR） ...

374

社区成员

345

社区内容

发帖

与我相关

我的任务

社区管理员

加入社区

近7日
近30日
至今

加载中

查看更多榜单

社区公告

暂无公告

试试用AI创作助手写篇文章吧

+ 用AI写文章