请教在分布式内存上系统上运行CUDA程序出现的问题
如题,我编写了一个基于MPI和CUDA并行的程序,实验室的集群是分布式系统,有两个节点,每个节点上有4块GPU。之前没有将程序搬到GPU上只用MPI并行时,程序可以在两个节点上运行。将程序使用了CUDA并行后,如果只是单独在一个节点上调用4个GPU并行没出问题(两个节点都验证过),一旦跨节点调用后就出现报错,报错信息为error while loading shared libraries: libcudart.so.5.0: cannot open shared object file: No such file or directory。之后又运行了SDK 中的 simpleMPI程序,遇到同样的结果。我在程序计算前,已经设置了环境变量。请教大家有没有遇到过类似的问题。