关于MPI运行时问题
1.我登录到ssh c0-7计算节点,运行程序后一段时间,会显示“Connection to c0-7 closed.”然后需要重新登陆,重新启动MPICH2。或者是另外一种情况:运行数分钟后出现“job aborted; reason = mpd disappeared”,这时候节点没有关闭,可是需要重启mpd。这是什么原因呢?是环境配置的问题吗?
2.譬如我开了50个进程,运行开始时顺利,后来出现这种语句“rank 46 in job 1 compute-0-1.local_37850 caused collective abort of all ranks exit status of rank 46: killed by signal 9 ”是什么意思?