集群搭建-torque计算节点接收任务后不执行

拾毅者 2015-01-29 01:57:06
集群安装没问题,单机多cpu工作也没问题

可是有了子节点后,子节点能够扫描到任务,但是就是不执行,追踪任务报如下错误

unable to run job, MOM rejected/rc=-1
unable to run job, send to MOM '10.10.12.128' failed

计算节点就是不工作,qnodes检查 都是free状态,ssh也没问题,防火墙也关着

在Google搜了好久,这个问题一大串,可是没有一个解决方案,看到CSDN上也有人问过,可是也没答案

想问问有谁搭过torque碰到这问题的么?能不能帮帮忙,解救一下,这问题折腾我几天了
...全文
2431 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
荒漠屠妇 2017-03-02
  • 打赏
  • 举报
回复
请问是如何解决的,小弟现在也遇到同样的问题,作业提交过来总是在Q状态,追踪服务器日志发现15010错误,无法识别host,但是不知道问题出在哪
hnuzhoulin 2015-06-26
  • 打赏
  • 举报
回复
老兄有解决之道了没?
拾毅者 2015-06-26
  • 打赏
  • 举报
回复
引用 1 楼 cool_zbk 的回复:
系统重启下试试
解决多时了
cool_zbk 2015-02-11
  • 打赏
  • 举报
回复
系统重启下试试

2,408

社区成员

发帖
与我相关
我的任务
社区描述
高性能计算
社区管理员
  • 高性能计算社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧