各位好,
今天研究室的集群服务器突然不能SSH登入管理节点(hpcs01),去机房把管理节点连接显示器查看发现如下错误:
NFS文件服务器连接显示器后发现屏幕上重复出现如下错误:
sda所对应的HDD是去年11月份才更好过的新硬盘,不会是硬盘又不行了吧?
NFS服务器简要信息:
*********************************
RELEASE: 2009-04-09
OS: CentOS 4.7 x86_64 for FS
KERNEL: 2.6.9-78.0.13.ELsmp
*********************************
Linux hpcs-fs 2.6.9-78.0.13.ELsmp #1 SMP Wed Jan 14 15:55:36 EST 2009 x86_64 x86_64 x86_64 GNU/Linux
重启NFS后,也能正常进入系统正常使用。就是担心以后什么时候再次出现类似错误,因为一出错,集群上运行的计算都要中断了。
下面的连接里是我重启NFS系统后运行一个脚本输出的一些系统信息的log文件
https://www.dropbox.com/s/wepl3x105j45r9w/log20140210.txt
希望有经验的朋友给些建议。
在此先谢谢了!