Hadoop集群datanode状态normal,但是DFS Used 100%
运维小白 2014-07-20 01:59:30 维护了一个86个节点的集群,最近个别datanode的使用率开始告警(高达96%+),但是查看其他datanode,使用率正常,与集群整体使用率一致。
排查过程:
1.删除一些历史数据,发现datanode使用率没有下降;
2.使用Hadoop dfsadmin -report发现86个节点有5个是dead状态,仔细查看之后发现这些dead的节点状态时normal,但是DFS Used 100%(我是凭这个判断dead的)。当我重启了DFS Used 100%的datanode的datanode和tasktracker进程之后,再执行hadoop dfsadmin -report看到该节点的状态仍是normal,但是DFS Used恢复正常(同集群整体使用率一致)。而那些磁盘使用率高达96%+的datanode,磁盘使用率也降低了。
想请教下这些问题主要原因可能是什么呢?期待回复,多谢