hadoop 集群突然 down掉了,我该怎么排查

skins_LI 2017-12-06 10:05:19
如题,我们是用 ambari 监控的,第二天早上 一看 集群都停掉了。
我应该怎么排查,
查log的话 怎么查,去哪查
查谁的。
目的是知道为什么会停掉。
...全文
357 3 打赏 收藏 举报
写回复
3 条回复
切换为时间正序
当前发帖距今超过3年,不再开放新的回复
发表回复
ggzone 2017-12-08
集群挂了这个描述说的有点笼统。一直在用CM,ambari 没实际用过。但是我感觉有些东西应该是类似的。 CM管理页面可以看到每个node的每个服务的状态以及警告、失败原因,而且可以查看每个node上每个服务相应的详细日志,要先通过CM定位是哪个node的哪个服务出现问题。确定了问题服务后再去查看相应node服务的日志。 日志目录:一般都在/var/log/服务名下目录下 hadoop本身是容错的,我感觉丢失一个datanode或者一个nodemanager的话,应该算不上楼主说的集群挂了,估计应该是namenode、resourcemanager问题。 对于一个新手可能会遇到的坑:ip地址是可能会导致整个集群挂掉的。
  • 打赏
  • 举报
回复
dinghun8leech 2017-12-06
1、看主机情况是否正常,是否有主机失效; 2、看hdfs哪些节点失效,去所在主机看日志。
  • 打赏
  • 举报
回复
shiter 2017-12-06
先看zk,在看namenode,log在各个节点的var log 对应角色下面
  • 打赏
  • 举报
回复
相关推荐
发帖
Hadoop生态社区
加入

2.0w+

社区成员

Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
申请成为版主
帖子事件
创建了帖子
2017-12-06 10:05
社区公告
暂无公告