hadoop 集群突然 down掉了,我该怎么排查

skins_LI 2017-12-06 10:05:19
如题,我们是用 ambari 监控的,第二天早上 一看 集群都停掉了。
我应该怎么排查,
查log的话 怎么查,去哪查
查谁的。
目的是知道为什么会停掉。
...全文
472 3 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
3 条回复
切换为时间正序
请发表友善的回复…
发表回复
ggzone 2017-12-08
  • 打赏
  • 举报
回复
集群挂了这个描述说的有点笼统。一直在用CM,ambari 没实际用过。但是我感觉有些东西应该是类似的。 CM管理页面可以看到每个node的每个服务的状态以及警告、失败原因,而且可以查看每个node上每个服务相应的详细日志,要先通过CM定位是哪个node的哪个服务出现问题。确定了问题服务后再去查看相应node服务的日志。 日志目录:一般都在/var/log/服务名下目录下 hadoop本身是容错的,我感觉丢失一个datanode或者一个nodemanager的话,应该算不上楼主说的集群挂了,估计应该是namenode、resourcemanager问题。 对于一个新手可能会遇到的坑:ip地址是可能会导致整个集群挂掉的。
dinghun8leech 2017-12-06
  • 打赏
  • 举报
回复
1、看主机情况是否正常,是否有主机失效; 2、看hdfs哪些节点失效,去所在主机看日志。
shiter 2017-12-06
  • 打赏
  • 举报
回复
先看zk,在看namenode,log在各个节点的var log 对应角色下面

20,848

社区成员

发帖
与我相关
我的任务
社区描述
Hadoop生态大数据交流社区,致力于有Hadoop,hive,Spark,Hbase,Flink,ClickHouse,Kafka,数据仓库,大数据集群运维技术分享和交流等。致力于收集优质的博客
社区管理员
  • 分布式计算/Hadoop社区
  • 涤生大数据
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧