很大的集群里某台机器出错或者宕机,怎么快速定位到这台机器?

千山独行 2014-11-16 09:51:18
比如有1000台节点的集群,某台宕机的话,有什么好办法能够快速定位呢?
...全文
544 4 打赏 收藏 转发到动态 举报
写回复
用AI写文章
4 条回复
切换为时间正序
请发表友善的回复…
发表回复
最勇敢的鸟 2014-11-18
  • 打赏
  • 举报
回复
这必须之前有做监控才可以吧,比如每台服务器有个jsp,你请求的时候,会返回一个ok。然后写个小脚本,每10秒对服务器做一次请求,没响应就告警就可以了
千山独行 2014-11-18
  • 打赏
  • 举报
回复
引用 3 楼 zhang98722 的回复:
推荐两种: 1.jvm监控,本地一个守护进程,连接本地所有java进程,获取jvm信息,上报给你的监控中心,可以获取cpu,内存,gc、线程数、cpu使用等信息,这个能判断jvm信息 2.做一个公共的框架,提供方法调用频率汇报或者自己心跳汇报,这个是业务层次的心跳,是相对更准确的 一般大的集群,都离不开这两种监控
按第一种办法,用ganglia这个软件就可以吧
zhang98722 2014-11-18
  • 打赏
  • 举报
回复
推荐两种: 1.jvm监控,本地一个守护进程,连接本地所有java进程,获取jvm信息,上报给你的监控中心,可以获取cpu,内存,gc、线程数、cpu使用等信息,这个能判断jvm信息 2.做一个公共的框架,提供方法调用频率汇报或者自己心跳汇报,这个是业务层次的心跳,是相对更准确的 一般大的集群,都离不开这两种监控
千山独行 2014-11-18
  • 打赏
  • 举报
回复
引用 1 楼 sunli880127 的回复:
这必须之前有做监控才可以吧,比如每台服务器有个jsp,你请求的时候,会返回一个ok。然后写个小脚本,每10秒对服务器做一次请求,没响应就告警就可以了
嗯,我觉得也是,得事先有一些监控或者配置,否则一个节点宕机,真是无法排查的

25,980

社区成员

发帖
与我相关
我的任务
社区描述
高性能WEB开发
社区管理员
  • 高性能WEB开发社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧