如何分析linux宕机原因(或者说如何通过查日志分析宕机原因)

netsgo 2010-10-03 11:41:40
最近linux连续宕机2次(直接ping不通了)。我只是增加了一个vsftp服务,而且把端口从21改成了一个大数。
用last命令查看登机记录也没有异常。
查看message日志似乎也没有问题,大家一般是如何根据日志文件分析宕机原因的?
给点经验?
...全文
7579 10 打赏 收藏 转发到动态 举报
写回复
用AI写文章
10 条回复
切换为时间正序
请发表友善的回复…
发表回复
netsgo 2010-10-06
  • 打赏
  • 举报
回复
先谢谢楼上,回头我去查查。
steptodream 2010-10-05
  • 打赏
  • 举报
回复
每天凌晨4点02分的话 我怀疑跟系统的计划任务有关
/etc/cron.daily/目录下的计划任务脚本都是每天4点02分执行
/etc/cron.weekly目录下的计划任务脚本都是周日4点02分执行

因此你去排查一下这下面都有哪些脚本?除了系统自带的之外 你们是否添加过。

另外apache、mysql和tomcat的运行异常也可能导致宕机
你也要确认一下这几个服务器的日志文件 而且apache很可能是把日志处理的脚本放到/etc/cron.daily/下的

你把那么多日志发给我也没用啊 你找找各项日志里 有不正常的信息贴贴就行了
比如含有关键字critical error等等的信息

netsgo 2010-10-05
  • 打赏
  • 举报
回复
感谢楼上。
因为是托管,所以我们不可能跑到机房去自己重启,只能相信托管工作人员的描述,就是机器宕了,硬盘灯在闪,但是ping不通。不过我觉得应该相信他们的描述,毕竟是专业做托管服务的,而且他们有监控网络,第一时间也发邮件通知我们了。
我仔细看了messages文件(大概有4、5个),发现基本是系统重启机会自动新建一个messages文件(messages.1、messages.2....),有一个规律是,每次宕机时间是固定的:凌晨4点02分(但不是每天,也可能是一周,也可能是2、3天来一次,但是时间一定是凌晨4点02分)。
不过这个时候我似乎没有启动什么服务。
上一次宕机后我关了vsftp服务,现在机器几乎就是剩下apache、mysql和tomcat在运行。但是今天凌晨4点02分又宕了。唉。。。。不知怎么办。
有能帮忙的吗?我可以把所有日志文件(主要是messages文件)邮给你,谢谢!
steptodream 2010-10-04
  • 打赏
  • 举报
回复
日志上基本都是你服务器上DNS解析的相关信息 但是从这个信息里看 网络有不通的时候。
然后突然日志就断了 就像突然掉电一样
你说宕机了 你去机房开机的时候 机器什么状态 ?
netsgo 2010-10-04
  • 打赏
  • 举报
回复
先查了last命令,没有登录异常。
然后查看messages日志,附上宕机前的部分内容,就是9月30日凌晨4点宕的,帮忙分析一下,看看是何原因。

Sep 30 00:52:59 dilian named[2465]: network unreachable resolving '160.202.61.218.in-addr.arpa/PTR/IN': 2001:67c:e0::3#53
Sep 30 00:52:59 dilian named[2465]: network unreachable resolving 'NS1.APNIC.NET/A/IN': 2001:503:231d::2:30#53
Sep 30 00:52:59 dilian named[2465]: network unreachable resolving 'NS1.APNIC.NET/AAAA/IN': 2001:503:231d::2:30#53
Sep 30 00:52:59 dilian named[2465]: network unreachable resolving 'NS3.APNIC.NET/A/IN': 2001:503:231d::2:30#53
Sep 30 00:53:00 dilian named[2465]: network unreachable resolving 'ns.lnsyptt.net.cn/A/IN': 2001:dc7:1000::1#53
Sep 30 00:53:00 dilian named[2465]: network unreachable resolving 'ns.lnsyptt.net.cn/AAAA/IN': 2001:dc7:1000::1#53
Sep 30 00:53:00 dilian named[2465]: network unreachable resolving 'ns5.apnic.com/A/IN': 2001:dc0:2001:a:4608::59#53
Sep 30 00:53:00 dilian named[2465]: network unreachable resolving 'ns5.apnic.com/AAAA/IN': 2001:dc0:2001:a:4608::59#53
Sep 30 00:53:00 dilian named[2465]: network unreachable resolving 'ns4.apnic.com/A/IN': 2001:dc0:2001:a:4608::59#53
Sep 30 00:53:00 dilian named[2465]: network unreachable resolving 'ns4.apnic.com/AAAA/IN': 2001:dc0:2001:a:4608::59#53
Sep 30 02:28:12 dilian named[2465]: network unreachable resolving 'ftp.daum.net/A/IN': 2001:503:231d::2:30#53
Sep 30 02:55:05 dilian named[2465]: network unreachable resolving 'tinnie.arin.net/AAAA/IN': 2001:500:13::108#53
Sep 30 02:55:05 dilian named[2465]: network unreachable resolving 'NS1.APNIC.NET/A/IN': 2001:dc0:4001:1:0:1836:0:140#53
Sep 30 02:55:05 dilian named[2465]: network unreachable resolving 'ns4.APNIC.NET/A/IN': 2001:dc0:4001:1:0:1836:0:140#53
Sep 30 04:02:05 dilian named[2465]: unexpected RCODE (REFUSED) resolving 'ns2.bta.net.cn/A/IN': 202.106.196.233#53
Sep 30 04:02:05 dilian named[2465]: unexpected RCODE (REFUSED) resolving 'ns.bta.net.cn/A/IN': 202.106.196.233#53
Sep 30 04:02:05 dilian named[2465]: unexpected RCODE (REFUSED) resolving 'ns.bta.net.cn/AAAA/IN': 202.106.196.233#53
Sep 30 04:02:05 dilian named[2465]: unexpected RCODE (REFUSED) resolving 'ns2.bta.net.cn/AAAA/IN': 202.106.196.233#53
Sep 30 04:02:05 dilian named[2465]: network unreachable resolving 'NAME.JFK1.GBLX.NET/A/IN': 2001:450:2005:1::6#53
Sep 30 04:02:05 dilian named[2465]: network unreachable resolving 'NAME.JFK1.GBLX.NET/AAAA/IN': 2001:450:2005:1::6#53
Sep 30 04:02:05 dilian named[2465]: network unreachable resolving '36.206.161.60.in-addr.arpa/PTR/IN': 2001:dc0:1:0:4777::131#53
Sep 30 12:59:18 dilian syslogd 1.4.1: restart.
freetstar 2010-10-04
  • 打赏
  • 举报
回复
等主席来。。

一般是查看错误信息的。。。没事别开ftp服务,
netsgo 2010-10-04
  • 打赏
  • 举报
回复
别光学习,给点经验.
一品川 2010-10-04
  • 打赏
  • 举报
回复
学习了
steptodream 2010-10-04
  • 打赏
  • 举报
回复
。据机房说他们有专门的监控软件当ping宕时会自动发邮件给我们的相关负责人。我也确实看到是半夜4点半发来的ping宕邮件。
如果是突然断电能从日志判断吗?
-----------------------------
1.如果网络不通了 监控软件ping不通 一样会发邮件 而你的日志里就有网络不通的警告信息。
2.你们恢复的时候是怎么做的? 让机房的人帮你们重启? 你没向他们确认机器的各种指示灯的状况?
3.突然掉电系统哪有时间去记录详细日志?
netsgo 2010-10-04
  • 打赏
  • 举报
回复
机器是外网托管,所以重启时不知道是什么状态。据机房说他们有专门的监控软件当ping宕时会自动发邮件给我们的相关负责人。我也确实看到是半夜4点半发来的ping宕邮件。
如果是突然断电能从日志判断吗?

19,612

社区成员

发帖
与我相关
我的任务
社区描述
系统使用、管理、维护问题。可以是Ubuntu, Fedora, Unix等等
社区管理员
  • 系统维护与使用区社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧