was6.1 非正常关闭

轻轻地苹果 2016-03-18 06:27:06
平台:was6.1.0.31+ihs的垂直集群 os为 windows2003 x64 (域环境)
最近遇到一个奇怪的问题,was集群经常莫名其妙死掉,观察日志,发现dmgr关闭了nodeagent和其他集群成员的连接。但是ihs和plugin都是正常的。
dmgr的systemout.log日志有如下内容:

[16-3-15 17:44:02:443 CST] 00000036 DiscoveryRcv W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\nodeagent 连接已关闭。将从视图中除去成员。DCS 连接状态为 Discovery|Ptp, receiver closed。
[16-3-15 17:44:02:443 CST] 00000020 RmmPtpGroup W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\nodeagent 连接已关闭。将从视图中除去成员。DCS 连接状态为 View|Ptp, receiver closed。
[16-3-15 17:44:02:459 CST] 00000027 RoleViewLeade I DCSV8053I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:正在进行视图更改。已排除的成员为 [ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\nodeagent]。
[16-3-15 17:44:02:568 CST] 00000036 DiscoveryRcv W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\master 连接已关闭。将从视图中除去成员。DCS 连接状态为 Discovery|Ptp, receiver closed。
[16-3-15 17:44:02:568 CST] 00000020 RmmPtpGroup W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\master 连接已关闭。将从视图中除去成员。DCS 连接状态为 View|Ptp, receiver closed。
[16-3-15 17:44:02:584 CST] 00000027 RoleViewLeade I DCSV8053I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:正在进行视图更改。已排除的成员为 [ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\master ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\nodeagent]。
[16-3-15 17:44:02:584 CST] 00000020 VSyncAlgo1 I DCSV2004I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:已成功完成视图同步。视图标识为 (17:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr)。内部详细信息为 None。
[16-3-15 17:44:02:584 CST] 00000027 VSyncAlgo1 W DCSV0002W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:出现了意外的内部编程状态。内部详细信息: "There are queued incoming message in newViewOK. The messages will not be delivered"。异常为 <null>。
[16-3-15 17:44:02:600 CST] 00000027 CoordinatorIm I HMGR0206I: 协调程序是核心组 DefaultCoreGroup 的活动的协调程序。活动协调程序集为 [ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr]。
[16-3-15 17:44:02:615 CST] 0000000f ViewReceiver I DCSV1033I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:已凭视图标识 (18:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr) 确认了所有的新视图成员。视图通道类型为 View|Ptp。
[16-3-15 17:44:02:615 CST] 00000027 CoordinatorIm I HMGR0218I: 已安装新的核心组视图。核心组是 DefaultCoreGroup。视图标识为 (18:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr)。新的视图中的成员数为 5。
[16-3-15 17:44:02:615 CST] 00000027 CoreGroupMemb I DCSV8050I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:已安装新视图,标识 (18:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr),视图大小为 5 (AV=5, CD=5, CN=5, DF=7)
[16-3-15 17:44:02:725 CST] 00000036 DiscoveryRcv W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\ncMem01 连接已关闭。将从视图中除去成员。DCS 连接状态为 Discovery|Ptp, receiver closed。
[16-3-15 17:44:02:725 CST] 00000020 RmmPtpGroup W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\ncMem01 连接已关闭。将从视图中除去成员。DCS 连接状态为 View|Ptp, receiver closed。
[16-3-15 17:44:02:740 CST] 00000027 RoleViewLeade I DCSV8053I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:正在进行视图更改。已排除的成员为 [ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\ncMem01]。
[16-3-15 17:44:02:740 CST] 00000020 VSyncAlgo1 I DCSV2004I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:已成功完成视图同步。视图标识为 (18:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr)。内部详细信息为 None。
[16-3-15 17:44:02:756 CST] 00000027 CoordinatorIm I HMGR0206I: 协调程序是核心组 DefaultCoreGroup 的活动的协调程序。活动协调程序集为 [ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr]。
[16-3-15 17:44:02:756 CST] 00000027 CoordinatorIm I HMGR0218I: 已安装新的核心组视图。核心组是 DefaultCoreGroup。视图标识为 (19:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr)。新的视图中的成员数为 4。
[16-3-15 17:44:02:756 CST] 00000027 CoreGroupMemb I DCSV8050I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:已安装新视图,标识 (19:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr),视图大小为 4 (AV=4, CD=4, CN=4, DF=7)
[16-3-15 17:44:02:772 CST] 00000011 ViewReceiver I DCSV1033I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:已凭视图标识 (19:0.ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr) 确认了所有的新视图成员。视图通道类型为 View|Ptp。
[16-3-15 17:44:02:897 CST] 00000020 RmmPtpGroup W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\ncMem02 连接已关闭。将从视图中除去成员。DCS 连接状态为 View|Ptp, receiver closed。
[16-3-15 17:44:02:897 CST] 00000036 DiscoveryRcv W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\ncMem02 连接已关闭。将从视图中除去成员。DCS 连接状态为 Discovery|Ptp, receiver closed。
[16-3-15 17:44:02:897 CST] 00000027 RoleViewLeade I DCSV8053I: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095CellManager01\dmgr 处的 DCS 堆栈 DefaultCoreGroup:正在进行视图更改。已排除的成员为 [ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\ncMem02]。
发现dmgr将nodeagent和集群成员master以及ncMem01和ncMem02的连接都关闭了。

同时在集群成员master的日志如下:
[16-3-15 17:44:02:443 GMT+08:00] 000000dc DiscoveryTx W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\master 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\nodeagent 连接已关闭。将从视图中除去成员。DCS 连接状态为 Discovery|Ptp, transmitter closed。
[16-3-15 17:44:02:459 GMT+08:00] 00000017 RmmPtpGroup W DCSV1115W: 在成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\master 处的 DCS 堆栈 DefaultCoreGroup:成员 ahq-vsvr-00095Cell01\ahq-vsvr-00095Node01\nodeagent 连接已关闭。将从视图中除去成员。DCS 连接状态为 View|Ptp, receiver closed。
************ Start Display Current Environment ************

其他成员ncMem01和02的日志类似。
在日志中也没有出现诸如内存溢出之类的错误。这种情况不定时发生。重建过配置文件。不知道是什么原因引起的,有遇到过类似情况的朋友么?
本人仅仅限于was的基本操作,对深层的东西不甚了解。如果有能提供帮助的朋友,在此深表感谢!
...全文
2181 回复 打赏 收藏 转发到动态 举报
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

2,633

社区成员

发帖
与我相关
我的任务
社区描述
WebSphere 是 IBM 的软件平台。它包含了编写、运行和监视全天候的工业强度的随需应变 Web 应用程序和跨平台、跨产品解决方案所需要的整个中间件基础设施,如服务器、服务和工具。
社区管理员
  • WebSphere社区
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧