社区
Oracle 高级技术
帖子详情
oracle 11g rac aix平台下,节点2 crs服务莫名其妙关闭,求原因
ty_tarena_pger
2018-12-27 02:13:22
如题,aix 6.1 下面有套oracle 11g rac,在12月18日22点33分 节点2服务莫名其妙关闭,详情日志在百度网盘上:
https://pan.baidu.com/s/1f91yInJ2C6E8osIG5PtvbQ
...全文
310
回复
打赏
收藏
oracle 11g rac aix平台下,节点2 crs服务莫名其妙关闭,求原因
如题,aix 6.1 下面有套oracle 11g rac,在12月18日22点33分 节点2服务莫名其妙关闭,详情日志在百度网盘上: https://pan.baidu.com/s/1f91yInJ2C6E8osIG5PtvbQ
复制链接
扫一扫
分享
转发到动态
举报
写回复
配置赞助广告
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复
打赏红包
O
rac
le
RAC
Database 11.1.0.6监听故障案例
晚上接到电话,客户的一套核心
O
rac
le
RAC
数据库连接不上,连接时报无监听程序,客户的
O
rac
le
RAC
版本为11.1.0.6,
平台
为
AIX
6.1.05,使用了IBM HACMP 5.5.0.8。 当我远程过去的时候,发现
节点
2已经没有任何
o
rac
le
用户的进程,且concurrent的vg没有激活,HACMP的
服务
也offline。 另一个
节点
O
rac
le
的实例是正常的,且有部分
服务
器进程依然在工作,但是本地监听器出现了故障,导致新的连接无法连接到实例,通过
crs
_stat -t看到两个实例的监听也都是OFFLINE状态。 在
节点
上并没有发现有LISTENER进程,
数据库项目组日常运维及应急故障处理手册.docx
常见问题及处理方案 CPU使用率高的问题 通过操作系统命令top topas glance等查看top进程号,确认是系统进程还是
o
rac
le
应用进程,查询当前top进程执行的操作和sql语句进行分析。 根据进程号获取正在执行的sql SELECT a.osuser, a.username,b.address,b.hash_value, b.sql_text from v$session a, v$sqltext b, v$process p where p.spid = &spid and p.addr = a.paddr and a.STATUS = 'ACTIVE' and a.sql_address =b.address order by address, piece; 数据库无法连接 数据库无法连接,一般可能是如下
原因
造成: (1)数据库宕了 (2)监听异常 (3)数据库挂起 (4)归档目录满 (5)数据库或应用主机的网卡出现问题不能正常工作 (6)应用主机到数据库主机的网络出现问题。 1、数据库宕了 立即启动数据库。 Startup 2、监听异常 此时一般体现为: 监听进程占用CPU资源大;d 监听日志异常。 此时,立即重启监听,监听重启一般能在1分钟之内完成。 Lsnrctl restart 3、数据库挂起 立即重启数据库。 Startup 4、归档目录满 (1)在没有部署OGG数据同步的情况下,立即清理归档日志文件。 (2)如果部署了OGG数据同步,查看OGG正在读取的归档日志文件,立即 清理OGG不再需要的日志文件。 5、数据库或应用主机的网卡出现问题不能正常工作。 立即联系主机工程师处理。 6、应用主机到数据库主机的网络出现问题。 立即联系网络维护人员查看。
CRS
/GI无法启动 对于10g及
11g
R1版本的
CRS
问题 1、进入/tmp目录下,看是否产生了
crs
ctl.xxxxx文件 如果有的话,看文件内容,一般会提示OCR无法访问,或者心跳IP无法 正常绑定等信息。 2、如果/tmp目录下没有
crs
ctl.xxxxx文件 此时查看ocssd.log文件,看是否能从中得到有价值的信息。 可能的问题:网络心跳不通。 3、/tmp目录无
crs
ctl.xxxxx且日志中没有报错信息,只有停
CRS
时的日志信 息。 此时可能是
RAC
两个
节点
对并发裸设备的访问有问题,此时考虑: (1)停掉两个
节点
的
CRS
。 (2)两个
节点
先同时去激活并发VG,然后再激活VG。 (3)重新启动
CRS
。 对于
11g
R2的GI问题 分析$GRID_HOME/log/nodename目录下的日志文件,看是否能从中找出无法启动的
原因
。 常见问题: 1、心跳IP不同。 2、ASM实例无法启动。 对
CRS
的故障诊断和分析,参加本文档中
RAC
部分的MOS文档. 数据库响应慢 应急处理步骤: (1)找到占用CPU资源大的sql或者模块,然后停掉此应用模块。 (2)如果属于由于种种
原因
引起的数据库hang住情况,立即重启数据 库,此时重启需要约15分钟时间。 重要说明: 如果重启数据库的话,会有如下负面影响: (1)要kill掉所有连接到数据库中的会话,所有会话都会回滚。 (2)立即重启的话,不能获取并保留分析数据库挂起
原因
的信息,在后续分析问题时,没有足够信息用于分析问题产生的根本
原因
。 一般正常重启的话,都需要手动获取用于分析数据库重启
原因
的信息,以便编写分析报告,但是在最长情况下,获取日志信息可能就要40分钟时间。此时一般做systemstate dump,且如果是
rac
情况的话,需要2个
节点
都做,且需要做2次或以上。 常规处理步骤,分如下几种情况处理: (1)所有业务模块都慢。 (2)部分业务模块慢。 (3)数据库hang住。 所有业务模块都慢 此时首先查看系统资源,看是否属于CPU资源使用率100%的问题,如果是,参考本章“CPU使用率高的问题”解决办法。如果系统资源正常,那很可能是数据库hang住了,此时参考数据库Hang部分。 部分业务模块慢 分析运行慢的模块的sql语句: (1)看是否是新上的sql。 (2)看执行计划是否高效。 (3)优化运行慢的模块的sql语句。 数据库hang住 应急处理方式:重启数据库。 常规处理方式: (1)分析alert日志,看是否能从alert日志中,可以很快找到引起问题的原 因。 (2)做3级别的hanganalyze,先做一次,然后隔一分钟以后再做一次。 并分析hanganalyze 生成的t
rac
e文件,看是否可以找到引起数据库hang 住的会话的信息。 (3)做systemstate dump 此时生成systemstate dump的时间会比较长,尤其是在会话数量较多的情 况下。且生成dump文件的大小较大,在G级别以上。在生成一次以 后,过一分钟再收集一次,另外如果是
RAC
,那么两个
节点
都需要收 集。 对hang做dump请参考“对数据库HANG做DUMP一章”。 数据误删除 此问题,没有应急办法,只能按如下步骤处理: 1、对于10g及以上版本,看是否可以通过闪回进行恢复。 2、查看测试环境数据库,看其中是否有需要的数据。 3、使用备份进行恢复,此方法一般花费时间较长。 快速shutdown数据库 1. 停止监听 2. 做一个检查点操作 SQL> alter system checkpoint; 3. 杀掉所有LOCAL=NO的操作系统进程
AIX
、HP-UX、Linux、Solaris: $ ps -ef|grep $
O
RAC
LE
_SID| grep LOCAL=NO | grep -v grep |awk '{print $2}'|xargs -i kill -9 {} Windows: SQL> select 'orakill ' || (select value from v$parameter where name = 'instance_name') || ' ' ||p.spid from v$process p, v$bgprocess bp where p.ADDR = bp.PADDR(+) and bp.PADDR is null and p.SPID is not null; 在命令行执行: C:\> orakill db1 7642 C:\> orakill db1 7644 4. 停止数据库 SQL> shutdown immediate 清理分布式事务 -- 9i需要设置_sum_debug_mode SQL> alter session set "_smu_debug_mode" = 4; alter session set nls_date_format='YYYY-MM-DD HH24:MI:SS'; column local_trna_id format a20 column global_tran_id format a25 SELECT LOCAL_TRAN_ID, GLOBAL_TRAN_ID, FAIL_TIME,STATE, MIXED FROM DBA_2PC_PENDING; LOCAL_TRAN_ID GLOBAL_TRAN_ID FAIL_TIME STATE MIX -------------- ------------------------- -------------------- ---------------- --- 12.29.103137 TAXIS.9572b613.12.29.103137 30-aug-2011 10:09:11 collecting no SQL> commit force '12.29.103137'; Commit complete. SQL> EXECUTE DBMS_TRANSACTION.PURGE_LOST_DB_ENTRY('12.29.103137'); PL/SQL procedure successfully completed. SQL> commit; -- 清理每个分布式事务都需要commit; 数据泵 1. 相关参数 PARALLEL参数考虑 可以设置成物理CPU(不是逻辑CPU)数的两倍数目,然后调整 对于Data Pump Export,PARALLEL参数必须要小于等于dump files数 对于Data Pump Import,PARALLEL不要比dump文件数大很多,可以大一些。这个参数也指定了导入时创建索引的并行度。 PARALLEL只允许在企业版使用。 nohup expdp system/manager schemas=kdjm DIRECTORY=DUMP_FILES PARALLEL=3 dumpfile=expCASES_%U.dmp logfile=nnsiexp2008_12_28.log & 通配符 %U,它指示文件将按需要创建,格式将为expCASES_nn.dmp,其中nn 从 01 开始,然后按需要向上增加 相关监控 -- 监控长事务 set linesize 120 column opname heading 'Operation' format a25 column target heading 'Target' format a15 column pct heading 'Percent' format 999 column es heading 'Elapsed|Seconds' format 999999 column tr heading 'Time|Remaining|Seconds' format 99999 column program format a30 column machine format a16 select L.sid ssid, substr(opname,1,25) opname, target, trunc((sofar/totalwork)*100) pct, to_char(60*sofar*8192/(24*60*(last_update_time-start_time))/1024/1024/60, '9999.0') Rate, round(elapsed_seconds/60, 2) es, round(time_remaining/60, 2) tr, program, machine from v$session_longops L, v$session s where time_remaining > 0 and l.sid = s.sid order by start_time; 坏块恢复 在遇到坏块的时,一般应按以下的流程来处理: 1 如果坏块的对象是索引,重建索引 2 使用备份来进行恢复 3 使用10231事件,或者DBMS_REPAIR.SKIP_CORRUPT_BLOCKS过程,让
o
rac
le
跳过坏块,然后用exp导出表和使用CREATE TABLE AS创建新表。 4 尝试使用SQL脚本将完好的数据复制到一个新表中,或者用EXP配合QUERY参数导出完好的数据。 5 手工修改坏块。 有两种情况是不能使用事件10231和DBMS_REPAIR.SKIP_CORRUPT_BLOCKS来跳过坏块的: 1 硬件问题造成OS层不能读取数据。 2 表中的非数据块,或者说是元数据块。比如段头,Extent Map块。这种坏块是不能跳过的。 3 在表中存在有其他异常的块,从单个块来看都没有损坏,checksum值也是正确的,但是有的块在段内却是有问题的。比
o
rac
le
更换
rac
节点
,
o
rac
le
11g
rac
如何删除损坏
节点
并添加新
节点
今天是2017年10月25日,之前遇到一个客户来电,大体问题是:
aix
5.3+
o
rac
le
11.2.0.1 数据库为
rac
。其中
节点
一因为本地主机磁盘损坏,导致
aix
系统损坏进而导致了
o
rac
le
rac
集群只剩一个
节点
的故障”对于该问题,其实很简单,只要在存活
节点
删除之前数据库实例,在集群中删除故障
节点
信息后,新增
节点
即可。但在整个过程中遇到了各类问题(个人根据当时现状了解到,在我接手之前,...
o
rac
le
11g
rac
如何删除损坏
节点
并添加新
节点
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
aix
安装
o
rac
le
10g
rac
,
AIX
53 安装
O
rac
le
10g
RAC
案例(1)
AIX
5.3安装
O
rac
le
10g
RAC
报错问题: 安装
CRS
,运行root.sh报错环境:操作系统:
AIX
5.3.8数据库:
O
rac
le
10.2.0一、出错现象在第二个
节点
运行root.sh[root@
aix
212 install]#/u01/
crs
_1/root.shWARNING: directory '/u01' is not owned by rootChecking to se...
Oracle 高级技术
3,491
社区成员
18,714
社区内容
发帖
与我相关
我的任务
Oracle 高级技术
Oracle 高级技术相关讨论专区
复制链接
扫一扫
分享
社区描述
Oracle 高级技术相关讨论专区
社区管理员
加入社区
获取链接或二维码
近7日
近30日
至今
加载中
查看更多榜单
社区公告
暂无公告
试试用AI创作助手写篇文章吧
+ 用AI写文章