天天看点

AIX 5.3下Oracle 10g RAC 启动故障--vip漂移

系统环境:

操作系统: AIX 5300-09

集群软件: CRS 10.2.0.1

数据库:   Oracle 10.2.0.1

系统架构图

<a href="http://s3.51cto.com/wyfs02/M02/26/B1/wKioL1NspizDELFmAAFqCT5td6k065.jpg" target="_blank"></a>

故障现象:

系统重启后,在节点上CRS 启动失败或CRS服务启动成功,CRS Resource无法ONLINE。

[root@aix213 racg] cat /etc/hosts

1

2

3

4

5

6

7

8

<code>127.0</code><code>.</code><code>0.1</code>               <code>loopback localhost      # loopback (lo0) name/address</code>

<code>192.168</code><code>.</code><code>8.214</code>   <code>aix214</code>

<code>192.168</code><code>.</code><code>8.106</code>   <code>aix106</code>

<code>192.168</code><code>.</code><code>8.213</code>   <code>aix213</code>

<code>192.168</code><code>.</code><code>8.115</code>   <code>aix213-vip</code>

<code>10.10</code><code>.</code><code>10.213</code>    <code>aix213-priv</code>

<code>192.168</code><code>.</code><code>8.113</code>   <code>aix214-vip</code>

<code>10.10</code><code>.</code><code>10.214</code>    <code>aix214-priv</code>

每个node都绑定了其他节点的vip ip ,vip ip address 绑定到了所有的节点上!

[oracle@aix214 ~]$ifconfig -a

<code>en0: flags=5e080863,c0&lt;UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),PSEG,LARGESEND,CHAIN&gt;</code>

<code>       </code><code>inet </code><code>192.168</code><code>.</code><code>8.214</code> <code>netmask </code><code>0xffffff00</code> <code>broadcast </code><code>192.168</code><code>.</code><code>8.255</code>

<code>inet </code><code>192.168</code><code>.</code><code>8.113</code> <code>netmask </code><code>0xffffff00</code> <code>broadcast </code><code>192.168</code><code>.</code><code>8.255</code>

<code>        </code><code>inet </code><code>192.168</code><code>.</code><code>8.115</code> <code>netmask </code><code>0xffffff00</code> <code>broadcast </code><code>192.168</code><code>.</code><code>8.255</code>

<code>        </code><code>tcp_sendspace </code><code>131072</code> <code>tcp_recvspace </code><code>65536</code> <code>rfc1323 </code><code>0</code>

[oracle@aix213 ~]$ifconfig -a

<code>       </code><code>inet </code><code>192.168</code><code>.</code><code>8.213</code> <code>netmask </code><code>0xffffff00</code> <code>broadcast </code><code>192.168</code><code>.</code><code>8.255</code>

<code>  </code><code>inet </code><code>192.168</code><code>.</code><code>8.113</code> <code>netmask </code><code>0xffffff00</code> <code>broadcast </code><code>192.168</code><code>.</code><code>8.255</code>

[root@aix214 /]$crsctl check crs

<code>CSS appears healthy</code>

<code>CRS appears healthy</code>

<code>EVM appears healthy</code>

[root@aix214 /]$crs_stat -t

9

10

11

12

13

<code>Name           Type           Target    State     Host        </code>

<code>------------------------------------------------------------</code>

<code>ora...</code><code>.13.</code><code>lsnr application    ONLINE    OFFLINE</code>

<code>ora.aix213.gsd application    ONLINE    OFFLINE</code>

<code>ora.aix213.ons application    ONLINE    OFFLINE               </code>

<code>ora.aix213.vip application    ONLINE    OFFLINE               </code>

<code>ora...</code><code>.14.</code><code>lsnr application    ONLINE    OFFLINE               </code>

<code>ora.aix214.gsd application    ONLINE    OFFLINE               </code>

<code>ora.aix214.ons application    ONLINE    OFFLINE               </code>

<code>ora.aix214.vip application    ONLINE    OFFLINE               </code>

<code>ora.prod.db    application    ONLINE    OFFLINE               </code>

<code>ora....d1.inst application    ONLINE    OFFLINE               </code>

<code>ora....d2.inst application    ONLINE    OFFLINE</code>

查看日志:

[root@aix213 racg]cd /u01/crs_1/log/aix213/racg

<code>[root</code><code>@aix213</code> <code>racg]$more ora.aix213.vip.log</code>

<code>Oracle Database 10g CRS Release </code><code>10.2</code><code>.</code><code>0.1</code><code>.</code><code>0</code> <code>Production Copyright </code><code>1996</code><code>, </code><code>2005</code> <code>Oracle.  All rig</code>

<code>hts reserved.</code>

<code>2014</code><code>-</code><code>05</code><code>-</code><code>09</code> <code>17</code><code>:</code><code>07</code><code>:</code><code>05.624</code><code>: [    RACG][</code><code>1</code><code>] [</code><code>385112</code><code>][</code><code>1</code><code>][ora.aix213.vip]: Invalid parameters, or </code>

<code>failed to bring up VIP (host=aix213)</code>

<code>2014</code><code>-</code><code>05</code><code>-</code><code>09</code> <code>17</code><code>:</code><code>07</code><code>:</code><code>05.624</code><code>: [    RACG][</code><code>1</code><code>] [</code><code>385112</code><code>][</code><code>1</code><code>][ora.aix213.vip]: clsrcexecut: env ORACLE</code>

<code>_CONFIG_HOME=/u01/crs_1</code>

<code>2014</code><code>-</code><code>05</code><code>-</code><code>09</code> <code>17</code><code>:</code><code>07</code><code>:</code><code>05.625</code><code>: [    RACG][</code><code>1</code><code>] [</code><code>385112</code><code>][</code><code>1</code><code>][ora.aix213.vip]: clsrcexecut: cmd = /u01</code>

<code>/crs_1/bin/racgeut -e _USR_ORA_DEBUG=</code><code>0</code> <code>54</code> <code>/u01/crs_1/bin/racgvip start aix213</code>

<code>2014</code><code>-</code><code>05</code><code>-</code><code>09</code> <code>17</code><code>:</code><code>07</code><code>:</code><code>05.625</code><code>: [    RACG][</code><code>1</code><code>] [</code><code>385112</code><code>][</code><code>1</code><code>][ora.aix213.vip]: clsrcexecut: rc = </code><code>1</code><code>, ti</code>

<code>me = </code><code>0</code><code>.345s</code>

<code>2014</code><code>-</code><code>05</code><code>-</code><code>09</code> <code>17</code><code>:</code><code>07</code><code>:</code><code>06.832</code><code>: [    RACG][</code><code>1</code><code>] [</code><code>385112</code><code>][</code><code>1</code><code>][ora.aix213.vip]: Invalid parameters, or </code>

......

初步判断是在节点上VIP配置有问题!

解决方法1:

1、关闭所有node上的nodeapps

[oracle@aix213 ~]$srvctl stop nodeapps -n  aix213

[oracle@aix213 ~]$srvctl stop nodeapps -n  aix214

[oracle@aix213 ~]$srvctl modify nodeapps  -A 192.168.8.115/255.255.255.0/en0 -n aix213 -o $ORACLE_HOME

[oracle@aix213 ~]$srvctl modify nodeapps  -A 192.168.8.113/255.255.255.0/en0 -n aix214 -o $ORACLE_HOME

2、停止所有节点的crs

[oracle@aix213 ~]$crsctl stop  crs

[oracle@aix214 ~]$crsctl stop crs

3、重新启动所有节点的crs

[oracle@aix213 ~]$crsctl start  crs

[oracle@aix214 ~]$crsctl start crs

解决方法2:

1、更新CRS中VIP信息

2、修改VIP

<code>[root</code><code>@aix214</code> <code>/]$srvctl modify nodeapps -n aix213 -o /u01/app/oracle/product/</code><code>10.2</code><code>.</code><code>0</code><code>/db_1/ -A </code><code>192.168</code><code>.</code><code>8.115</code><code>/</code><code>255.255</code><code>.</code><code>255.0</code><code>/en0</code>

<code>[root</code><code>@aix214</code> <code>/]$srvctl modify nodeapps -n aix214 -o /u01/app/oracle/product/</code><code>10.2</code><code>.</code><code>0</code><code>/db_1/ -A </code><code>192.168</code><code>.</code><code>8.113</code><code>/</code><code>255.255</code><code>.</code><code>255.0</code><code>/en0</code>

3、以root身份执行vipca

<a href="http://s3.51cto.com/wyfs02/M00/26/BB/wKioL1NsqdfwzjktABaoQqgmyBY106.jpg" target="_blank"></a>

4、重新启动CRS服务

<code>[root</code><code>@aix214</code> <code>/]$crsctl check crs</code>

<code>ora....</code><code>13</code><code>.lsnr application    OFFLINE   OFFLINE               </code>

<code>ora.aix213.gsd application    ONLINE    ONLINE    aix213      </code>

<code>ora.aix213.ons application    ONLINE    ONLINE    aix213      </code>

<code>ora.aix213.vip application    ONLINE    ONLINE    aix213      </code>

<code>ora....</code><code>14</code><code>.lsnr application    ONLINE    OFFLINE               </code>

<code>ora.aix214.gsd application    ONLINE    ONLINE    aix214      </code>

<code>ora.aix214.ons application    ONLINE    ONLINE    aix214      </code>

<code>ora.aix214.vip application    ONLINE    ONLINE    aix214      </code>

<code>ora....d1.inst application    OFFLINE   OFFLINE               </code>

手工启动Listener service:

<code>[root</code><code>@aix214</code> <code>/]$crs_stat |grep lsn</code>

<code>NAME=ora.aix213.LISTENER_AIX213.lsnr</code>

<code>NAME=ora.aix214.LISTENER_AIX214.lsnr</code>

<code>[root</code><code>@aix214</code> <code>/]$crs_start -f ora.aix214.LISTENER_AIX214.lsnr</code>

<code>Attempting to start `ora.aix214.LISTENER_AIX214.lsnr` on member `aix214`</code>

<code>Start of `ora.aix214.LISTENER_AIX214.lsnr` on member `aix214` succeeded.</code>

<code>[root</code><code>@aix214</code> <code>/]$crs_start -f ora.aix213.LISTENER_AIX213.lsnr</code>

<code>Attempting to start `ora.aix213.LISTENER_AIX213.lsnr` on member `aix213`</code>

<code>Start of `ora.aix213.LISTENER_AIX213.lsnr` on member `aix213` succeeded.</code>

至此CRS启动成功:

[oracle@aix213 ~]$crs_stat -t

<code>ora....</code><code>13</code><code>.lsnr application    ONLINE    ONLINE    aix213      </code>

<code>ora....</code><code>14</code><code>.lsnr application    ONLINE    ONLINE    aix214      </code>

<code>ora.prod.db    application    ONLINE    ONLINE    aix213      </code>

<code>ora....d1.inst application    ONLINE    ONLINE    aix213      </code>

<code>ora....d2.inst application    ONLINE    ONLINE    aix214</code>

@至此,问题基本解决

本文转自 客居天涯 51CTO博客,原文链接:http://blog.51cto.com/tiany/1408998,如需转载请自行联系原作者