数据库oracle 9i 9.2.0.4打9.2.0.7的补丁
系统:redhat as 4 u2
双机加一磁阵
做9i的rac,用的是裸设备
现在cm.log里出现:
oracm, version[ 9.2.0.2.0.47 ] started {Thu Oct 26 01:21:11 2006 }
KernelModuleName is hangcheck-timer {Thu Oct 26 01:21:11 2006 }
OemNodeConfig(): Network Address of node0: 10.1.2.236 (port 9998)
{Thu Oct 26 01:21:11 2006 }
OemNodeConfig(): Network Address of node1: 10.1.2.237 (port 9998)
{Thu Oct 26 01:21:11 2006 }
>WARNING: OemInit2: Opened file(/u01/app/oracle/oradata/shdb/CMQuorumFile 6), tid = main:2341088 file = oem.c, line = 491 {Thu Oct 26 01:21:11 2006 }
InitializeCM: ModuleName = hangcheck-timer {Thu Oct 26 01:21:11 2006 }
>ERROR: InitializeCM: query_module() failed, tid = main:2341088 file = cmstartup.c, line = 327 {Thu Oct 26 01:21:11 2006 }
Debug Hang :StartNMMon (PID=8355) Registered with watchdog daemon. {Thu Oct 26 01:21:11 2006 }
CreateLocalEndpoint(): Network Address: 10.1.2.237
{Thu Oct 26 01:21:11 2006 }
Debug Hang : ClusterListener (PID=8355) Registered withwatchdog daemon. {Thu Oct 26 01:21:11 2006 }
Debug Hang : CmConnectListener (PID=8355):Registered with watchdog daemon. {Thu Oct 26 01:21:11 2006 }
Debug Hang :SendingThread (PID=135159169): Registered with {Thu Oct 26 01:21:11 2006 }
Debug Hang :PollingThread (PID=135159169): Registered with {Thu Oct 26 01:21:11 2006 }
Debug Hang : DiskPingThread (PID=135159169): Registered with {Thu Oct 26 01:21:11 2006 }
UpdateNodeState(): node(1) added udpated {Thu Oct 26 01:21:13 2006 }
HandleUpdate(): SYNC(1) from node(0) completed {Thu Oct 26 01:21:13 2006 }
HandleUpdate(): NODE(0) IS ACTIVE MEMBER OF CLUSTER, INCARNATION(1) {Thu Oct 26 01:21:13 2006 }
HandleUpdate(): NODE(1) IS ACTIVE MEMBER OF CLUSTER, INCARNATION(2) {Thu Oct 26 01:21:13 2006 }
NMEVENT_RECONFIG [00][00][00][00][00][00][00][03] {Thu Oct 26 01:21:13 2006 }
Debug Hang : CMNodeListener(PID=8355) Registered with watchdog daemon. {Thu Oct 26 01:21:13 2006 }
Successful reconfiguration, 2 active node(s) node 0 is the master, my node num is 1 (reconfig 2) {Thu Oct 26 01:21:13 2006 }
Debug Hang :ClientProcListener (PID=8355):Registered with watchdog daemon. {Thu Oct 26 10:08:16 2006 }
>WARNING: ReadCommPort: socket closed by peer on recv()., tid = ClientProcListener:124308400 file = unixinc.c, line = 767 {Thu Oct 26 10:08:16 2006 }
Debug Hang :ClientProcListener (PID=8355) UnRegistered with watchdog daemon. {Thu Oct 26 10:08:16 2006 }
Debug Hang :ClientProcListener (PID=8355):Registered with watchdog daemon. {Thu Oct 26 10:08:16 2006 }
Debug Hang :ClientProcListener (PID=8355):Registered with watchdog daemon. {Thu Oct 26 10:08:16 2006 }
我已明明加载了hangcheck-timer
用lsmod也能看到hangcheck-timer加载了。但cm.log里死活都出现这样的日志:
InitializeCM: ModuleName = hangcheck-timer {Thu Oct 26 01:21:11 2006 }
>ERROR: InitializeCM: query_module() failed, tid = main:2341088 file = cmstartup.c, line = 327 {Thu Oct 26 01:21:11 2006 }
现在两台机虽都能正常启动,但是过七、八天,会一台一台的down掉,我都快崩溃了。请高手指点明路,我搜了很久,找到很多人都有提出这个问题,但就是没找到解决的办法,在metalink上也找到有这个bug的报告,但没看到有patch.