我用两台机器做集群测试:A: 172.16.3.28    管理节点、数据节点、SQL节点
B: 172.16.3.27    数据节点、SQL节点机器A承担三种角色,管理节点的启动配置为:
[NDBD DEFAULT]
NoOfReplicas=2[MYSQLD DEFAULT]
[NDB_MGMD DEFAULT]
[TCP DEFAULT]# Managment Server
[NDB_MGMD]
hostname=172.16.3.28
datadir= D:\mysql-cluster-noinstall\data# Storage Engines
[NDBD]
hostname=172.16.3.28
datadir= D:\data[NDBD]
hostname=172.16.3.27
datadir= D:\data# SQL Engines
[MYSQLD]
hostname=172.16.3.28[MYSQLD]
hostname=172.16.3.27数据和SQL节点在my.ini中的配置:
[client]
#password = your_password
port = 3306
socket = /tmp/mysql.sock# The MySQL server
[mysqld]
port = 3306
socket = /tmp/mysql.sock
skip-locking
key_buffer_size = 16K
max_allowed_packet = 1M
table_open_cache = 4
sort_buffer_size = 64K
read_buffer_size = 256K
read_rnd_buffer_size = 256K
net_buffer_length = 2K
thread_stack = 128Kserver-id = 2#SQL群集节点
ndbcluster
ndb-connectstring=172.16.3.28[mysqldump]
quick
max_allowed_packet = 16M[mysql]
no-auto-rehash[myisamchk]
key_buffer_size = 8M
sort_buffer_size = 8M[mysqlhotcopy]
interactive-timeout#NDB集群节点
[mysql_cluster]
ndb-connectstring=172.16.3.28所有节点启动成功同步也成功了。然后我放置不管,长时间后,就有一个数据节点退出了,退出时的一些日志如下:数据节点退出前部分日志:(172.16.3.27)
2011-01-05 08:54:42 [ndbd] INFO     -- Watchdog: User time: 37596241  System tim
e: 172693107
2011-01-05 08:54:42 [ndbd] WARNING  -- Ndb kernel thread 0 is stuck in: Job Hand
ling elapsed=6692
2011-01-05 08:54:42 [ndbd] INFO     -- Watchdog: User time: 37596241  System tim
e: 172693107
2011-01-05 08:54:42 [ndbd] WARNING  -- Ndb kernel thread 0 is stuck in: Job Hand
ling elapsed=6801
2011-01-05 08:54:42 [ndbd] INFO     -- Watchdog: User time: 37596241  System tim
e: 172693107
2011-01-05 08:54:42 [ndbd] INFO     -- Arbitrator decided to shutdown this node
2011-01-05 08:54:42 [ndbd] INFO     -- QMGR (Line: 5532) 0x00000002
error=2305
2011-01-05 08:54:42 [ndbd] INFO     -- Error handler shutting down system
2011-01-05 08:54:42 [ndbd] INFO     -- Error handler shutdown completed - exitin
g
2011-01-05 08:54:42 [ndbd] ALERT    -- Node 3: Forced node shutdown completed.
2011-01-05 08:54:42 [ndbd] WARNING  -- Unable to report shutdown reason to 172.1
6.3.28:1186: Could not connect to socket : Unable to connect with connect string
: nodeid=0,172.16.3.28:1186管理节点在这个时间段好像都没有关于 Node 3 出错的提示:
2011-01-04 19:35:17 [MgmtSrvr] INFO     -- Node 2: Local checkpoint 32 started.
Keep GCI = 16356 oldest restorable GCI = 16356
2011-01-04 19:35:21 [MgmtSrvr] INFO     -- Node 2: Local checkpoint 32 completed2011-01-05 08:57:28 [MgmtSrvr] INFO     -- Node 2: Node 5 Connected
2011-01-05 08:57:28 [MgmtSrvr] INFO     -- Node 2: Node 5: API mysql-5.1.44 ndb-
7.1.3
节点3出错是在08:54:42 左右,但管理节点从19:35:21 到  08:57:28 之间没有关于节点3 的信息。
查看状态显示:
[ndbd(NDB)]     2 node(s)
id=2    @172.16.3.28  (mysql-5.1.44 ndb-7.1.3, Nodegroup: 0, Master)
id=3 (not connected, accepting connect from 172.16.3.27)[ndb_mgmd(MGM)] 1 node(s)
id=1    @172.16.3.28  (mysql-5.1.44 ndb-7.1.3)[mysqld(API)]   2 node(s)
id=4    @172.16.3.28  (mysql-5.1.44 ndb-7.1.3)
id=5    @172.16.3.27  (mysql-5.1.44 ndb-7.1.3)
 可以看到数据节点即节点3已经退出了。而另外一个数据节点一直在工作 .....
 不知道是什么原因导致的。 另外,数据节点日志经常出现的 
(1)[ndbd] WARNING  -- Ndb kernel thread 0 is stuck in: Job Handling elapsed=
(2)[ndbd] INFO     -- Watchdog: User time: 50172144  System time: 93133920
     2011-01-05 09:41:53 [ndbd] WARNING  -- Watchdog: Warning overslept 240 ms, expected 100 ms.
     WARNING: timerHandlingLab now: 12938665315924 sent: 12938665315874 diff: 50
     WARNING: timerHandlingLab now: 12938665318097 sent: 12938665318037 diff: 60
(3)[ndbd] INFO     -- findNeighbours from: 4419 old (left: 2 right: 2) new (65535 65535)是怎么回事?

解决方案 »

  1.   

    Come on , 给点力好不好!别藏着窝着嘛!!
      

  2.   

    我现在遇到了和你一样的问题
    我的管理节点里面很多这样的记录:
    2011-09-30 11:07:44 [ndbd] INFO     -- Watchdog: User time: 2520  System time: 2007
    2011-09-30 11:07:44 [ndbd] WARNING  -- Watchdog: Warning overslept 209 ms, expected 100 ms.
    WARNING: timerHandlingLab now: 7210753 sent: 7210621 diff: 132
    WARNING: timerHandlingLab now: 7211530 sent: 7211480 diff: 50
    WARNING: timerHandlingLab now: 7232820 sent: 7232762 diff: 58
    WARNING: timerHandlingLab now: 7239789 sent: 7239719 diff: 70
    WARNING: timerHandlingLab now: 7241747 sent: 7241695 diff: 52
    WARNING: timerHandlingLab now: 7254896 sent: 7254830 diff: 66
    WARNING: timerHandlingLab now: 7255772 sent: 7255713 diff: 59
    WARNING: timerHandlingLab now: 7262534 sent: 7262480 diff: 54
    WARNING: timerHandlingLab now: 7263020 sent: 7262970 diff: 50
    WARNING: timerHandlingLab now: 7264455 sent: 7264399 diff: 56数据节点的出错信息是:
    Time: Friday 30 September 2011 - 09:44:22
    Status: Temporary error, restart node
    Message: Node lost connection to other nodes and can not form a unpartitioned cluster, please investigate if there are error(s) on other node(s) (Arbitration error)
    Error: 2305
    Error data: Arbitrator decided to shutdown this node
    Error object: QMGR (Line: 5595) 0x00000002
    Program: ndbd
    Pid: 2023
    Version: mysql-5.1.47 ndb-7.1.5
    Trace: /data/mysqldata/ndb_4_trace.log.11
    ***EOM***Time: Friday 30 September 2011 - 11:30:37
    Status: Temporary error, restart node
    Message: Node lost connection to other nodes and can not form a unpartitioned cluster, please investigate if there are error(s) on other node(s) (Arbitration error)
    Error: 2305
    Error data: Arbitrator decided to shutdown this node
    Error object: QMGR (Line: 5595) 0x00000002
    Program: ndbd
    Pid: 3667
    Version: mysql-5.1.47 ndb-7.1.5
    Trace: /data/mysqldata/ndb_4_trace.log.12
      

  3.   

    改过config.ini中的参数:datamemory/indexmemory之后,也出现上面的问题,不知道是怎么回事?以前从没有出现过的啊。