前幾天 ,更新hadoop/hbase 叢集, 新 添加了幾十台機器,
硬體部門,安裝好主機os 後就傳遞給我們了,
安裝好軟體環境,配置好,就啟動接入叢集了,運作了一個禮拜,系統運作正常。
昨天的時候淘汰一台舊機器,上面跑了zookeeper , 需要準備一個新的zookeeper 節點來代替,如實就找了一台hbase 節點上啟動了zookeeper
這個時候問題來了, zookeeper 啟動後總是在報錯, 一直在确定自己的狀态。
[code]
2015-07-01 17:43:10,666 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 400
2015-07-01 17:43:11,066 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 800
2015-07-01 17:43:11,482 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 4, my id = 6, error =
java.net.SocketException: Connection reset
at java.net.SocketInputStream.read(SocketInputStream.java:168)
at java.net.SocketInputStream.read(SocketInputStream.java:182)
at java.io.DataInputStream.readInt(DataInputStream.java:370)
at org.apache.zookeeper.server.quorum.QuorumCnxManager$RecvWorker.run(QuorumCnxManager.java:747)
2015-07-01 17:43:11,485 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupting SendWorker
2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupted while waiting for message on queue
java.lang.InterruptedException
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.reportInterruptAfterWait(AbstractQueuedSynchronizer.java:1961)
at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2038)
at java.util.concurrent.ArrayBlockingQueue.poll(ArrayBlockingQueue.java:342)
at org.apache.zookeeper.server.quorum.QuorumCnxManager.pollSendQueue(QuorumCnxManager.java:831)
at org.apache.zookeeper.server.quorum.QuorumCnxManager.access$500(QuorumCnxManager.java:62)
at org.apache.zookeeper.server.quorum.QuorumCnxManager$SendWorker.run(QuorumCnxManager.java:667)
2015-07-01 17:43:11,488 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification: 6 (n.leader), 0x0 (n.zxid), 0x1 (n.round), LOOKING (n.state), 6 (n.sid), 0x0 (n.peerEPoch), LOOKING (my state)
2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 5, my id = 6, error =
java.io.EOFException
[/code]
當時想,沒有道理,新機加叢集的時候,我們也是新增了2個
買QQ号碼zookeeper 節點,就直接加進去了,運作ok 。
想想,要不把hbase 的這個節點也重新開機下,看看什麼情況。
于是就是重新開機了hbase 的節點, 這下問題來了:
org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoop-8-25,60020,1435724000483 has been rejected; Reported time is too far out of sync with master. Time difference of 30737ms > max allowed of 30000ms
at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)
at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)
at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:79)
at org.apache.hadoop.hbase.regionserver.HRegionServer.reportForDuty(HRegionServer.java:1864)
at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:671)
at java.lang.Thread.run(Thread.java:619)
節點起不來,無法接入叢集了,已啟動, 然後退出了,然後留下pid 檔案 程序退出。
日志就報上面的錯誤。
一般情況先我們主機系統都是安裝了時間同步的,是以處理問題的時候根本就沒有從主機時間不同這個方面來考慮,認為是系統配置什麼方面除問題了,走了一些彎路。
一直無解, 最後還是看看時間同步吧,一看 問題來了, hbase 節點 比 namenode 節點時慢了30多秒, 正好應對了上面的時間的告警。
然後改了時間,這下ok 了,節點直接就加進去了。
通知硬體部門,配置時間同步, 結果第二天早上整個系統裡新加的機器, 除了新修改過那台外,都掉線了,原來昨天硬體部門配置的ntp 服務同步除問題,新加機器時間都慢了超過30秒了。
趕緊處理掉。
時間完成同步後,整個叢集就可以起來了。起來後,因為還有有節點是正常的,導緻資料不均勻了,性能上冒了一會尖尖,然後就平穩了。
記錄下這個case 給兄弟們一個提醒。