因為主機時間不同步導緻的hbase zookeeper 節點當機奔潰一例

前幾天，更新hadoop/hbase 叢集，新添加了幾十台機器，

硬體部門，安裝好主機os 後就傳遞給我們了，

安裝好軟體環境，配置好，就啟動接入叢集了，運作了一個禮拜，系統運作正常。

昨天的時候淘汰一台舊機器，上面跑了zookeeper ，需要準備一個新的zookeeper 節點來代替，如實就找了一台hbase 節點上啟動了zookeeper

這個時候問題來了， zookeeper 啟動後總是在報錯，一直在确定自己的狀态。

[code]

2015-07-01 17:43:10,666 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 400

2015-07-01 17:43:11,066 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification time out: 800

2015-07-01 17:43:11,482 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 4, my id = 6, error =

java.net.SocketException: Connection reset

at java.net.SocketInputStream.read(SocketInputStream.java:168)
    at java.net.SocketInputStream.read(SocketInputStream.java:182)
    at java.io.DataInputStream.readInt(DataInputStream.java:370)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager$RecvWorker.run(QuorumCnxManager.java:747)

2015-07-01 17:43:11,485 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupting SendWorker

2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Interrupted while waiting for message on queue

java.lang.InterruptedException

at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.reportInterruptAfterWait(AbstractQueuedSynchronizer.java:1961)
    at java.util.concurrent.locks.AbstractQueuedSynchronizer$ConditionObject.awaitNanos(AbstractQueuedSynchronizer.java:2038)
    at java.util.concurrent.ArrayBlockingQueue.poll(ArrayBlockingQueue.java:342)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager.pollSendQueue(QuorumCnxManager.java:831)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager.access$500(QuorumCnxManager.java:62)
    at org.apache.zookeeper.server.quorum.QuorumCnxManager$SendWorker.run(QuorumCnxManager.java:667)

2015-07-01 17:43:11,488 INFO org.apache.zookeeper.server.quorum.FastLeaderElection: Notification: 6 (n.leader), 0x0 (n.zxid), 0x1 (n.round), LOOKING (n.state), 6 (n.sid), 0x0 (n.peerEPoch), LOOKING (my state)

2015-07-01 17:43:11,488 WARN org.apache.zookeeper.server.quorum.QuorumCnxManager: Connection broken for id 5, my id = 6, error =

java.io.EOFException

[/code]

當時想，沒有道理，新機加叢集的時候，我們也是新增了2個

買QQ号碼

zookeeper 節點，就直接加進去了，運作ok 。

想想，要不把hbase 的這個節點也重新開機下，看看什麼情況。

于是就是重新開機了hbase 的節點，這下問題來了：

org.apache.hadoop.hbase.ClockOutOfSyncException: org.apache.hadoop.hbase.ClockOutOfSyncException: Server hadoop-8-25,60020,1435724000483 has been rejected; Reported time is too far out of sync with master. Time difference of 30737ms > max allowed of 30000ms

at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:39)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:27)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:513)
    at org.apache.hadoop.ipc.RemoteException.instantiateException(RemoteException.java:95)
    at org.apache.hadoop.ipc.RemoteException.unwrapRemoteException(RemoteException.java:79)
    at org.apache.hadoop.hbase.regionserver.HRegionServer.reportForDuty(HRegionServer.java:1864)
    at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:671)
    at java.lang.Thread.run(Thread.java:619)

節點起不來，無法接入叢集了，已啟動，然後退出了，然後留下pid 檔案程序退出。

日志就報上面的錯誤。

一般情況先我們主機系統都是安裝了時間同步的，是以處理問題的時候根本就沒有從主機時間不同這個方面來考慮，認為是系統配置什麼方面除問題了，走了一些彎路。

一直無解，最後還是看看時間同步吧，一看問題來了， hbase 節點比 namenode 節點時慢了30多秒，正好應對了上面的時間的告警。

然後改了時間，這下ok 了，節點直接就加進去了。

通知硬體部門，配置時間同步，結果第二天早上整個系統裡新加的機器，除了新修改過那台外，都掉線了，原來昨天硬體部門配置的ntp 服務同步除問題，新加機器時間都慢了超過30秒了。

趕緊處理掉。

時間完成同步後，整個叢集就可以起來了。起來後，因為還有有節點是正常的，導緻資料不均勻了，性能上冒了一會尖尖，然後就平穩了。

記錄下這個case 給兄弟們一個提醒。

因為主機時間不同步導緻的hbase zookeeper 節點當機奔潰一例

繼續閱讀

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

因為主機時間不同步導緻的hbase zookeeper 節點當機奔潰 一例

繼續閱讀

因為主機時間不同步導緻的hbase zookeeper 節點當機奔潰一例