一緻性雜湊演算法(consistent hashing)

轉自https://blog.csdn.net/cywosp/article/details/23397179

一緻性雜湊演算法在1997年由麻省理工學院提出的一種分布式哈希（DHT）實作算法，設計目标是為了解決網際網路中的熱點(Hot spot)問題，初衷和CARP十分類似。一緻性哈希修正了CARP使用的簡單雜湊演算法帶來的問題，使得分布式哈希（DHT）可以在P2P環境中真正得到應用。

一緻性hash算法提出了在動态變化的Cache環境中，判定雜湊演算法好壞的四個定義：

1、平衡性(Balance)：平衡性是指哈希的結果能夠盡可能分布到所有的緩沖中去，這樣可以使得所有的緩沖空間都得到利用。很多雜湊演算法都能夠滿足這一條件。

2、單調性(Monotonicity)：單調性是指如果已經有一些内容通過哈希分派到了相應的緩沖中，又有新的緩沖加入到系統中。哈希的結果應能夠保證原有已配置設定的内容可以被映射到原有的或者新的緩沖中去，而不會被映射到舊的緩沖集合中的其他緩沖區。

3、分散性(Spread)：在分布式環境中，終端有可能看不到所有的緩沖，而是隻能看到其中的一部分。當終端希望通過哈希過程将内容映射到緩沖上時，由于不同終端所見的緩沖範圍有可能不同，進而導緻哈希的結果不一緻，最終的結果是相同的内容被不同的終端映射到不同的緩沖區中。這種情況顯然是應該避免的，因為它導緻相同内容被存儲到不同緩沖中去，降低了系統存儲的效率。分散性的定義就是上述情況發生的嚴重程度。好的雜湊演算法應能夠盡量避免不一緻的情況發生，也就是盡量降低分散性。

4、負載(Load)：負載問題實際上是從另一個角度看待分散性問題。既然不同的終端可能将相同的内容映射到不同的緩沖區中，那麼對于一個特定的緩沖區而言，也可能被不同的使用者映射為不同的内容。與分散性一樣，這種情況也是應當避免的，是以好的雜湊演算法應能夠盡量降低緩沖的負荷。

在分布式叢集中，對機器的添加删除，或者機器故障後自動脫離叢集這些操作是分布式叢集管理最基本的功能。如果采用常用的hash(object)%N算法，那麼在有機器添加或者删除後，很多原有的資料就無法找到了，這樣嚴重的違反了單調性原則。接下來主要講解一下一緻性雜湊演算法是如何設計的：

環形Hash空間

按照常用的hash算法來将對應的key哈希到一個具有2^32次方個桶的空間中，即0~(2^32)-1的數字空間中。現在我們可以将這些數字頭尾相連，想象成一個閉合的環形。如下圖

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

把資料通過一定的hash算法處理後映射到環上

現在我們将object1、object2、object3、object4四個對象通過特定的Hash函數計算出對應的key值，然後散列到Hash環上。如下圖：

Hash(object1) = key1；

Hash(object2) = key2；

Hash(object3) = key3；

Hash(object4) = key4；

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

将機器通過hash算法映射到環上

在采用一緻性雜湊演算法的分布式叢集中将新的機器加入，其原理是通過使用與對象存儲一樣的Hash算法将機器也映射到環中（一般情況下對機器的hash計算是采用機器的IP或者機器唯一的别名作為輸入值），然後以順時針的方向計算，将所有對象存儲到離自己最近的機器中。

假設現在有NODE1，NODE2，NODE3三台機器，通過Hash算法得到對應的KEY值，映射到環中，其示意圖如下：

Hash(NODE1) = KEY1;

Hash(NODE2) = KEY2;

Hash(NODE3) = KEY3;

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

通過上圖可以看出對象與機器處于同一哈希空間中，這樣按順時針轉動object1存儲到了NODE1中，object3存儲到了NODE2中，object2、object4存儲到了NODE3中。在這樣的部署環境中，hash環是不會變更的，是以，通過算出對象的hash值就能快速的定位到對應的機器中，這樣就能找到對象真正的存儲位置了。

機器的删除與添加

普通hash求餘算法最為不妥的地方就是在有機器的添加或者删除之後會照成大量的對象存儲位置失效，這樣就大大的不滿足單調性了。下面來分析一下一緻性雜湊演算法是如何處理的。

1. 節點（機器）的删除

以上面的分布為例，如果NODE2出現故障被删除了，那麼按照順時針遷移的方法，object3将會被遷移到NODE3中，這樣僅僅是object3的映射位置發生了變化，其它的對象沒有任何的改動。如下圖：

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

2. 節點（機器）的添加

如果往叢集中添加一個新的節點NODE4，通過對應的雜湊演算法得到KEY4，并映射到環中，如下圖：

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

通過按順時針遷移的規則，那麼object2被遷移到了NODE4中，其它對象還保持這原有的存儲位置。通過對節點的添加和删除的分析，一緻性雜湊演算法在保持了單調性的同時，還是資料的遷移達到了最小，這樣的算法對分布式叢集來說是非常合适的，避免了大量資料遷移，減小了伺服器的的壓力。

平衡性

根據上面的圖解分析，一緻性雜湊演算法滿足了單調性和負載均衡的特性以及一般hash算法的分散性，但這還并不能當做其被廣泛應用的原由，因為還缺少了平衡性。下面将分析一緻性雜湊演算法是如何滿足平衡性的。hash算法是不保證平衡的，如上面隻部署了NODE1和NODE3的情況（NODE2被删除的圖），object1存儲到了NODE1中，而object2、object3、object4都存儲到了NODE3中，這樣就照成了非常不平衡的狀态。在一緻性雜湊演算法中，為了盡可能的滿足平衡性，其引入了虛拟節點。

——“虛拟節點”（ virtual node ）是實際節點（機器）在 hash 空間的複制品（ replica ），一實際個節點（機器）對應了若幹個“虛拟節點”，這個對應個數也成為“複制個數”，“虛拟節點”在 hash 空間中以hash值排列。

以上面隻部署了NODE1和NODE3的情況（NODE2被删除的圖）為例，之前的對象在機器上的分布很不均衡，現在我們以2個副本（複制個數）為例，這樣整個hash環中就存在了4個虛拟節點，最後對象映射的關系圖如下：

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

根據上圖可知對象的映射關系：object1->NODE1-1，object2->NODE1-2，object3->NODE3-2，object4->NODE3-1。通過虛拟節點的引入，對象的分布就比較均衡了。那麼在實際操作中，正真的對象查詢是如何工作的呢？對象從hash到虛拟節點到實際節點的轉換如下圖：

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

“虛拟節點”的hash計算可以采用對應節點的IP位址加數字字尾的方式。例如假設NODE1的IP位址為192.168.1.100。引入“虛拟節點”前，計算 cache A 的 hash 值：

Hash(“192.168.1.100”);

引入“虛拟節點”後，計算“虛拟節”點NODE1-1和NODE1-2的hash值：

Hash(“192.168.1.100#1”); // NODE1-1

Hash(“192.168.1.100#2”); // NODE1-2

參考：

[1] http://blog.huanghao.me/?p=14

一緻性雜湊演算法(consistent hashing)一緻性雜湊演算法(consistent hashing)

一緻性雜湊演算法(consistent hashing)

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希