分布式資料系統-CAP理論

　　What’s CAP

　　CAP理論是針對分布式資料系統中，不能同時滿足Consistency、Availability、 Partition Tolerance三個要素，最多隻能滿足其中兩個要素

　　1.CAP理論關注的資料系統而不是廣義的分布式系統

　　2.CAP理論不代表我們的整個資料系統隻能滿足其中2個要素，可以更細粒度控制：系統的A功能子產品的資料選擇CP，而B功能子產品的資料選擇AP

　　1.一緻性(Consistency)

　　讀取資料都能保證傳回最新寫操作的結果

　　這是一種理想場景，因為在分布式系統中，網絡之間的資料同步也是需要時間的，是以我們對一緻性的修飾詞應該是“高”一緻性(代表資料同步的速度比較快，延遲時間比較短)，而不是絕對的一緻。

　　2.可用性(Availability)

　　讀取資料都能保證有限的時間内傳回正常的結果

　　1.逾時屬于不可用

　　2.傳回不能解析的錯誤也屬于不可用，例如OOM或者系統錯誤

　　3.分區容錯性(Partition Tolerance)

　　即使節點之間因為網絡等原因發生了分區故障，系統也能正常提供服務

　　網絡分區指因為網絡等原因，部分節點之間的通信發生了異常，導緻這些節點出現了孤立的情況，但是單個節點内部的網絡和狀态都是正常。

　　Why 2 out of 3?

　　1.CA：意即舍棄系統的可擴充性，而我們要設計的是分布式存儲系統，是以P是一定不能舍棄的，是以問題就變成了二選一(C和A中選一個)，是以CA的選擇在分布式資料系統中是不存在的

　　1.如果選擇了CA，舍棄了P，這種情況其實就是說不考慮分區容錯性，這種隻能是單點系統，否則如果是多節點系統的話因為網絡問題永遠無法避免，是以分區容錯是永遠不能舍棄的，是以CA在分布式資料系統的設計中是不存在的

　　2.如果選擇了CA，舍棄了P，假設有N1和N2兩個節點發生了分區的時候，如果要寫入資料，那麼為了保證C，系統需要禁止該寫入或者傳回error，這和我們選擇的CA中的A是相沖突的，是以CA在分布式資料系統的設計中是不存在的

　　2.AP：讀取資料的時候，為了保證系統的可用性，需要在規定的時間範圍内傳回正确的結果，但是因為舍棄了一緻性，這個時候傳回的資料是舊資料

　　3.CP：讀取資料的時候，為了保證資料的一緻性，需要等待最需資料同步完畢(可能會等待逾時)或者直接傳回錯誤(而逾時和錯誤都導緻了系統的不可用性)

　　4.CAP：由2和3得知，保證了A就沒法保證C，反之亦然，是以CAP這種選擇在分布式資料系統中是不存在的

　　綜上所述，CAP三要素隻能選擇其中兩項，更進一步說是隻能是AP和CP

　　How to choose?

　　CP和AP的選擇，其實是在一緻性和可用性之間的一個取舍和權衡

　　例1：微網誌的消息釋出，我們可以容忍某個明星發送的出軌消息晚點被我們看到，但是我們不太能容忍通路微網誌的時候報錯或者逾時了

　　例2：以QQ的個人資訊(昵稱、備注等資訊)和賬号密碼資訊(登入密碼等資訊)為例：針對個人資訊，我們可以容忍一定時間内看不到新修改的資料(舍棄一緻性)，但是必須要保證使用者可以去修改(選擇了可用性)，是以一般會選擇AP。但是針對賬号密碼等登入資訊，為了保證一緻性，我們可以容忍使用者等待一定的時間或者傳回一個錯誤(舍棄了可用性)，而不是登入到一個錯誤的賬号密碼上去，是以會選擇CP，當然對QQ這種量級的公司來說，舍棄可用性隻是相對自己的一緻性而言。

分布式資料系統-CAP理論

繼續閱讀

10分鐘帶你走遍建構區塊鍊全程

大資料筆試真題——第一章:通用面試題

Kbone基礎 - [01] 簡介

大資料算法：kNN算法

Hibernate一級緩存測試分析

如何講清楚Flex彈性盒模型？(中)

做為一名大資料新手，應該通過這篇文章詳細了解大資料

JAVA面試題系列：你必須要懂的Spring-Aop

科普：什麼是圖靈機？

過了所有技術面，卻倒在 HR 一個問題上

Java語言實作的有趣問題：你的鬥地主能拿多少炸？

Java-Python語言實作的有趣問題

90%的Java程式員都掉消息中間件的面試四個坑！

ElasticSearch底層搜尋引擎Lucene原理剖析

MySQL與Redis的差別與聯系詳解