一、非線性

我們先來介紹一個概念：非線性。這個概念在我們的生活中無處不在。

你要趕早上8點鐘的火車，如果6:30出發可以在7:00到達車站，于是你得到一個結論：隻要30分鐘就可以到達車站。

你早上想睡晚一點預計7:10出發，想着7:40可以到達車站。但是最可能的結果是你将錯過這趟火車。因為正好遇上早高峰，堵車導緻你至少需要花費1個小時才能到達車站。

一個小雪球的重量是100克，打雪仗時你被砸中100次，這對你不會造成任何影響。

但是如果你被10公斤的雪球砸中1次，這可能會對你造成嚴重的傷害。

這就是非線性。事物不是簡單的疊加關系，當達到某個臨界值時，會造成一種完全截然不同的結果。

二、秒殺系統

我們來分析一個網際網路的秒殺場景。假設你設計的秒殺系統當每秒30個人通路時，響應時間是10毫秒。即從使用者點選按鈕至得到結果這個過程，隻花費了10毫秒。這個時間的流逝基本上察覺不到，性能是不錯的。你感覺很好，繼續設計：

每秒30個通路量，響應時間10毫秒
每秒300個通路量，響應時間100毫秒
每秒3000個通路量，響應時間1000毫秒

如果你按照這個思路去做系統設計，将會發生重大的錯誤。因為當每秒3000個通路量發生時，系統的響應時間可能不是1000毫秒，而可能直接導緻系統崩潰，無法再處理任何的請求。最常見的場景就是當緩存系統失效時，導緻的系統雪崩：

當耗時低的緩存層出現故障時，流量直接打在了耗時高的資料庫層，使用者的等待時長就會增加
等待時長的增加導緻使用者更加頻繁去通路，更多的流量會打在資料庫層
這導緻使用者的等待時長進一步增加，再次導緻更頻繁通路
當通路量達到一個極限值時，造成系統崩潰，無法再處理任何請求

流量和響應時間絕不是簡單的疊加關系，當到達某個臨界值時，系統将直接崩潰。

三、黑天鵝與三體

歐洲人從來都認為隻有白天鵝，因為他們從來隻看到過白色的天鵝。

他們的這種想法有多堅定，那他們在澳洲發現黑色天鵝時，震撼就有多麼大。

這就是著名的黑天鵝事件的由來。黑天鵝事件指事前無法預知，一旦發生将具有巨大影響的不确定事件。

我們來分析一下歐洲人的白天鵝理論。他們采用的是歸納推理的方法，這也是科學實驗中常用的一種方法。

當他們沒有見到黑天鵝之前，認為隻存在白色天鵝是成立的。但當黑天鵝出現時，整個認知瞬間土崩瓦解。

一個更加值得關注的系統是混沌系統。這個系統最大的特點是，當一個微小的擾動發生時，會給整個系統帶來巨大的影響。典型混沌系統的展現就是蝴蝶效應和三體問題。

一隻蝴蝶揮動翅膀可以帶來一場飓風。

三個天體在互相的萬有引力作用下，運動軌迹無法預測，這也是劉慈欣《三體》三部曲的基礎設定。

處于混沌系統，不知道黑天鵝事件将在什麼時間，什麼地方，以什麼形式發生。

我們不知道7點鐘出發會被堵多久，不知道秒殺系統在開搶的瞬間會有多大的通路量，不知道某大V在微網誌上公布的消息會帶來多少激增的流量。

四、工程系統穩定性

我們來思考一個問題：怎樣保證一個工程系統的穩定性？有以下兩種做法：

思路1：考慮到所有意外情況，針對每一個意外的異常情況分别處理
思路2：接受無法預料到所有意外情況的現實，把兜底方案做好，保證即使出現極端情況，系統也不會崩潰

我們仔細分析思路1會發現這其實是一個悖論。

所謂意外情況就是意料之外的情況，無法預料的情況。如果被考慮到了，那麼也就不能稱之為意外情況了。

塔勒布在經典著作《反脆弱》一直想告訴我們：黑天鵝事件是無法預測的，極端意外情況是無法預測的，尾部風險雖然機率小，但破壞力卻極大。

我們無法預測會發生什麼故障，以及什麼時候發生。但面對不确定性，我們不會束手就擒，至少可以把系統保護好。

五、高可用政策

為了保證系統的穩定性和高可用性，我們需要采取一些政策。我認為高可用核心政策一般包含：備援+自動故障轉移政策，降級政策，延時政策，隔離政策。高可用實際應用方案多種多樣，但一般都在實施上述政策，進而建構一個穩定的高可用工程系統。

5.1 備援 + 自動故障轉移政策

最基本的備援政策就是主從模式。原理是準備兩台機器，部署了同一份代碼，在功能層面是相同的，都可以對外提供相同的服務。

一台機器啟動提供服務，這就是主伺服器。另一台機器啟動在一旁待命，不提供服務，随時監聽主伺服器的狀态，這就是從伺服器。當發現主伺服器出現故障時，從伺服器立刻替換主伺服器，繼續為使用者提供服務。

自動故障轉移政策是指當主系統發生異常時，應該可以自動探測到異常，并自動切換為備用系統。不應該隻依靠人工去切換成，否則故障處理時間會顯著增加。

5.2 降級政策

所謂降級政策，就是當系統遇到無法承受的壓力時，選擇暫時關閉一些非關鍵的功能，或者延時提供一些功能，把此刻所有的資源都提供給現在最關鍵的服務。

在秒殺場景中，下訂單就是最核心最關鍵的功能。

當系統壓力将要到達臨界值時，可以暫時先關閉一些非核心功能如查詢功能。

當秒殺活動結束後，再将暫時關閉的功能開啟。這樣既保證了秒殺活動的順利進行，也保護了系統沒有崩潰。

還有一種降級政策，當系統依賴的下遊服務出現錯誤，甚至已經完全不可用了，那麼此時就不能再調用這個下遊服務了，否則可能導緻雪崩。是以直接傳回兜底方案，把下遊服務直接降級。

5.3 延時政策

使用者下訂單成功後就需要進行支付。

假設秒殺系統下訂單每秒通路量是3000，我們來思考一個問題，有沒有必要将每秒3000次通路量的壓力傳遞給支付伺服器？

答案是沒有必要。

因為使用者秒殺成功後可以稍晚付款，比如可以跳轉到一個支付頁面，提示使用者隻要在10分鐘内支付完成即可。

這樣每秒3000次的通路量就被分攤至幾分鐘，有效保護了系統。技術架構還可以使用消息隊列做一個緩沖，讓支付服務按照自己的能力去處理業務。

5.4 隔離政策

實體隔離：應用分别部署在不同實體機、不同機房，資源不會互相影響。

線程隔離：不同的請求進行分類，交給不同線程池處理，當一類請求出現高耗時和異常，不影響另一類請求通路。

六、無所不備則無所不寡

《孫子兵法》虛實篇告訴我們一個道理：備前則後寡，備後則前寡，備左則右寡，備右則左寡，無所不備，則無所不寡。

力量集中在前，後面就空虛。力量集中在後，前面就空虛。力量集中在左，右面就空虛。力量集中在右，左面就空虛。如果力量分散在前後左右，那麼前後左右就都空虛。

不确定性分散在前後左右無法預測。我們不可能将精力分散在前後左右，但是技術人員至少可以做好一點：保護好系統。

作者：JAVA前線

連結：https://juejin.cn/post/7213744681419030583

來源：稀土掘金

從反脆弱角度說一說：技術系統高可用性政策

一、非線性

二、秒殺系統

三、黑天鵝與三體

四、工程系統穩定性

五、高可用政策

5.1 備援 + 自動故障轉移政策

5.2 降級政策

5.3 延時政策

5.4 隔離政策

六、無所不備則無所不寡

繼續閱讀

知識點 | 分庫分表情況下全局唯一主鍵的一種簡單實作

確定高可用性：Azure 托管應用程式的最佳實踐

大資料HDFSNameNode之間心跳檢查。由于NameNode之間心跳檢查在大資料NameNode中，心跳檢查是用于檢

如何建構一個高效、安全、穩定的大資料湖？資料湖是當今企業資料管理的重要方式之一，但是如何管理資料湖以及保證其運作的穩定性

沿海氮氣損失與上升系統中氮損失量一緻生物可利用的氮，如硝酸鹽、亞硝酸鹽或铵，由于浮遊植物吸收相對于供應的速度較快，是以限

HadoopHDFSSZKFC存儲機制。HadoopHDFSZKFC存儲機制HadoopHDFS，Hadoop大盤雞分布

深入淺出Redis：資料持久化提高可用性

大資料RMYARN高可用機制。大資料RMYAR高可用機制在大資料領域中，RMYARNManager是YARNYetAno

深入了解分布式資料庫：實作可擴充性和高可用性的關鍵

HIMA希馬|BCS解決方案目前，無數的工業爐正在世界各地運轉。但是，大多數工業爐背景的燃燒器控制系統都已過時。在運轉良

YarnProxyServer服務。在大資料領域中，Proxy甚至可以幫助用戶端通路和管理Yarn叢集。它的主要作用是在

一些常見的微服務開源注冊中心1.Eureka：Netflix開源的注冊中心，支援服務的自動注冊和發現，并提供負載均衡和故

StartDT已全面轉型為企業級服務，確定服務的可靠性、可用性和可服務性。劉瑩在“資料進化論”論壇上闡述了StartDT

大資料HiveServer2的高可用實作機制。HiveServer2是ApacheHive中負責處理用戶端請求的服務元件

Go程式設計語言是一門由Google開發的靜态強類型、編譯型、并發型，并具有垃圾回收功能的程式設計語言。它用批判吸收的眼光，融合

mysql high availability 概述