谷歌雲服務故障原因公開，隻因同時做了兩項更新

2021-11-08 16:29:00

本月 11 日 13 時 13 分到 15 時，google 位于美國資料中心的 app engine 服務出現大面積故障。其中 3% 的應用出錯機率超過 50%，18% 的應用通路出錯機率在 10% 到 50% 之間，14% 的應用出錯機率在 1% 到 10% 之間，有 2% 的應用出錯率在 1% 以下但依然高于正常水準。剩餘 63% 的應用通路正常。

昨天 google 在其雲服務官方日志中公開了故障原因，原來隻因為工程師們在例行維護時同時做了兩件事。

出于負載均衡的考慮，googe 的工程師配置了新的資料中心，把老資料中心一定比例的 app 遷移到了新的資料中心，然後把流量從之前的伺服器導向新的資料中心。

至此相安無事，但不湊巧的是，資料中心的多台路由器正在軟體更新，需要滾動式重新開機，網絡流量處理能力不如平常。

同時，新遷移的許多應用由于啟動緩慢，導緻舊伺服器大量重複向新伺服器發送啟動應用的請求，進一步加重路由器負載，最終造成偶然丢失外部使用者的通路。

對此意外，google 方面表示将會加大對硬體的投入，修正導入流量的方式，并修改針對新伺服器的重試請求。

谷歌雲服務故障原因公開，隻因同時做了兩項更新

繼續閱讀

centos上利用nginx配置tomcat負載均衡

NGINX_TOMCAT 負載均衡配置

我對SOA的認識以及心得

伺服器遠端控制輕松配

企業級負載均衡解決方案之六：UCloud四層負載均衡解決方案Vortex

[Cloud Networking Notes] Management and sharing of network infrastructure in cloud data centersTargets and MotivationsVL2 Design

配置ipvsadm服務

裸眼3D技術原理及單晶片解決方案

PHP工程師面臨成長瓶頸

cisco交換機指令彙總

分布式的Key-Value存儲系統Cassandra

Oracle實作高可用性的工具（負載均衡/故障切換）

2.6核心netfilter包截獲

25G/100G網卡選購指南

解讀2008年網絡技術熱詞之雲計算

nginx location中斜線的位置的重要性