本月 11 日 13 時 13 分到 15 時,google 位于美國資料中心的 app engine 服務出現大面積故障。其中 3% 的應用出錯機率超過 50%,18% 的應用通路出錯機率在 10% 到 50% 之間,14% 的應用出錯機率在 1% 到 10% 之間,有 2% 的應用出錯率在 1% 以下但依然高于正常水準。剩餘 63% 的應用通路正常。
昨天 google 在其雲服務官方日志中公開了故障原因,原來隻因為工程師們在例行維護時同時做了兩件事。
出于負載均衡的考慮,googe 的工程師配置了新的資料中心,把老資料中心一定比例的 app 遷移到了新的資料中心,然後把流量從之前的伺服器導向新的資料中心。
至此相安無事,但不湊巧的是,資料中心的多台路由器正在軟體更新,需要滾動式重新開機,網絡流量處理能力不如平常。
同時,新遷移的許多應用由于啟動緩慢,導緻舊伺服器大量重複向新伺服器發送啟動應用的請求,進一步加重路由器負載,最終造成偶然丢失外部使用者的通路。
對此意外,google 方面表示将會加大對硬體的投入,修正導入流量的方式,并修改針對新伺服器的重試請求。