阿裡巴巴基礎設施的前身可以追溯至 2009年,振飛(今阿裡巴巴合夥人、高德總裁)作為救火隊員奉命組建淘寶技術保障部,那一年是天貓“雙 11”的第一個年頭,也是阿裡雲成立的元年。那時候振飛面臨的是焦頭爛額的穩定性問題,淘寶交易的可用率還不到 3個 9,當時 IOE架構在可擴充性、成本效率、故障顆粒度方面,已難以滿足淘寶和支付寶蓬勃發展的需求。在 2010年預算會議上,王堅博士要求在開篇 PPT“2010 年不增加小型機”的基礎上,增加一個“再”字,成為“2010 年不再增加小型機”,啟動了阿裡巴巴去 IOE 的程序,我參與其中并于 2013 年 5 月親自見證了支付寶最後一台 IBM小型機下線。這标志着阿裡巴巴小型機時代的終結和基礎設施新時代的開篇。
雲計算業務的快速發展,為基礎設施帶來的挑戰越來越大。2011年 9月至 2013年年初,以淘寶技術保障部為基礎,分期将阿裡雲、B2B及支付寶運維團隊整合為阿裡巴巴技術保障部,為阿裡巴巴集團技術基礎設施的大統一奠定了基礎。2014年1 月,基礎設施技術峰會首次召開,主題是“從傳統走向未來”,奠定了基礎設施技術發展的政策。2014年 7月,阿裡巴巴技術保障部更名為AIS(AlibabaInfrastructureService),意味着基礎設施的定位已從保障業務穩定性部門更新為技術驅動的商業基礎設施服務商,從保障轉型為研發和營運,成為雲計算的大底座。同年我們啟動了全球人才招聘,正式在人才群組織上要向世界一流水準看齊。
“拼命搞技術!”“快來不及了(影響雲業務)!我們(基礎設施技術發展)最多還有 1 ~2 年時間”,這兩句話一直環繞在我的心頭,從最開始的張北自建資料中心、自研 AliFlash,AIS人沿着技術研發的道路,從白盒化到架構一體化,經過 5年的努力,無論是在資料中心、伺服器、網絡方面,還是在計算、存儲、互聯方面,我們在各個專業領域都有了長足的進步。從底層的機房電力裝置到網絡通信的矽光子產品,到資料中心的網絡架構、自研交換機和 OS,到計算晶片、存儲控制器,再到運維管控的 3 分鐘故障恢複(1 分鐘故障發現、1 分鐘故障定位、1 分鐘故障恢複),再到資料中心的營運大腦(包括供應鍊等),我們收獲了不少的成功,也經曆了很多血和淚的教訓。
技術基礎設施是如此的重要,遺憾的是,因為專業領域衆多,一直沒有一本跨領域、跨專業的書,是以,我們決定在公司内部材料基礎設施白皮書的基礎上,編撰一本适用于對外的書。本書也融入了這些年來我們在關鍵技術決策中的思考和沉澱的經驗。期望本書的出版能夠給業界帶來一塊璞玉,以供斧正,同時也鞭策我們自己在未來更進一步。
阿裡巴巴集團副總裁基礎設施事業部負責人
2019 年 12 月于杭州