天天看點

為什麼這個92年的小哥從實習生到P8級技術Leader隻用了6年“雙十一”:從新兵到老将雲原生容量:從舒适區到“無人區”“技術風險部的新定位”團隊介紹

很難想象,1992年出生的鄭洋飛已經是雲原生性能容量團隊Leader、2018年雙十一穩定性總負責人,2020年雙11的副隊長。連續6年雙十一,不僅是他帶領團隊的練兵場,更能從中看到螞蟻集團技術演進的軌迹。
為什麼這個92年的小哥從實習生到P8級技術Leader隻用了6年“雙十一”:從新兵到老将雲原生容量:從舒适區到“無人區”“技術風險部的新定位”團隊介紹

我問鄭洋飛:“進入螞蟻以來,你覺得做得最好、最值得吹噓的一件事是什麼?”

我本希望從他口中聽到雙十一“買買買”的熱鬧紅火、以一己之力保障13億訂單量的豪情壯志。但眼前這個青年抓抓腦袋,說了一個陌生的詞語:“應該是我接下來做的這個雲原生容量技術吧。”

“我是第五個挑戰這個技術的人,很多前輩都失敗了,但我覺得我能做成。”

抛下從前的光環,鄭洋飛急着奔赴下一站。技術之路無窮無盡,螞蟻集團站在千萬人搭起的台基上,準備攀越新的高山。

“雙十一”:從新兵到老将

2013年,實習生鄭洋飛還在給伺服器做“人肉擴縮容”的瑣碎工作。

2015年,他已經被拉上雙十一前線,跟主管簽下“對賭協定”,負責整個雙十一全鍊路壓測的穩定性。從默默無聞的參與者到項目主導者,鄭洋飛的視野豁然洞開。

身為90後,這是鄭洋飛第一次獨挑大梁。

時局艱辛,禍不單行。由于上半年故障問題高發,整個穩定性團隊正值士氣低落,質疑聲接連不斷,全團隊都憋着一口氣。鄭洋飛直言:“就是要給螞蟻争口氣,不能讓人覺得我們不行。”

少年沖陣斬将,闖入“光明頂”。鄭洋飛回憶說,當時光明頂(雙十一全鍊路壓測現場)留給支付寶團隊的位置很少,阿裡經濟體大促負責人在現場舉着大喇叭,一有問題就聲震雲霄:“支付寶怎麼了?支付寶怎麼又跌啦?”

鄭洋飛屏息凝神,應對一切,“在那個會議室裡你得處理任何事情,什麼情況你都要能cover住。”這時哪還顧得上什麼KPI、什麼對賭協定,隻要壓測曲線一抖動,全團隊的心都跟着抖動。

但最終,他們扛住了。當雙十一0點的流量洪峰撲面湧來,支付寶頂住了壓力,鄭洋飛從主管手中接過了自己赢得的賭注:一隻Apple Watch。

線上購物節的狂歡爆發了,時代的車輪在悄無聲息中前進。跟前一年相比,2015年雙十一的全鍊路壓測在幾個方面做了大刀闊斧的改進:一是從核心系統擴充到全部系統,二是和整個集團的壓測打通關聯,三是平台化,也就是打造一個全鍊路壓測的平台工具,将技術人員的一部分工作傳遞給平台。

此後的幾年,全鍊路壓測技術一路演進,從大促走向常态和産品化,随着技術的沉澱和業務的了解,鄭洋飛的職責也從雙11壓測負責人逐漸擴大為雙11穩定性負責人,這幾年的大促用他的話說,“遊刃有餘,絲般順滑”。越來越多的技術被融合到平台裡,這幾年連續誕生大促中控平台、巡檢平台、變更核心,限流平台,預案等平台,随着大促保障技術的沉澱,減少了一線的純技術保障人員逐年減少,大促技術團隊得以解放雙手,去攻關破解更具有技術難度的問題。

為什麼這個92年的小哥從實習生到P8級技術Leader隻用了6年“雙十一”:從新兵到老将雲原生容量:從舒适區到“無人區”“技術風險部的新定位”團隊介紹

“大促要朝着無人駕駛的方向發展”,這是所有雙十一參與者的願景。

雲原生容量:從舒适區到“無人區”

一度被稱為“壓測小王子”的鄭洋飛說:每年對于大促技術同學很關鍵的一個技術問題就是容量評估,如何用最低的成本,最快的效率,保證雙11大促的穩定性。随着大促活動的常态化,日常每個活動都會帶來流量的突增,這些活動也會帶來很多容量和穩定性問題,那麼如何用低成本,快效率,高穩定解決大促和日常中的這些容量技術問題

為了解決穩定性問題,鄭洋飛和團隊在這些年完成了大促中控平台、巡檢平台、變更核心等平台工具。現在橫亘在團隊面前的,是一個更陌生、難度更高的領域:雲原生容量。

雲原生容量技術的作用,正是根據曆史趨勢和實時預測,計算出每個應用應該合理使用多少資源。基于經典和機器學習的預測算法,再加上基于雲原生開發的容量伸縮工程技術,完成雲原生整體應用容量的穩定性和資源的合理使用。

之是以要做這件事情,是因為線上應用資源使用率一直很低,并且由于是長期運作(Long-Running)的屬性,導緻資源規格和副本數在剛申請時就已固定。螞蟻技術風險團隊期望找到一套适合金融級規模化的彈性伸縮技術(autoscaling),結合應用流量特征來對應用規格和副本數進行彈性調整,為傳統的線上應用實作Serverless(無伺服器化)進而提升線上應用的資源利用效率,節省成本。k8s等開源社群具有的HPA/VPA技術并不能在螞蟻生産落地,主要原因有三點:第一,大部分線上應用的服務能力和資源使用率關系并非簡單線性關系,無法直接像社群HPA技術一樣通過metrics來驅動;第二,由于螞蟻的金融屬性業務穩定性要求高,曆史原因導緻的業務複雜性也很高,進而使得彈性伸縮變成一件高風險的事,需要建設技術風險控制手段,防止異常導緻故障;第三,線上應用擴縮容速度需要10分鐘以上,擴縮容無法滿足快速彈性的要求。針對上面的這些原因,需要自研設計适合螞蟻生産環境使用的容量托管彈性方案。

雲原生彈性容量技術架構主要由畫像系統和AutoScaler的組成的多層封閉負回報控制系統,畫像系統通過大資料技術和機器學習算法實作了應用的最優規劃,AutoScaler根據畫像分析的應用畫像來執行多級HPA變更和VPA變更。畫像系統會對應用特征進行大資料積累,加上離線和實時算法分析,通過積累應用的資料規律和生産環境的資料回報實作workloads的最優求解,也會對畫像系統進行變更管理和灰階控制,降低技術風險,AutoScaler建設多級HPA實作水準伸縮,通過VPA垂直伸縮,其中多級HPA通過ServiceMesh極大的縮短了應用的啟動時間,提供穩定高效的應用擴容速度、降低縮容風險

一言以蔽之,就是在保證穩定性的前提下,對資源進行最優化的配置,實作經典應用的Autoscaling。“這項技術成熟後,可以實作容量故障的大幅下降和資源使用率的提升”鄭洋飛暢想。

說來輕松,上手何其艱難。在鄭洋飛之前已有4個失敗的先例,他本人也曾在這上面栽過跟頭,無數質疑和反對聲湧來,鄭洋飛置之不理:“現在的雲原生基礎設施比以前好很多,我們對問題的定義和了解也變深厚了,并且我們是一支不怕困難的團隊,我覺得能做成。”

既然認準了道路,就隻顧一往無前。對雲原生容量的鑽研還在起步,團隊的工作已小有成效:2019年,鄭洋飛和團隊為螞蟻投入的運維經費節省了大約10%。

他興奮地揮揮手:“感覺好像手上多了一大筆錢,我想買啥就買啥!”

“技術風險部的新定位”

鄭洋飛的經曆,勾勒出螞蟻技術風險部的發展軌迹:“職位能力化,能力平台化”。

多種多樣的平台工具,成就了“無人駕駛”的十八般兵器。如果說之前的雙十一是硝煙四起的戰場,現在的雙十一則更像是一場練兵:人力成本大幅度降低,技術風險部常會安排新人上場磨練能力,“太過依賴現成的平台,就沒有我們當年那種緊張感了。”

平台是技術的凝縮,人則是創造和演進技術的關鍵。以SRE為例,這個最早由國外網際網路公司提出的概念是指Site Reliability Engineer,“網站可靠性工程師”。SRE被要求同時具備強大的程式設計算法能力和網絡架構技術,隻有頂尖的網際網路公司才會出現真正的SRE。

在螞蟻内部,SRE的定義又有不同,指的是Site Risk Engineer。許多不清楚這個概念的人時常抱以質疑的态度:這是不是單純的PE(運維工程師)?是給其他業務“背鍋”的?

鄭洋飛一錘定音:“SRE不是一個崗位,而是一種能力。”

“當我們技術風險能力做到足夠成熟時,就不需要SRE崗位了。”鄭洋飛表示,團隊這兩年已經在逐漸地“去傳統SRE化”,SRE作為一種能力被編入了軟體和平台内,工程師的任務不再是傳統運維工作,而是為這些平台提供軟體工程服務。

無論在螞蟻内外,鄭洋飛和整個技術風險團隊身邊從來不缺乏質疑的聲音。有些人選擇退縮和放棄,也有人矢志不移,舉步向前。

“技術風險部存在的意義,就是認真分析每個故障背後的原因,總結出一套規律,避免這一類故障的發生。”作為堅守多年的老将,鄭洋飛俨然已經是部門内的資深成員,“我就是想證明,一方面我在這裡是有成就感的,一方面我們做的事情是能得到價值認可的。”

我問他,什麼時候第一次意識到自己的工作和所有人息息相關?

鄭洋飛回憶說,某天一項功能釋出時出現了問題,咨詢和投訴電話立刻打爆了支付寶客服熱線,那一天很多客服妹子都沒能吃上午飯。“沒有身在其中過,就很難意識到自己敲下的每一行代碼有着怎樣的分量。”

“我不是什麼天才少年,肯定不是。”鄭洋飛說,“我就是一個普通人。”

他套用了最近正火的楊超越“金句”:老天爺不一定隻愛聰明的人,他的萬分之一也會寵幸到我們這些笨小孩。“感謝公司給我們這種普通人一個機會。”說到這裡,“笨小孩”樂不可支。

人人生而平凡,但偶爾也像群星閃耀。螞蟻翻越山嶺,天地開闊,每顆星星都在自己的位置上發光。

為什麼這個92年的小哥從實習生到P8級技術Leader隻用了6年“雙十一”:從新兵到老将雲原生容量:從舒适區到“無人區”“技術風險部的新定位”團隊介紹

團隊介紹

螞蟻技術風險中台團隊,負責螞蟻集團的技術風險底座平台建設,包括智能監控、資金核對、性能容量、全鍊路壓測以及風險資料基礎設施等平台和業務能力建設,解決世界級的分布式處理難題,識别和解決潛在的技術風險,參與螞蟻雙十一等大型活動,通過平台能力保障整體螞蟻系統在極限請求量下的高可用和資金安全。

因業務發展需要,亟需大資料分析、監控業務域等相關領域的同學。

職位描述:

1、負責螞蟻金服智能監控、性能容量、風險資料基礎設施的研發建設,包括需求調研,系統分析設計,核心子產品實作,調優與維護。

2、主導核心技術問題攻關,解決世界級的分布式處理難題,識别和解決潛在的技術風險。

3、對平台自身穩定系和系統品質負責,保障系統運作可用率和資料品質相關衡量名額。

4、參與螞蟻雙十一等大型活動,通過平台能力保障整體螞蟻系統在極限請求量下的高可用和資金安全。

5、持續對接平台上各類技術風險防控業務方和防控系統,滿足不斷發展的業務需求。

職位要求:

1、有強烈的技術熱情,工作責任感; 計算機軟體或相關專業,大學或以上學曆;

2、有創新精神,樂于和熱于技術鑽研。思維嚴謹,邏輯清晰,具備批判性思維能力和習慣;

3、具備紮實的計算機專業基礎,包括算法和資料結構、作業系統、計算機體系結構、計算機網絡、資料庫等;

4、具備紮實的Java/C/C++/Rust/Go等語言基礎,良好的程式設計素養,對代碼美感有追求,至少熟悉一種關系型資料庫如Oracle、Mysql等;

5、具備知名網際網路企業高可用經驗,具備實時計算(Spark/Flink/Storm)或海量資料處理(Hadoop/HBase/Hive)相關經驗優先考慮;

6、有很強的分析複雜問題和解決複雜問題的能力,有強烈的責任心和使命感。

履歷請投遞至:[email protected]

繼續閱讀