天天看點

三年節省4419萬元,一場IT降本增效的沙盤演練

作者:數智前線
三年節省4419萬元,一場IT降本增效的沙盤演練

野蠻生長的階段已經結束,開始進入存量競争時代,IT的降本增效将是未來很長一段時間的主線。

文|遊勇

編|周路平

IT支出作為網際網路公司最大的成本,在數智化進入深水區和存量競争的背景下,如何讓IT降本增效變得更加迫切。

以前,大量企業的業務高速增長,發展的紅利使得很多IT建設粗放式發展,很少人在意資源使用率的提升。但現在,野蠻生長的階段已經結束,開始進入存量競争時代,IT的降本增效将是未來很長一段時間的主線。

01

一場IT降本增效的沙盤演練

從實體機到虛拟機,再到現在的容器化,IT基礎架構這些年一直在朝着靈活、彈性、穩定的方向演進。而這些新的IT技術和架構到底帶來了怎樣的效果,一直是行業密切關注的話題。

不久前,全球知名獨立咨詢機構Forrester訪談了多位騰訊雲容器服務TKE的客戶,并且基于訪談資訊,采用Forrester研發的TEI(Total Economic Impact)方法論,釋出了國内首份容器服務總體經濟影響報告。TKE是基于原生的K8s容器編排引擎,結合騰訊雲的計算、存儲、網絡等基礎設施打造的一個企業級的PaaS服務。

為了驗證這套模型的效果,Forrester模拟了一家年營收4.5億元左右的企業。這家企業的特點是業務範圍覆寫全國,技術團隊規模在百人以上,計劃在三年時間完成90%以上服務和應用的容器化改造。

這場沙盤演練圍繞着企業基礎IT建設普遍關注的幾個核心名額——基礎設施成本、運維成本、應用開發的效率以及系統穩定性,在容器化之後,這些方面都得到了大幅提升。

三年節省4419萬元,一場IT降本增效的沙盤演練

首先是計算資源的成本節省超過70%。由于TKE容器的彈性排程能力,使得企業不用再購買備用機器,可以根據業務按需調用,而且容器化程度越深,TKE用量越大,機器節省的成本也逐年增加,三年累計收益達到1771萬元。

其次是日常運維負擔降低了50%以上,峰值運維負擔降低98%。TKE使運維人效成倍數增長,将耗時多日的擴縮容工作轉化為分鐘級的自動化、平台化操作。這部分的收益在三年時間為914萬元。

一位協同辦公行業的業務副總經理直言,“我們的擴容效率提升非常明顯,能做到一小時擴容10萬核,即從提出申請到擴容全部完成隻需要一個小時,如果除去其中申請和協調資源的時間,利用TKE擴容隻需要十分鐘。”

再者是應用開發效率的提升。容器的标準化和易遷移特性,讓研發不用操心伺服器的作業系統差異,能實作新應用、新功能的快速部署上線,疊代效率提升90%以上。對于一家擁有90名研發人員的組織而言,這部分在三年時間産生的收益達到3092萬元。

最後是穩定性的收益,通過自動化預測、告警與修複故障,每年服務中斷時間減少42.6小時,由此得以增加的營運利潤達到183萬元。

也就是說,這家年營收4.5億元的複合式組織,三年内的總收益達到了5960萬元。而該組織需要為此付出的成本——包括訂閱費、部署實施費、學習成本是1541萬元。兩者相減,得到的淨收益達到了4419萬元,投資回報率高達287%。

而Forrester經過一系列嚴謹的測算之後,通過抽象提煉,最終形成了一套有普适性的模型。騰訊雲也基于這套模型推出了容器服務的ROI電腦,客戶隻要輸入各自的業務真實情況,能非常直覺地看到三年後帶來的收益。

這個沙盤演練的效果,在降本增效成為企業主旋律的當下,提供了一個非常有價值的參考。

更關鍵的是,這套模型并不是簡單粗暴的疊加計算,而是充分參考了各行各業的真實客戶在使用TKE容器化服務前後的特點和效果。

一是充分考慮了容器化改造的不同階段。容器化比例沒有簡單粗暴地設計在一年内完成,而是逐年提高,這也符合目前企業對容器化改造的一個特點,循序漸進,逐漸看到效果。

二是對收益和成本進行了細緻的拆分。比如複合式組織設定了每年有三次大型流量峰值,每次峰值需要投入32個小時進行提前擴容準備;同時對運維人員和研發人員的時薪做了不同設計,甚至把薪資漲幅也都設計在内。而且也考慮了企業進行容器化改造産生的實施成本和技術人員對K8s容器技術的學習成本。

三是未将不可量化的收益納入其中。企業在進行雲原生容器化改造後,其實不僅有可量化的收益,也有很多不可量化的收益,包括客戶滿意度的提高,技術團隊更流暢的協作和工作狀态的提升等。但這套模型并沒有将不可量化的收益統計在内,而這些效果确實在諸多企業的實際業務中真實存在。

甚至考慮到企業在現實業務中的複雜性和各種風險因素,Forrester還給每項收益下調了10%,成本則調高了10%。但即便在如此嚴苛的條件之下,容器化和非容器化的收益對比依然非常明顯。

02

雲原生已經成為共識

Forrester的這份研究報告背後,讓外界進一步看到,以K8s容器為代表的雲原生技術能夠有效疏解企業在IT降本增效、彈性伸縮方面的心頭之痛。

此前,有機構統計過一個很殘酷的數字:國内資料中心CPU使用率僅為10%左右。IT資源使用率不高的背後,與傳統IT架構的特性有很大關系。不管是實體機還是虛拟機,其應用、作業系統和基礎設施之間很多是緊耦合的關系,不夠彈性。

在單體機架構下,每台伺服器隻運作一個應用程式。後來的虛拟機雖然允許一台伺服器運作多個應用程式,在一定程度上解決了伺服器資源浪費的問題,但每台虛拟機都有自己的作業系統,會消耗大量與計算不相關的資源,不僅造成了浪費,而且啟動速度也很慢。

騰訊當年在業務全面上雲之前,也遇到類似的難題。每個業務部門為了應對突發的流量,在更新伺服器資源時會留出資源緩沖區,這是IT部門的正常操作。但當所有的緩沖區疊加在一起,就形成了大量的閑置資源浪費。

而對于業務還在不斷增長或者業務波峰波谷比較明顯的企業而言,這樣的痛感來得更加真實。

現在,雲原生的架構能實作系統的靈活部署、彈性擴充、動态遷移、故障自愈等。而容器作為雲原生的代表性技術之一,實作了應用與運作環境的解耦。相比于實體機、虛拟機,一個容器就是一個應用程式,它将所有檔案配置以及運作所需要的必要檔案打包到一起,這意味着它隻打包了計算環境所需要的内容。而基于開源容器編排引擎K8s,能夠實作了容器的自動部署,擴充和管理。

三年節省4419萬元,一場IT降本增效的沙盤演練

其優勢已經非常明顯,比如解決異構環境一緻性問題、更高的機器資源使用率等,幾個簡單的指令就可以在單機上管理容器。比如,它可以自動排程和自動修複,可以運作在k8s叢集中的任一節點,而且某一個伺服器挂了,可以自動排程到另外一台主機上運作,無需人工幹涉。

另外,成本上也有優勢,容器按量計費,Pod銷毀了就不收費,計費粒度是秒級的,但虛拟機不一樣,它的生命周期更重一些,彈性能力也比容器差,計費粒度也更粗。

一位資訊通信行業的雲服務運維負責人透露,他們在使用了騰訊雲容器服務TKE之後,業務高峰期的擴容隻需要不到五分鐘時間,以前兩三個人加班加點才能完成的工作,現在隻需要一個人就能操作。

如今,以容器、微服務等為代表的雲原生技術已經成為企業技術選型的共識。一位管理軟體的高管告訴數智前線,客戶現在都預設你用的就是雲原生方案,已經不需要再去特别強調的事。

在Forrester 2022年全球雲基礎設施調研中,72%的中國雲決策者表示,使用以雲原生為代表的新計算架構進行現代化改造将是其組織未來12個月的技術架構和傳遞優先事項之一,而世界其他地區的這一比例為53%。

應用容器化率也在逐年攀升。2020年容器超過虛拟機成為企業部署計算的最小單元。據Gartner預測,到2025年,85%的組織将在生産環境中使用容器。

騰訊作為國内最早上線容器服務TKE的企業之一,這次與Forrester聯合釋出業内首份容器經濟影響報告,并推出ROI電腦,将讓各行業進一步看到直覺、系統地看到雲原生帶來的價值,進而加速容器化率的提升。

其實早在2016年,騰訊就開始啟動基于K8s的TKE項目。到目前為止,騰訊雲TKE已經為上萬企業客戶提供容器化平台,單叢集支援上萬個節點。除了騰訊自己,包括快手、小紅書也接入了騰訊雲的容器服務,都取得了實打實的效果。

今年4月,騰訊雲入選Gartner容器客戶之聲亞太區“卓越表現者”象限。在8家獲評的容器管理廠商中,騰訊雲成為唯一入選的中國企業。

03

TKE如何幫助企業降本增效

其實,在Forrester産出這份報告之前,騰訊雲TKE已經在騰訊内部和外部客戶的業務中得到了檢驗。

2022年,騰訊宣布完成了自研業務全面上雲,成了國内最大的雲原生實踐。

但在自研業務上雲初期,騰訊也經曆過很多企業都面臨的困境,比如習慣“堆機器”,把實體機原封不動搬到雲上,或者直接把容器當虛拟機用,整個架構和代碼不需要任何的改造,但違背了雲原生的初衷,雲的價值完全沒有發揮出來。尤其是當執行個體變得又大又複雜時,沒法快速啟停,影響了彈性擴縮容的效率。

但很快,騰訊基于騰訊雲TKE,開啟了真正的雲原生之旅。

騰訊一開始先将離線業務容器化,比如基于滾動的釋出,對自研業務的灰階測試非常關鍵,比如動态路由能力,實作路由的自動化。然後是線上業務容器化,實作自定義工作負載,保證Pod容器的中斷時間控制在一秒以内,實作原地無感覺的更新擴容。

過去幾年的努力,騰訊内部95%的業務都放在可排程的公共叢集裡。而騰訊雲TKE的落地規模已經超過5000萬核,累計為騰訊節省了數十億元成本。而且,即便面對騰訊如此龐大且複雜的業務體量,TKE平台從始至終沒有遇到過大的故障。

對于還在觀望的企業而言,騰訊自己提供了一個很好的雲原生轉型範本。

作為國内最大的房産中介平台,貝殼一直對新的IT技術保持着非常高的熱情。相比于那些不敢用、不會用的企業,貝殼在做雲原生技術架構的改造前,内部就已經進行了容器化改造,并且與騰訊雲TKE有一些小規模合作。但起初用的是TKE普通節點,本質上是在虛拟機上部署一些托管的K8s能力,效果并不明顯。

三年節省4419萬元,一場IT降本增效的沙盤演練

2023年初,貝殼打響了雲原生攻堅戰,提出了“4321”的技術口号,其中4指的是計算叢集使用率提升到40%。

“容器化和雲原生,是提升使用率,尤其是提升線上業務使用率的一個技術達成路徑。”貝殼雲技術中心系統研發部進階經理楊菁偉說。

很快,貝殼接入了騰訊雲TKE的原生節點,其核心還是怎麼彈性擴縮容,自動化部署以及提高已有資源的使用率。TKE原生節點幫助貝殼解決了三個核心問題:

首先是Request配置。在建立K8s叢集的工作負載時,通常需要配置合适的資源,Request是下限,指的是容器需要保留的最小資源量;limits是上限,一個容器使用的最大資源量。以前都是客戶根據經驗自己配置,很容易估不準,大家習慣将申請量設定得較大,造成資源閑置,這是一個非常普遍的現象。

騰訊雲TKE原生節點的“成本大師”推出了Request智能推薦工具,可以通過分析客戶業務實際使用率和曆史資料,給客戶推薦最合适的Request配置,確定資源得到合理利用。

其次,在節點放大之後,容易遇到穩定性問題,考驗TKE資源如何排程。比如K8S叢集有時會出現排程不均,某些節點負載過高,而其他節點負載又很低。人工排程往往不及時,也很麻煩。騰訊雲TKE原生節點,支援根據客戶節點的實際負載進行智能排程。包括支援“節點動态放大”,根據實際需求,自動增加CPU和記憶體資源。

三是線上和離線業務能否混合部署。線上業務對資源的要求高,但變化會比較明顯,離線業務便靜态,及時性不高。要想叢集24小時運轉,就需要把線上和離線業務混在一起運作。

同時,騰訊雲TKE在核心層面實作資源隔離,允許高低優任務共存,高優任務可搶占低優資源,確定線上業務不受影響。

最終,在TKE原生節點的支援下,貝殼的資源使用率從去年年初的峰值不到25%,到年底提升到了40%。

“容器不是終點,它其實是一切的起點。”楊菁偉說,容器化為貝殼真正邁向雲原生打下了基礎,未來将推進兩件事:一是讓自建的容器逐漸遷移到公有雲的底座上,增加騰訊雲TKE在貝殼的算力供給比重;二是針對應用以外的元件進行雲原生的适配,實作資料的雲原生和緩存的雲原生等。

線上教育平台作業幫也是一家非常典型的客戶。作為一家月活使用者約1.7億的線上教育公司,學生學習的時間集中在周末和放學之後,波峰波谷非常鮮明,高峰時段的流量是平時峰段的20倍,是低峰時段(淩晨到5點左右)的上百倍。

是以,作業幫對資源彈性排程的訴求非常高。作業幫從2020年開始将部分業務逐漸接入騰訊雲容器服務TKE,涉及數千業務應用,數十萬計算核數。通過HPA機制、離線上混部、共享GPU等騰訊雲TKE提供的一套整體解決方案,作業幫的節點平均CPU使用率從10%提升到30%,成本下降40%,接口響應提升10%。

當然,除了被廣泛使用的TKE原生節點,騰訊雲也針對企業Serverless和大模型的需求,衍生出了TKE超級節點和SCF on K8s等新的産品形态。

IT的降本增效從來不是一朝一夕能做完的事,需要企業根據自身業務特點持續地推進和優化,當然也需要技術服務商及時地捕捉和響應市場的需求。

三年節省4419萬元,一場IT降本增效的沙盤演練