日前,大熱的AIOps有着非常豐富的應用場景,那麼,該怎樣才能将這些應用方向落實,成為助力企業運維的整套産品體系呢?駐雲科技正是這樣一家将理論化為實踐,幫助企業使用者将這些AIOps産品實際落地的企業服務商。本篇文稿由駐雲資訊科技有限公司執行總監李俊濤在上海雲栖大會的演講整理而成,準确的為我們介紹了托管運維的概念與優勢,并詳細解讀包括基礎運維、應用運維、和業務運維的整套企業級運維服務體系,從多個角度闡述了如何使用AIOps提升資料驅動的企業級雲托管運維服務。
本場視訊觀看請戳:https://yunqi.aliyun.com/2018/shanghai/review
PPT下載下傳請戳:https://yq.aliyun.com/articles/602764
演講嘉賓簡介:李俊濤 上海駐雲資訊科技有限公司執行總監
這篇文章的分享共三個部分1.介紹雲計算時代的托管服務和傳統運維的差别
2.介紹托管運維中,包括基礎運維、應用運維、業務運維的整套服務體系
3.分享駐雲科技如何借助AIOps産品來幫助企業客戶完成從傳統運維到業務運維、智能運維的轉型。
我們可以将企業IT的構成劃分為三個層面,基礎設施,應用,業務,
相對的,企業關心的核心則可以概括為可用、可靠和可維護性。
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsIyZuBnLyYzYkBTN4EWY1MjMwI2YzQWOhRjZ4AzMzITM4IzN3kTOhZDMkhjZy8CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
在基礎運維層面,企業的核心挑戰是IT資産的最大可用率,如何将最基礎的存儲和計算資源通過雲計算進行轉換,來豐富運維體系的整體高度,把雲計算運維付諸實踐。
在應用系統層面,企業會更關心FFSF的實踐:無論是監控、日志、DevOps還是容器,都要全方位保證業務的連續性。
在業務系統層面,IT運維要從輔助性角色轉化成決策性角色,用資料來洞察各類事件對應的解決方案。
是以,在這三個層面上,駐雲科技都能夠提供對應的服務,幫助企業更好地對業務運維進行展開。
基礎運維托管服務體系從圖中可以看出,對應着一套完整的基礎托管服務體系,阿裡雲在最底層提供計算資源和技術資源,駐雲科技則提供包括應用/作業系統、中間件、資料服務以及通路層面的監控保障和應急響應。整套體系由駐雲科技和客戶企業IT團隊,運維團隊共同實踐和實作,有着足夠強的針對性。
基礎運維體系三張截圖:
第一張截圖反映了基礎托管服務在移動終端對告警通知的推送,将傳統的短信、郵件等通知方式加以改進,進行移動端的內建。
第二張截圖展現了運維體系中調用阿裡雲api做的雲平台api整合,用圖表的方式進行最直覺的展現。
第三張截圖則是把告警資訊和釘釘進行內建,記錄告急和恢複資訊并進行儲存,便于後期的分析、複盤以及優化。
應用系統托管服務體系在應用托管服務體系方面,企業使用者往往面臨着諸多挑戰:
首先,IT邊界被擴充,CMS服務不僅為企業内部管理提供支撐,同時還要保證網際網路使用者的業務連續性
其次,如何在大量告警中第一時間發現問題,快速定位問題并進行處理也是重要的課題之一。
另外,基于網際網路靈活模式下的DevOps需求。提升研發,測試,運維以及IT營運團隊的整體效率也是企業希望追求的一項重點
針對這些重點和難點,駐雲科技提供了對應的了兩類解決方案
A:日志服務 探索與具體應用問題相關的日志。 利用機器學習,高效分析和探索日志資料。 從日志資料中擷取業務和
IT 洞察。 從日志中快速擷取價值。
B:基于Docker的CI/CD解決方案。
日志服務方面:面向中小型客戶進行服務時,通常基于阿裡雲SLS的日志服務來進行,其優勢在于日志資訊存儲于使用者自身的阿裡雲賬号和體系内部,可以有效防止日志中業務資料洩露,保證日志資料安全。阿裡雲AK能夠及時發現業務問題,并調用SLS的API進行告警。而面向大客戶,則多數采用用ELK,EFK等開源元件由使用者自行對采集日志,再進行整理以及分析。
駐雲的日志團隊會和企業的産品和研發團隊一起,在研發階段即做好日志方面的預判,發生故障可以從前到後探測,了解日志上下文關系,幫助運維人員直接定位問題
這裡是一張AIOps對客戶業務資料的通路基線監控分析:AIOps對外提供輕量、智能的算法和解決方案,企業可以嘗試通過提供一定時長内的曆史資料,來生成極限,尋找毛刺點,進而自動進行告警。通過将門檻值和智能基線算法結合起來的方法使告警結果更加精準,
最後,日志和資料分析進行結合也是服務中的重點:
1.基于業務日志做業務資料大屏
2.基于通路日志做使用者分析
基于容器的托管服務:如今,在應用層通路
AIOps是一項很熱門的課題。
從傳統運維到現在的AI智能運維,駐雲作為落地企業服務商,大多數企業沒做好AIOps轉移,駐雲傾向于和客戶一起,共同搭建專屬AIOps平台,提供容器托管方案。
相關的多種解決方案:
基于Docker運維體系結構的整體設計,以及現有應用的Docker化改造方案
工具平台:
Confluence 文檔知識庫管理; Jira項目管理平台 ;Gitlab等代碼管理平台內建與改造
賦能體系:
現有團隊人員的Docker教育訓練與賦能、定期技術沙龍主題,以及專業Docker線下課程教育訓練。
技術實施:
使用Jenkins 與Gitlab 持續內建自動化部署
環境快速部署、整體傳遞和管理
應用服務CI/CD配置和協助
容器排程規則和健康檢查
黑盒監控和白盒監控
基礎資源 容器 業務日志
故障快速定位和排查、自動/手動修複
日志分析、預測和業務營運支撐
運維和營運大屏接入
對大多數企業來說,企業隻要把應用搭建在Docker平台上,就能夠享受到完整的容器監控以及日志服務,完整而容器化的解決方案會利用開源軟體對存在問題進行整合與處理。
在業務運維方面,駐雲的核心思想就是像營運業務一樣營運IT,包括但不限于:
通過智能預測,為未來業務發展合理制定規劃。 最大限度地提高資料庫和中間件的性能;
對IT資料進行多元分析,從中擷取洞察,輕松搜尋應用和系統元件;
以及快速建構自定義儀表闆來釋出分析結果。
我們可以看到一份業務運維大屏輸出的例子,資料源、伺服器資料以及中間件資料都基于阿裡雲的技術體系,而後再針對這些資料進行彙集資料,輸出和展現,進而實作業務大屏輸出。
以資料為核心的業務運維雲托管服務,經過整理加工後,生成有價值的資料,同樣能為業務營運提供強大的支援
駐雲科技以企業雲托管服務解決方案為中心,提供解決方案組合,比對企業深度雲化全場景需求,形成了多種多樣的企業級雲托管服務解決方案。
本文由雲栖志願小組森檸整理