天天看點

Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!

作者:夏明(涯海)

調用鍊記錄了完整的請求狀态及流轉資訊,是一座巨大的資料寶庫。但是,其龐大的資料量帶來的成本及性能問題是每個實際應用 Tracing 同學繞不開的難題。如何以最低的成本,按需記錄最有價值的鍊路及其關聯資料,是本文探讨的主要話題。 核心關鍵詞是:邊緣計算 + 冷熱資料分離。 如果你正面臨全量存儲調用鍊成本過高,而采樣後查不到資料或圖表不準等問題,請耐心讀完本文,相信會給你帶來一些啟發。

Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!

邊緣計算,記錄更有價值的資料

邊緣計算,顧名思義就是在邊緣節點進行資料計算,趕時髦的話也可以稱之為“計算左移”。在網絡帶寬受限,傳輸開銷與全局資料熱點難以解決的背景下, 邊緣計算是尋求成本與價值平衡最優解的一種有效方法。

Tracing 領域最常用的邊緣計算就是在使用者程序内進行資料過濾和分析。而在公有雲環境,使用者叢集或專有網絡内部的資料加工也屬于邊緣計算,這樣可以節省大量的公網傳輸開銷,并分散全局資料計算的壓力。

此外,從資料層面看,邊緣計算一方面可以篩選出更有價值的資料,另一方面可以通過加工提煉資料的深層價值,以最小的成本記錄最有價值的資料。

篩選更有價值的資料

鍊路資料的價值分布是不均勻的。 據不完全統計,調用鍊的實際查詢率小于百萬分之一。全量存儲資料不僅會造成巨大的成本浪費,也會顯著影響整條資料鍊路的性能及穩定性。如下列舉兩種常見的篩選政策。

  • 基于鍊路資料特征進行調用鍊采樣上報(Tag-based Sampling)。 比如錯/慢調用全采,特定服務每秒前N次采樣,特定業務場景自定義采樣等。下圖展示了 阿裡雲 ARMS 自定義采樣配置頁面 ,使用者可以根據自身需要自由定制存儲政策,實際存儲成本通常小于原始資料的 5%。
Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!
  • 異常場景下自動保留關聯資料現場。 我們在診斷問題根因時,除了調用鍊之外,還需要結合日志、異常堆棧、本地方法耗時、記憶體快照等關聯資訊進行綜合判斷。如果每一次請求的關聯資訊全都記錄下來,大機率會造成系統的崩潰。是以, 能否通過邊緣計算自動保留異常場景下的快照現場是衡量 Tracing 産品優劣的重要标準之一。 如下圖所示,阿裡雲 ARMS 産品提供了 慢調用線程剖析 記憶體異常 HeapDump 等能力。
Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!
Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!

無論哪種篩選政策,其核心思想都是 通過邊緣節點的資料計算,丢棄無用或低價值資料,保留異常現場或滿足特定條件的高價值資料。 這種基于資料價值的選擇性上報政策成本效益遠高于全量資料上報,未來可能會成為 Tracing 的主流趨勢。

提煉資料價值

除了資料篩選,在邊緣節點進行資料加工,比如預聚合和壓縮,同樣可以在滿足使用者需求的前提下,有效節省傳輸和存儲成本。

  • 預聚合統計:在用戶端進行預聚合的最大好處, 就是在不損失資料精度的同時大幅減少資料上報量。 比如,對調用鍊進行 1% 采樣後,仍然可以提供精準的服務概覽/上下遊等監控告警能力。
  • 資料壓縮:對重複出現的長文本(如異常堆棧,SQL 語句)進行壓縮編碼,也可以有效降低網絡開銷。結合非關鍵字段模糊化處理效果更佳。

冷熱資料分離,低成本滿足個性化的後聚合分析需求

邊緣計算可以滿足大部分預聚合分析場景,但是無法滿足多樣化的後聚合分析需求,比如某個業務需要統計耗時大于3秒的接口及來源分布,這種個性化的後聚合分析規則是無法窮舉的。而當我們無法預先定義分析規則時,貌似就隻能采用成本極高的全量原始資料存儲。難道就沒有優化的空間麼?答案是有的,接下來我們就介紹一種低成本解決後聚合分析問題的方案——冷熱資料分離。

冷熱資料分離方案簡述

冷熱資料分離的價值基礎在于使用者的查詢行為滿足時間上的局部性原理。 簡單了解就是,最近的資料最常被查詢,冷資料查詢機率較小。例如,由于問題診斷的時效性,50% 以上的鍊路查詢分析發生在 30分鐘内,7天之後的鍊路查詢通常集中在錯慢調用鍊。理論基礎成立,接下來讨論如何實作冷熱資料分離。

首先,熱資料存在時效性,如果隻需記錄最近一段時間内的熱資料,對于存儲空間的要求就會下降很多。另外,在公有雲環境下,不同使用者的資料天然具備隔離性。是以,在使用者 VPC 内部的熱資料計算和存儲方案就具備更優的成本效益。

其次,冷資料的查詢具備指向性,可以通過不同的采樣政策篩選出滿足診斷需求的冷資料進行持久化存儲。例如錯慢采樣,特定業務場景采樣等。由于冷資料存儲周期較長,對穩定性要求較高,可以考慮在 Region 内統一管理。

綜上所述,熱資料存儲周期短,成本低,但可以滿足實時全量後聚合分析需求;而冷資料經過精準采樣後資料總量大幅下降,通常隻有原始資料量的 1% ~10%,并可以滿足大多數場景的診斷訴求。兩相結合,實作了成本與體驗的平衡最優解。國内外領先的 APM 産品,如 ARMS、Datadog、Lightstep 均采用了冷熱資料分離的存儲方案。

Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!

熱資料實時全量分析

鍊路明細資料包含了最完整最豐富的的調用資訊,APM 領域最常用的服務面闆、上下遊依賴、應用拓撲等視圖均是基于鍊路明細資料統計得出。基于鍊路明細資料的後聚合分析可以根據使用者個性化需求更有效的定位問題。但是,後聚合分析的最大挑戰是要基于全量資料進行統計,否則會出現樣本傾斜導緻最終結論離實際相差甚遠。

阿裡雲 ARMS 作為 2021 年 Gartner APM 魔力象限中國唯一入選雲廠商,提供了 30分鐘内熱資料全量分析的能力,可以實作各種條件組合下的過濾與聚合,如下圖所示:

Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!

冷資料持久化采樣分析

全量調用鍊的持久化存儲成本非常高,而前文提到 30分鐘後調用鍊的實際查詢率不足百萬分之一,并且大多數的查詢集中在錯慢調用鍊,或滿足特定業務特征的鍊路,相信經常排查鍊路問題的同學會有同感。是以,我們應該隻保留少量滿足精準采樣規則的調用鍊,進而極大的節省冷資料持久化存儲成本。

那麼精準采樣應該如何實作呢?業界常用的方法主要分為頭部采樣(Head-based Sampling)和尾部采樣(Tail-based Sampling)兩種。頭部采樣一般在用戶端 Agent 等邊緣節點進行,例如根據接口服務進行限流采樣或固定比例采樣;而尾部采樣通常基于全量熱資料進行過濾,如錯慢全采等。

最理想的采樣政策應該隻存儲真正需要查詢的資料,APM 産品需要提供靈活的采樣政策配置能力與最佳實踐,使用者結合自身業務場景進行自适應的調整。

結語

當越來越多的企業和應用上雲,公有雲叢集規模爆發式增長,“成本”将是企業用雲的關鍵衡量因素。而在雲原生時代,充分利用邊緣節點的計算和存儲能力,結合冷熱資料分離實作高成本效益的資料價值探索已經逐漸成為 APM 領域的主流。全量資料上報、存儲、再分析這種傳統方案将面臨越來越大的挑戰。未來會如何,讓我們拭目以待。

推薦産品

Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!

加入我們

【穩定大于一切】打造國内穩定性領域知識庫,讓無法解決的問題少一點點,讓世界的确定性多一點點。

  • GitHub 位址
  • 釘釘群号:23179349
  • 如果閱讀本文有所收獲,歡迎分享給身邊的朋友,期待更多同學的加入!

掃碼檢視更多中間件技術幹貨和案例:

Gartner APM 魔力象限技術解讀——全量存儲? No! 按需存儲?YES!