天天看點

Datadog Dash 2024 新功能解析

作者:觀測雲

Datadog 2024 年的 Dash 剛剛落下帷幕,作為正在與 Datadog 開始競争的觀測雲,我們認真仔細的分析了 Datadog 的每一個新功能,發現一些很有意思的事情,今天就給大家做一次全面的分析。(所有 Datadog 的 Dash 的最新功能介紹均來自于 https://www.datadoghq.com/blog/dash-2024-new-feature-roundup-keynote/ ,大家可以參考原始說明。)

Part 1: DASH 2024 Keynote Roundup

觀測能力

1、LLM Observability

不出意外,Agent 開發相關的可觀測性必然被引入,相較于 LangSmith 隻能調試 Agent 而言,Datadog 引入整個功能可以将全生命周期的觀測延展到 Agent 開發,而不僅僅局限于 Agent 開發中的調試,這個價值必然大于單純的 LangSmith。

Datadog Dash 2024 新功能解析

這個能力,觀測雲也開發了一段時間了,預期會在近期就跟大家見面~

2、更好的相容了 Otel 的 Collector 的 DDAgent

Datadog 終于正式的完整的将 Otel 納入到了自己的體系内,現在 Otel 的标準化趨勢已經無法撼動,任何的 Instrumentor,無論是用什麼技術,從資料結構上也必然向 Otel 靠攏,這也是商業公司的一個妥協吧,是以未來的觀測世界用什麼手段擷取資料,用什麼手段觀測不重要,但大家都不約而同的選擇了統一的資料結構和範式。Datadog 很早就支援了 Otel 的資料結構,隻不過這一次更是可以用 DDAgent 來作為 Otel Collector 了。

Datadog Dash 2024 新功能解析

對于觀測雲來說,可能這是第一天就支援的,尤其在中國這種大環境,還存在注入 skywalking,早期 zipkin,jaeger 等等方案,是以觀測雲從第一天不僅僅是 Otel 的 Collector,還是其他各種技術方式的 Collector,這也意味着至少在相容性方面,觀測雲比 Datadog 更廣泛。

3、強大的資料分析能力的 LogWorkspaces

日志永遠是可觀測性資料的一個重要的組成部分,對日志能力的支援也是 Datadog 一直補強的重點。 這次推出了基于 SQL 的日志分析工作台。

Datadog Dash 2024 新功能解析

觀測雲本身提供了統一的資料語言 DQL,意味着本身不僅僅對于日志,對于所有的資料都可以通過 DQL 進行非常個性化的分析。當然觀測雲目前并沒有公開支援 SQL 分析,但觀測雲本身就是一個 MPP 資料倉庫,我們沒有暫時沒有把 SQL 能力開放出來,不過其實使用 DQL 就能實作類似的效果,并且可分析的資料種類遠遠超過 Datadog。

4、Live Debug

對于程式員來說神級功能,某種程度上觀測監控平台并不是一個僅僅面向運維的平台,與傳統的監控系統相比最大差異也在其更被定位成一個遠端的調試平台,是以能夠對生産環境進行 Live Debug 對每個程式員來說都是非常幸福的事情。

Datadog Dash 2024 新功能解析

觀測雲目前掌握相關技術,短期内沒有産品化的想法,另外對于大家來說,能夠讓研發直接線上注入代碼進行 Debug 這種功能,是怎麼看的?

5、面向産品互動設計的分析能力

這個功能是在原來的 Rum 基礎上的增強,包括增加了 Session Replay,Heatmap,桑基分析等能力,看來 Datadog 本身作為優秀的互動性産品,真的對寵愛前端開發工程師。

Datadog Dash 2024 新功能解析

觀測雲本身也是非常寵前端開發工程師的,相關能力我們也正在補充中~期待在後續的更新中看到我們的 Heatmap 和桑基分析等能力。

安全能力

Datadog 不斷地補強他的安全能力,在這部分由于觀測雲目前沒有任何進軍安全的想法,故不做解讀,有興趣的朋友可以自己檢視原文。

行動/執行

從這裡看,Datadog 的手開始變得長了,除了觀測以外,也開始進入到控制領域了,隻不過和傳統中國式運維控制不同,Datadog 更強調的是通過資料來控制。

1、自動為 Kubernetes 機器進行擴縮容

Datadog 目前可以通過費用資料,或者監控資料直接根據你的政策,手動或者自動對你的 Kubernetes 叢集進行管理了。

Datadog Dash 2024 新功能解析

觀測雲也提供了控制能力,通過 Func 平台,觀測雲也可以提供相應的控制能力,隻不過和 Datadog 比,我們并沒有直接提供這種能力,想想在中國市場,一個雲端應用可以直接管理你的基礎設施和應用,還是蠻可怕的,不知道大家接受的了嗎?

2、将變更情況與告警結合起來

Datadog 支援将發生告警的時候追溯上次變更情況,并可以觀測代碼的變化,快速協助工程師定位問題。這又是一個很好用的站在研發視角下的功能,大家就不用出問題自己再找版本去翻代碼了。

Datadog Dash 2024 新功能解析

觀測雲目前并沒有這個功能,但其實已經在日程上了。

3、大模型自動根因分析 Bits.AI

這是 Datadog 自身與大模型結合的一個能力,通過對可觀測性資料綜合的 RAG,來出局一定指導意義的分析。

Datadog Dash 2024 新功能解析

目前觀測雲也在調整 Prompt 和 Workflow 以擷取更好的效果。

4、提升 OnCall 的可觀測性分析體驗

Datadog 有自己的 APP,最近進行增強,讓移動端收到 OnCall 的工程師獲得更好的體驗以及更好的資料分析的體驗。

Datadog Dash 2024 新功能解析

觀測雲也有自己的 APP,但坦白來說,整體能力還是距離 Datadog 比較遠。

Part 2: DASH 2024 Infrastructure Roundup

雲費用管理

Datadog 加強了其雲費用管理的功能,包括了以下這些能力:

1、将所有雲服務的費用管理集中分析,包括一些 SaaS 服務的費用統計支援

Datadog Dash 2024 新功能解析

2、可以監控管理雲費用的變化

Datadog Dash 2024 新功能解析

3、提供面向 AWS的費用建議

Datadog Dash 2024 新功能解析

4、支援 Twilio(雲通信)的費用

Datadog Dash 2024 新功能解析

對觀測雲來說,雲費用管理更是已經類似解決方案的能力,我們目前并沒有直接将這個能力封裝成功能,但是由于觀測雲強大的配置能力,實際上我們不少使用者就在使用觀測雲對自己的阿裡雲華為雲 AWS 的費用進行分析管理和監控,未來我們考慮可以将這一部分能力設計的更好,向 Datadog 學習。

Serverless 監控

1、遠端插樁 Lambda 的應用

Datadog Dash 2024 新功能解析

2、提供全面的 AWS Step Functions 的可視化支援

Datadog Dash 2024 新功能解析

3、自動插樁 Azure App Service Linux Web Apps

Datadog Dash 2024 新功能解析

4、自動插樁 Google Cloud Run services

Datadog Dash 2024 新功能解析

可以看出 Datadog 不斷加強對于 Lambda 類型的函數計算的能力的支援,同時也看到 Datadog 對于多雲的廣泛支援。對于觀測雲來說,這部分是落後的,我們目前針對 AWS 還隻是通過 AWS 的開源 Lambda Layer Extension 實作對 AWS Lambda 的支援,自己的 Layer Extension 正在開發中。是以這部分追趕尚需時日。

日志管理

1、通過 DDAgent 進行采集資料時的脫敏

Datadog Dash 2024 新功能解析

2、提供更廉價的日志存儲方案 Flex Logs

Datadog Dash 2024 新功能解析

對于日志管理這兩塊的增強,首先第一個能力,觀測雲在一開始大量的技術都是放在用戶端側,是以端側脫敏從一開始觀測雲通過 Pipeline 就支援了。 和 Datadog 相反,我們恰恰剛剛提供了中心側的處理能力包括脫敏能力。

而日志本身提供更廉價分層,也是觀測雲努力的目标,期待在今年内看到我們有趣的存儲方案。

網絡監控

1、找到網絡路徑中的問題

Datadog Dash 2024 新功能解析

2、從 IP 庫 了解 IP 位址的資訊

Datadog Dash 2024 新功能解析

3、網絡性能的監控能力

Datadog Dash 2024 新功能解析

4、為自定義發現的網絡裝置追加 Tag

Datadog Dash 2024 新功能解析

和觀測雲一樣,Datadog 對本地網絡監控能力也是後期追加的,也算在 npm 領域的追趕着,可能觀測雲在網絡裝置監控相關能力還比較弱,相較于 Zabbix,目前我們也在抓緊這部分能力的補全。

分析能力

1、DDSQL Editor

Datadog Dash 2024 新功能解析

2、快速基于圖形的根因分析

Datadog Dash 2024 新功能解析

3、更好的告警分析面闆

Datadog Dash 2024 新功能解析

4、基礎設施故障與變更關聯

Datadog Dash 2024 新功能解析

這兩個分析能力對于觀測雲來說,第一個是基于 DQL 現在就有的能力,除了不是 SQL,我們早就可以做類似的自主分析,當然其實也可以基于 SQL,如果使用我們部署版本的客戶,其實是可以打開 SQL 入口的。

第二個功能,又是一個結合大模型的功能,對我們非常有啟發,期待後續提供類似的能力。

第三個功能非常值得借鑒,我們會盡快研究推出類似的能力。

第四個變更的關聯分析這種能力也是 Datadog 完整變更觀測的一部分,我們在整體的變更觀測分析功能推出的時候會展現出來。

平台能力

1、Datadog Disaster Recovery

Datadog Dash 2024 新功能解析

2、通過 Fleet Automation 管理 DDAgent

Datadog Dash 2024 新功能解析

3、支援了美國政府專有雲

Datadog Dash 2024 新功能解析

關于這些,Datadog Disaster Recovery 是 Datadog 作為一個 SaaS 給到管理者一個超級權限進行行為兜底,顯然是為了取得大企業的信任,當然這一點上觀測雲本身提供 OP 模式,在 OP 模式下的控制台就有這個能力。

而 Fleet Automation 對應的是觀測雲的 DCA(Datakit Control Administer),可以幫你輕松的管理所有的 Agent。

關于支援美國政府專有雲這點我想說得是觀測雲剛剛取得了阿裡雲飛天專有雲的相容和适配認證,可以全方位的為所有的阿裡雲專有雲使用者提供服務。當然我們同時也支援包括華為雲的 HCS 和騰訊雲的 TCS。

Part 3: DASH 2024 Applications Roundup

APM 和持續追蹤的增強

1、提升了 apm 的探針的配置簡易度

Datadog Dash 2024 新功能解析

這塊使用者體驗部分 Datadog 加強了,觀測雲之前和 Datadog 一樣是配置流,而不是 Newrelic Dynatrace 這種簡易安裝流的,當然看到 Datadog 妥協了,我們也會盡快妥協。(但确實這種建議流在實際使用中會有很多問題,更适合一開始擷取使用者的好感和簡單應用,關于這一點後面會寫文章展開解釋)

2、了解服務的健康度

Datadog Dash 2024 新功能解析

3、支援分布式鍊路追蹤的瀑布流形态

Datadog Dash 2024 新功能解析

這個能力觀測雲差不多兩年前就支援了,很高興看到 2024 年的 Datadog 才支援,而且居然整體設計和我們近乎一樣。

4、分析運作時 Profiling 能力

Datadog Dash 2024 新功能解析

目前觀測雲正在支援 Profiling 資料的名額提取功能,會增加更多的分析名額時間線(當然也會增加費用),至于後續是否要提供這樣一個分析能力,我們會先對客戶做一番了解(主要會增加不少成本),Datadog 當然是賣得非常貴。

5、Go 語言的 Profiling CPU Cost 顯著下降 14%

Datadog Dash 2024 新功能解析

觀測雲相容 ddtrace 的 Profiling 的元件,如果用這個元件,天然會獲得這個能力。

6、自動分析記憶體洩漏趨勢的應用

Datadog Dash 2024 新功能解析

非常好的能力,觀測雲将盡快跟進。

資料服務可觀測

1、Data Jobs Monitoring 監控大資料傳輸處理

Datadog Dash 2024 新功能解析

2、Data Streams Monitoring 支援更多的資料産品(Spark jobs, S3 buckets, Snowflake tables)

Datadog Dash 2024 新功能解析

3、跟蹤下遊資料消費

Datadog Dash 2024 新功能解析

4、通過 Datadog USM 自動發現 PostgresQL 和 Kafka

5、直接監控管理 Snowflake

Datadog Dash 2024 新功能解析

6、 PG 的 Schema 可觀測的支援

Datadog Dash 2024 新功能解析

對于 Data 的整體監控觀測方案,觀測雲确實落後 Datadog 不少,因為海外技術生态,不管資料庫和大資料系統都相對統一,沒有那麼多的七七八八的開源分支,使得 Datadog 在這件事情上做起來相對标準,可以提供标準化産品。當然觀測雲本身也沒在這部分做過多的投入,我們目前也在思考注入和 AutoMQ,Oceanbase 等中國自己的産品合作,共同打造一整套的面向資料處理過程的全面觀測方案。

數字型驗分析加強

1、更強大的前端性能分析輔助

Datadog Dash 2024 新功能解析

觀測雲也在不斷優化自己的 Rum 頁面分析能力,這個能力非常好,我們會盡快引入。

2、使用真實使用者流量資料來揭示代碼中的問題

Datadog Dash 2024 新功能解析

這又是一個非常提升前端工程師體驗的功能,将所有 Rum 元素整合起來友善工程師分析,我們會考慮支援這個能力。

3、支援 Rum session Replay的尾部采樣

這個功能觀測雲早就支援了,可以通過 Datakit 對擷取的 Session Replay 進行采樣,比如隻采集有錯誤的Replay。

4、支援 Unity SDK

Datadog Dash 2024 新功能解析

又一個觀測雲更早支援的能力,觀測雲早就支援了 Unity 應用。

5、混合程式設計應用的 Crash 報表整合

Datadog Dash 2024 新功能解析

這塊能力 Datadog 一緻做得體驗非常好,我們加油吧。

6、優化浏覽器 SDK 的內建

Datadog Dash 2024 新功能解析

這塊網頁版的 SDK 注入友善程度,觀測雲也非常簡單易用。

7、通過 VScode 插件重制錯誤

Datadog Dash 2024 新功能解析

又是一個寵程式員的功能,Datadog 真的非常寵程式員,相信大家對這個能力都很有興趣,但公司願意多付費嗎?

DASH 2024: Guide to Datadog's newest announcements for security

Datadog 不斷地補強他的安全能力,在這部分由于觀測雲目前沒有任何進軍安全的想法,故不做解讀,有興趣的朋友可以自己檢視原文。

DASH 2024: Guide to Datadog's newest announcements for teams

服務可靠性與傳遞相關

1、團隊 Dora 名額觀測

Datadog Dash 2024 新功能解析

這個功能也是治理方面的,算是一個內建 Dashboard,如果哪位有需要,觀測雲可以也提供類似的看闆,當然也可以提供更多的看闆。

2、整體 SLO 的觀測大屏

Datadog Dash 2024 新功能解析

這個能力同上,也是一個整合的 Dashboard,觀測雲針對 SLO 也有自己的看闆,風格不同。

團隊資料通路能力

1、Datadog CoTerm

Datadog Dash 2024 新功能解析

Datadog 收購了 CoTerm 以後,将 CoTerm 的能力整合進來了,但第一個能力居然是協同的終端,同時相當于提供了一個類似堡壘機的能力。

2、跨組織的資料分析

Datadog Dash 2024 新功能解析

這個能力觀測雲估計已經有了超過一年了,而且觀測雲還可以将不同組織的資料 union 查詢,希望 Datadog 盡快跟上,畢竟已經開始提供 DDSQL 了。

3、Datadog App Builder

Datadog Dash 2024 新功能解析

Datadog 的 Dashboard 可以通過 AppBuilder 建構互動式應用,關于這個能力其實觀測雲也有,當然使用者體驗稍遜,大家如果需要了解的話可以在觀測雲的 Dashboard 中選擇指令空間,然後在觀測雲的 Func 中編寫對應的執行函數,就可以将 Dashboard 化身為一個帶互動的應用。

線上 sheet 分析能力

Datadog Dash 2024 新功能解析

這是個非常友好的功能。支援将導出的 CSV 檔案不用本地 Excel 分析,Datadog 提供了一個線上的 Excel 分格的 CSV 分析能力。

管理敏感資料

Datadog Dash 2024 新功能解析
Datadog Dash 2024 新功能解析

這兩個功能我們去年就完全支援了。給觀測雲提出這個需求的是非常注重安全合規的世界五百強頭部公司,他們同時也是 Datadog 的大使用者。

總結

Datadog 作為目前全球監控觀測領域的上司者,是非常值得觀測雲這樣的後來者學習的,大家如果仔細看了Datadog Dash 2024 展示的一些新的功能和改進後就會發現幾個點:

  • Datadog 試圖不斷的将企業的 IT 團隊的人通過一個平台整合起來
  • Datadog 非常注重讨好工程師,非常關注使用者體驗,傳遞了尊重每一個工程師的理念
  • Datadog 開始擴充自己的邊界,包括沒有提的安全部分

另外我們非常自豪的表示,觀測雲整體的設計思路和理念是和 Datadog 近乎一樣的,是以才會出現很多功能甚至觀測雲更早的支援,因為我們相信很多功能需求是來源于最終使用者的,我們面對的使用者是一種使用者,那麼大家才會出現很多相似的想法。(包括去年 Datadog 釋出的 Case Management 幾乎和觀測雲的異常追蹤功能是同月上線的)。