天天看點

實時處理大資料的分布式系統Druid-IO

druid 是一個用于大資料實時查詢和分析的高容錯、高性能開源分布式系統,旨在快速處理大規模的資料,并能夠實作快速查詢和分析。

druid 具有以下主要特征:

為分析而設計——druid 是為 olap 工作流的探索性分析而建構,它支援各種過濾、聚合和查詢等類;

快速的互動式查詢——druid 的低延遲資料攝取架構允許事件在它們建立後毫秒内可被查詢到;

高可用性——druid 的資料在系統更新時依然可用,規模的擴大和縮小都不會造成資料丢失;

可擴充——druid 已實作每天能夠處理數十億事件和 tb 級資料。

當業務中出現以下情況時,druid 是一個很好的技術方案選擇:

需要互動式聚合和快速探究大量資料時;

需要實時查詢分析時;

具有大量資料時,如每天數億事件的新增、每天數 10t 資料的增加;

對資料尤其是大資料進行實時分析時;

需要一個高可用、高容錯、高性能資料庫時。

查詢操作中資料流和各個節點的關系如下圖所示:

實時處理大資料的分布式系統Druid-IO

如下圖是 druid 叢集的管理層架構,該圖展示了相關節點和叢集管理所依賴的其他元件(如負責服務發現的zookeeper叢集)的關系:

實時處理大資料的分布式系統Druid-IO

本文作者:佚名

來源:51cto