0、前言
盡管資料行業的新詞熱度,由大資料平台->資料治理->資料中台->數字化轉型(現代資料技術棧)轉換,做為這些新詞的基礎組成部分,資料資産管理平台/中繼資料管理平台/資料目錄管理平台等技術方案,依舊處于Gartner曲線的爬升恢複期,相關平台百花齊放,一統江湖的開源平台或者商用産品還沒出現,在推進企業數字化轉型落地過程中,實作資料治理、資料資産管理平台/中繼資料管理平台/資料目錄管理平台的選型,依舊是一項考驗人能力的活。
一、Atlas
開源位址:https://github.com/apache/atlas
Atlas最早由大資料平台三駕馬車(Cloudera,Hortonworks,MapR)之一HortonWorks公司開發,用來管理Hadoop項目裡面的中繼資料,進而設計為資料治理的架構,它為Hadoop叢集提供了包括資料分類、集中政策引擎、資料血緣、安全和生命周期管理在内的中繼資料治理核心能力。
後來開源出來給Apache社群進行孵化,得到Aetna,Merck,Target,SAS,IBM等公司的支援進行發展演進。因其支援橫向海量擴充、良好的內建能力和開源的特點,國内大部分廠家選擇使用Atlas或對其進行二次開發。目前,Cloudera,Hortonworks已經并購,MapR也鮮有新品。
大資料技術領域,相較于Hadoop技術平台風頭正盛的2016年,已經發生了巨大的變化,Hadoop體系正在逐漸淡出舞台中央。MPP、現代技術棧、雲原生資料庫等登上舞台,例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。
Atlas的優點:
- 大廠開源,深度內建Hadoop生态中的Hive,支援表級、字段級血緣
- 與HDP原生內建,支援對接Ranger實作行列級資料權限管控,安裝便捷省心
- 強大的中繼資料元模型,支援中繼資料定制及擴充
- 源代碼不複雜,國内有大量平台基于Atlas定制修改為商用産品
Atlas的不足:
- 其優勢也是劣勢,母開源公司已被并購,曆史悠久,不再是一種優勢,反而是一種負擔
- Hadoop體系已經走向衰退,如何隻是完美支援Hive和Hadoop體系,已經無法滿足現在快速發展的技術要求
- 其設計界面複雜,體驗老舊、資料目錄及資料檢索都不夠便捷
- 使用體驗複雜及産品功能更聚焦于解決技術人員的問題,而非資料的最終使用者,比如業務人員
- 生态漸漸失去新鮮感、新的類似平台不斷發展
相關介紹:https://mp.weixin.qq.com/s/MvaxSF74NE0E43i4rQEb3g
選型建議:
1)如果您隻有Hadoop生态,可以試試。
2)如果您的資料資産是面向資料團隊的技術人員,可以試試。
二、DataHub
開源位址:https://github.com/datahub-project/datahub 7.2K star
DataHub是由Linkedin開源的,官方Slogan:The Metadata Platform for the Modern Data Stack - 為現代資料棧而生的中繼資料平台。目的就是為了解決多種多樣資料生态系統的中繼資料管理問題,它提供中繼資料檢索、資料發現、資料監測和資料監管能力,幫助大家解決資料管理的複雜性。
DataHub基于Apache License 2開源,采用基于推送的資料收集架構(當然也支援pull拉取的方式),能夠持續收集變化的中繼資料。目前版本已經內建了大部分流行資料生态系統接入能力,包括但不限于:Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。
Datahub的優點:
- 名門開源,與Kafka同家庭。社群活躍,發展勢頭迅猛,版本更新疊代迅速。
- 定位清晰且宏遠,Slogan可以看出團隊的雄心壯志及後期投入,且不斷疊代更新的版本也應證了這一點。
- 底層架構靈活先進,未擴充內建而生,支援推送和拉去模式,詳見:https://datahubproject.io/docs/architecture/architecture/
- UI界面簡單易用,技術人員及業務人員友好
- 接口豐富,功能全面
Datahub的不足:
- 前端界面不支援國際化,界面的建構和使用邏輯不夠中國化
- 版更更新疊代快,使用後更新是個難題
- 較多功能在建設中,例如Hive列級血緣
- 部分功能性能還需要優化,例如SQL Profile
- 中文資料不多,中文交流社群也不多
相關介紹:
https://mp.weixin.qq.com/s/74gK3hTt7-j1lTbKFagbTQ
https://mp.weixin.qq.com/s/iP6sc2DzPaeAKpSWNmf8hQ
選型建議:1)如果有至少半個前端開發人員+背景開發人員;2)如果需要使用者體驗較好的資料資産管理平台;3)如果有需要擴充支援各種平台、系統的中繼資料。請把Datahub列為最高選擇。盡管列舉了一些不足,但是開源産品中Datahub目前是相對最好的選擇。筆者也在生産中使用,有問題的可以随時溝通交流。
商用版本: Metaphor(https://metaphor.io/)是Datahub的SaaS版本。
三、Marquez
開源位址:https://github.com/MarquezProject/marquez 1.3K star
Marquez的優點:
- 界面美觀,操作細節設計比較棒
- 部署簡單,代碼簡潔
- 依靠底層OpenLineage協定,結構較好
Marquez的不足:
- 聚焦資料資産/血緣的可視化,資料資産管理的一些功能,需要較多開發工作
相關介紹:https://mp.weixin.qq.com/s/OMm6QEk9-1bFdYKuimdxCw
選型建議:1)如果您有功能強大的中繼資料及資料資産管理平台後端,僅需要資料資産的可視化及血緣展示,可以考慮使用體驗。2)界面展示比較棒,支援選擇依賴線路高亮及隐藏支線依賴。要做到資料資産管理、中繼資料采集有較多的工作要做。
商用版本: Datakin(https://datakin.com/) 是Marquez的SaaS版本. 支援 Apache Hive, Amazon RDS, Teradata, Amazon Redshift, Amazon S3, and Cassandra.
四、Amundsen
開源位址:https://github.com/amundsen-io/amundsen 3.8K star
Amundsen 是來自Lyft 開源的中繼資料管理、資料發現平台,功能點很全,有一個比較全的前端、後端以及資料處理架構
Amundsen的優點:
- Lyft大廠開源,社群活躍,版本更新較多
- 定位清晰明确,與Datahub類似,緻力于成為現代資料棧中的資料目錄産品
- 支援對接較多的資料平台與工具
Amundsen的不足:
- 中規中矩的UI界面,操作便捷性不足
- 中文文檔不多
- 血緣、标簽、術語等功能方面不如Datahub使用便捷
- 較多支援友好的元件,國内使用的不多
相關介紹:
https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw
https://mp.weixin.qq.com/s/5w6euvUWzm5RWXgisB-rMg
https://mp.weixin.qq.com/s/iVocnMV8zuQN-jcID83nSg
選型建議:
1)如果有人折騰,建議選擇Datahub,如果沒人折騰,選擇Amundsen夠折騰
商用版本: Stemma(https://www.stemma.ai/)是Amundsen的SaaS 版本。
五、Open Data Discovery
開源位址:https://github.com/opendatadiscovery/odd-platform (692 star)
Open Data Discover是一個開源的資料發現和可觀測性平台。它旨在通過使資料更易于發現、管理、可觀察、可靠和安全,幫助資料驅動企業實作資料民主化。由于ODD支援開放資料标準,是以資料團隊能夠在各種資料工具之間進行更高效的資料交換。
說實在,平台的UI确實非常漂亮。它的攝取是基于規範的。但是,該平台正在開發中,是以一些功能仍在開發中。
Open Data Discovery的優點:
- 提供線上體驗Demo環境,有助于推廣拉新
- UI界面美觀漂亮,界面操作邏輯符合國人使用習慣
- 項目年輕,能夠在已有的衆多資料資産項目中吸取經驗
- 內建了資料品質子產品
- Datahub有的一些優秀功能都做了規劃
- 支援開放資料标準,感覺也沒啥用,國内玩不轉
- 提供了排程工作流告警接口
- 基于資料可觀測的新理念設計
- ML是第一等公民,這個是對賭未來的AI發展預期
Open Data Discovery的不足:
- 項目處于起步階段,社群還不太活躍
- 與Datahub大量功能重疊
- 中文資料少的可憐
- 産品的定位?
相關介紹:https://demo.oddp.io/ 百聞不如一見,百見不如一幹。
選型建議:項目處于早期,國内生态還未起來。有嘗新意識和樂于折騰精神的人,可以去跟蹤、研究。生産環境搭建使用,需要做好前、後端問題,都去深挖源碼的準備。
六、Open Metadata
開源位址:https://github.com/open-metadata/OpenMetadata (1.9K star)
OpenMetadata是中繼資料的開放标準,為端到端中繼資料管了解決方案提供了基礎能力。提供資料發現、資料治理、資料協同、資料品質和可觀測性的所有必要元件。
與Open Data Discover類似,其UI非常美觀,其操作和使用邏輯,也符合業務人員的習慣。
Open Metadata的優點:
- 提供線上體驗Demo環境,有助于推廣拉新
- UI界面美觀漂亮,界面操作邏輯符合國人使用習慣
- 項目年輕,能夠在已有的衆多資料資産項目中吸取經驗
- 內建了資料品質子產品
- 支援開放資料标準,感覺也沒啥用,國内玩不轉
- 基于資料可觀測的新理念設計
Open Metadata的不足:
- 項目處于起步階段,國人參與不多
- 與Open Data Discovery的區分度不是特别大
- 産品還在快速開發中
- 中文資料少的可憐
相關介紹:https://sandbox.open-metadata.org/ 百聞不如一見,百見不如一幹。
選型建議:項目處于早期,國内生态還未起來。有嘗新意識和樂于折騰精神的人,可以去跟蹤、研究。生産環境搭建使用,需要做好前、後端問題,都去深挖源碼的準備。
商用版本:collate(https://www.getcollate.io/)是Open Metadata的SaaS版本。
七、Magda
開源位址:https://github.com/magda-io/magda (408 star)
Magda是一個資料目錄系統,提供資料編目、增強、搜尋、跟蹤和排序等功能。支援内部、外部資料源,支援大資料及小資料處理,支援通過檔案、資料庫或API的方式對外提供資料資産服務。
目标使用者:資料技術人員,例如資料分析師、資料科學家和資料工程師。
價值目标:為資料技術人員,提供曆史資料版本管理、重複資料檢測等輔助功能,提高資料查詢、管理的效率及品質。
Magda的優點:
- 輕量、簡單的資料目錄管理平台
- 支援資料預覽
- 功能聚焦,獨立部署
- 界面樸素簡潔
- 支援地圖資料
Magda的不足:
- 功能單一,與下面的CKAN一樣,定位于資料編目,資料展示及共享
- 海量資料傳輸,性能有問題
- 不支援現代大資料同步、內建
- 功能相對單一
相關介紹:https://demo.dev.magda.io/ 百聞不如一見,百見不如一試。
選型建議:現在的資料中台、資料資産平台都會包含類似的資料門戶,Magda的功能會被內建,企業基本上比較少的場景會單獨使用。
八、CKAN
開源位址:https://github.com/ckan/ckan (3.7K star)
CKAN是世界領先的開源資料門戶平台,用于制作開放資料網站的工具。CKAN使釋出、共享和處理資料變得容易。這是一個資料管理系統,它為編目、存儲和通路資料集提供了強大的平台,具有豐富的前端、完整的API(用于資料和目錄)、可視化工具等。
上面的描述,是直接百度翻譯CKAN github首頁的描述。用大白話說,CKAN就是一個工具,可以幫助您把個人或者企業的資料集通過網站的方式展示出去。其他人可以浏覽、檢索、預覽、編目、下載下傳。CKAN非常适合國家、地方政府、研究機構、學校和其他組織用于開放資料。
CKAN的優點:
- Python主要開發語言,上手入門似乎不是問題哈
- 曆史悠久,有大量的政府、研究組織用來開放公開資料
- 使用簡單、獨立部署
- 功能聚焦,中小規模資料編目、開發、預覽及下載下傳
CKAN的不足:
- 聚焦于資料門戶,即編目組織資料、提供資料預覽及下載下傳。
- 海量資料傳輸,性能有問題
- 不支援現代大資料同步、內建
- 功能相對單一
相關介紹:https://blog.csdn.net/iCloudEnd/article/details/125676123
選型建議:現在的資料中台、資料資産平台都會包含類似的資料門戶,CKAN的功能會被內建,企業基本上比較少的場景會單獨使用。政府、學校等機構有不少應用場景。
總結
資料治理、資料資産管理等工作,是企業數字化轉型中的底層基建,很重要,卻又很難展現出效果和價值。上層資料戰略、資料架構、資料流程、資料規範等問題,在組織層面沒有解決;不論資料資産平台等工作規劃和實作得如何好,都隻能展現出杯水車薪的效果。
參考資料:
1.wx公衆号(大資料流動)-《12款開源資料資産(中繼資料)管理平台選型分析(一)》
2.wx公衆号(大資料與數字化轉型)-《12款開源資料資産(中繼資料)管理平台選型分析(二)》