0、前言

盡管資料行業的新詞熱度，由大資料平台->資料治理->資料中台->數字化轉型（現代資料技術棧）轉換，做為這些新詞的基礎組成部分，資料資産管理平台/中繼資料管理平台/資料目錄管理平台等技術方案，依舊處于Gartner曲線的爬升恢複期，相關平台百花齊放，一統江湖的開源平台或者商用産品還沒出現，在推進企業數字化轉型落地過程中，實作資料治理、資料資産管理平台/中繼資料管理平台/資料目錄管理平台的選型，依舊是一項考驗人能力的活。

一、Atlas

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/apache/atlas

Atlas最早由大資料平台三駕馬車（Cloudera,Hortonworks,MapR）之一HortonWorks公司開發，用來管理Hadoop項目裡面的中繼資料，進而設計為資料治理的架構，它為Hadoop叢集提供了包括資料分類、集中政策引擎、資料血緣、安全和生命周期管理在内的中繼資料治理核心能力。

後來開源出來給Apache社群進行孵化，得到Aetna，Merck，Target，SAS，IBM等公司的支援進行發展演進。因其支援橫向海量擴充、良好的內建能力和開源的特點，國内大部分廠家選擇使用Atlas或對其進行二次開發。目前，Cloudera,Hortonworks已經并購，MapR也鮮有新品。

大資料技術領域，相較于Hadoop技術平台風頭正盛的2016年，已經發生了巨大的變化，Hadoop體系正在逐漸淡出舞台中央。MPP、現代技術棧、雲原生資料庫等登上舞台，例如Clickhouse、Doris、StarRocks、Databend、Materialize、Ringswave。

Atlas的優點：

大廠開源，深度內建Hadoop生态中的Hive，支援表級、字段級血緣
與HDP原生內建，支援對接Ranger實作行列級資料權限管控，安裝便捷省心
強大的中繼資料元模型，支援中繼資料定制及擴充
源代碼不複雜，國内有大量平台基于Atlas定制修改為商用産品

Atlas的不足：

其優勢也是劣勢，母開源公司已被并購，曆史悠久，不再是一種優勢，反而是一種負擔
Hadoop體系已經走向衰退，如何隻是完美支援Hive和Hadoop體系，已經無法滿足現在快速發展的技術要求
其設計界面複雜，體驗老舊、資料目錄及資料檢索都不夠便捷
使用體驗複雜及産品功能更聚焦于解決技術人員的問題，而非資料的最終使用者，比如業務人員
生态漸漸失去新鮮感、新的類似平台不斷發展

相關介紹：https://mp.weixin.qq.com/s/MvaxSF74NE0E43i4rQEb3g

選型建議：

1）如果您隻有Hadoop生态，可以試試。

2）如果您的資料資産是面向資料團隊的技術人員，可以試試。

二、DataHub

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/datahub-project/datahub 7.2K star

DataHub是由Linkedin開源的，官方Slogan：The Metadata Platform for the Modern Data Stack - 為現代資料棧而生的中繼資料平台。目的就是為了解決多種多樣資料生态系統的中繼資料管理問題，它提供中繼資料檢索、資料發現、資料監測和資料監管能力，幫助大家解決資料管理的複雜性。

DataHub基于Apache License 2開源，采用基于推送的資料收集架構（當然也支援pull拉取的方式），能夠持續收集變化的中繼資料。目前版本已經內建了大部分流行資料生态系統接入能力，包括但不限于：Kafka, Airflow, MySQL, SQL Server, Postgres, LDAP, Snowflake, Hive, BigQuery。

Datahub的優點：

名門開源，與Kafka同家庭。社群活躍，發展勢頭迅猛，版本更新疊代迅速。
定位清晰且宏遠，Slogan可以看出團隊的雄心壯志及後期投入，且不斷疊代更新的版本也應證了這一點。
底層架構靈活先進，未擴充內建而生，支援推送和拉去模式，詳見：https://datahubproject.io/docs/architecture/architecture/
UI界面簡單易用，技術人員及業務人員友好
接口豐富，功能全面

Datahub的不足：

前端界面不支援國際化，界面的建構和使用邏輯不夠中國化
版更更新疊代快，使用後更新是個難題
較多功能在建設中，例如Hive列級血緣
部分功能性能還需要優化，例如SQL Profile
中文資料不多，中文交流社群也不多

相關介紹：

https://mp.weixin.qq.com/s/74gK3hTt7-j1lTbKFagbTQ

https://mp.weixin.qq.com/s/iP6sc2DzPaeAKpSWNmf8hQ

選型建議：1）如果有至少半個前端開發人員+背景開發人員；2）如果需要使用者體驗較好的資料資産管理平台；3）如果有需要擴充支援各種平台、系統的中繼資料。請把Datahub列為最高選擇。盡管列舉了一些不足，但是開源産品中Datahub目前是相對最好的選擇。筆者也在生産中使用，有問題的可以随時溝通交流。

商用版本: Metaphor（https://metaphor.io/）是Datahub的SaaS版本。

三、Marquez

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/MarquezProject/marquez 1.3K star

Marquez的優點：

界面美觀，操作細節設計比較棒
部署簡單，代碼簡潔
依靠底層OpenLineage協定，結構較好

Marquez的不足：

聚焦資料資産/血緣的可視化，資料資産管理的一些功能，需要較多開發工作

相關介紹：https://mp.weixin.qq.com/s/OMm6QEk9-1bFdYKuimdxCw

選型建議：1）如果您有功能強大的中繼資料及資料資産管理平台後端，僅需要資料資産的可視化及血緣展示，可以考慮使用體驗。2）界面展示比較棒，支援選擇依賴線路高亮及隐藏支線依賴。要做到資料資産管理、中繼資料采集有較多的工作要做。

商用版本: Datakin（https://datakin.com/）是Marquez的SaaS版本. 支援 Apache Hive, Amazon RDS, Teradata, Amazon Redshift, Amazon S3, and Cassandra.

四、Amundsen

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/amundsen-io/amundsen 3.8K star

Amundsen 是來自Lyft 開源的中繼資料管理、資料發現平台，功能點很全，有一個比較全的前端、後端以及資料處理架構

Amundsen的優點：

Lyft大廠開源，社群活躍，版本更新較多
定位清晰明确，與Datahub類似，緻力于成為現代資料棧中的資料目錄産品
支援對接較多的資料平台與工具

Amundsen的不足：

中規中矩的UI界面，操作便捷性不足
中文文檔不多
血緣、标簽、術語等功能方面不如Datahub使用便捷
較多支援友好的元件，國内使用的不多

相關介紹：

https://mp.weixin.qq.com/s/yGZ1RJs2seu943sswxYYzw

https://mp.weixin.qq.com/s/5w6euvUWzm5RWXgisB-rMg

https://mp.weixin.qq.com/s/iVocnMV8zuQN-jcID83nSg

選型建議：

1）如果有人折騰，建議選擇Datahub，如果沒人折騰，選擇Amundsen夠折騰

商用版本: Stemma（https://www.stemma.ai/）是Amundsen的SaaS 版本。

五、Open Data Discovery

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/opendatadiscovery/odd-platform （692 star）

Open Data Discover是一個開源的資料發現和可觀測性平台。它旨在通過使資料更易于發現、管理、可觀察、可靠和安全，幫助資料驅動企業實作資料民主化。由于ODD支援開放資料标準，是以資料團隊能夠在各種資料工具之間進行更高效的資料交換。

說實在，平台的UI确實非常漂亮。它的攝取是基于規範的。但是，該平台正在開發中，是以一些功能仍在開發中。

Open Data Discovery的優點：

提供線上體驗Demo環境，有助于推廣拉新
UI界面美觀漂亮，界面操作邏輯符合國人使用習慣
項目年輕，能夠在已有的衆多資料資産項目中吸取經驗
內建了資料品質子產品
Datahub有的一些優秀功能都做了規劃
支援開放資料标準，感覺也沒啥用，國内玩不轉
提供了排程工作流告警接口
基于資料可觀測的新理念設計
ML是第一等公民，這個是對賭未來的AI發展預期

Open Data Discovery的不足：

項目處于起步階段，社群還不太活躍
與Datahub大量功能重疊
中文資料少的可憐
産品的定位？

相關介紹：https://demo.oddp.io/ 百聞不如一見，百見不如一幹。

選型建議：項目處于早期，國内生态還未起來。有嘗新意識和樂于折騰精神的人，可以去跟蹤、研究。生産環境搭建使用，需要做好前、後端問題，都去深挖源碼的準備。

六、Open Metadata

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/open-metadata/OpenMetadata （1.9K star）

OpenMetadata是中繼資料的開放标準，為端到端中繼資料管了解決方案提供了基礎能力。提供資料發現、資料治理、資料協同、資料品質和可觀測性的所有必要元件。

與Open Data Discover類似，其UI非常美觀，其操作和使用邏輯，也符合業務人員的習慣。

Open Metadata的優點：

提供線上體驗Demo環境，有助于推廣拉新
UI界面美觀漂亮，界面操作邏輯符合國人使用習慣
項目年輕，能夠在已有的衆多資料資産項目中吸取經驗
內建了資料品質子產品
支援開放資料标準，感覺也沒啥用，國内玩不轉
基于資料可觀測的新理念設計

Open Metadata的不足：

項目處于起步階段，國人參與不多
與Open Data Discovery的區分度不是特别大
産品還在快速開發中
中文資料少的可憐

相關介紹：https://sandbox.open-metadata.org/ 百聞不如一見，百見不如一幹。

商用版本：collate（https://www.getcollate.io/）是Open Metadata的SaaS版本。

七、Magda

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/magda-io/magda （408 star）

Magda是一個資料目錄系統，提供資料編目、增強、搜尋、跟蹤和排序等功能。支援内部、外部資料源，支援大資料及小資料處理，支援通過檔案、資料庫或API的方式對外提供資料資産服務。

目标使用者：資料技術人員，例如資料分析師、資料科學家和資料工程師。

價值目标：為資料技術人員，提供曆史資料版本管理、重複資料檢測等輔助功能，提高資料查詢、管理的效率及品質。

Magda的優點：

輕量、簡單的資料目錄管理平台
支援資料預覽
功能聚焦，獨立部署
界面樸素簡潔
支援地圖資料

Magda的不足：

功能單一，與下面的CKAN一樣，定位于資料編目，資料展示及共享
海量資料傳輸，性能有問題
不支援現代大資料同步、內建
功能相對單一

相關介紹：https://demo.dev.magda.io/ 百聞不如一見，百見不如一試。

選型建議：現在的資料中台、資料資産平台都會包含類似的資料門戶，Magda的功能會被內建，企業基本上比較少的場景會單獨使用。

八、CKAN

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

開源位址：https://github.com/ckan/ckan （3.7K star）

CKAN是世界領先的開源資料門戶平台，用于制作開放資料網站的工具。CKAN使釋出、共享和處理資料變得容易。這是一個資料管理系統，它為編目、存儲和通路資料集提供了強大的平台，具有豐富的前端、完整的API（用于資料和目錄）、可視化工具等。

上面的描述，是直接百度翻譯CKAN github首頁的描述。用大白話說，CKAN就是一個工具，可以幫助您把個人或者企業的資料集通過網站的方式展示出去。其他人可以浏覽、檢索、預覽、編目、下載下傳。CKAN非常适合國家、地方政府、研究機構、學校和其他組織用于開放資料。

CKAN的優點：

Python主要開發語言，上手入門似乎不是問題哈
曆史悠久，有大量的政府、研究組織用來開放公開資料
使用簡單、獨立部署
功能聚焦，中小規模資料編目、開發、預覽及下載下傳

CKAN的不足：

聚焦于資料門戶，即編目組織資料、提供資料預覽及下載下傳。
海量資料傳輸，性能有問題
不支援現代大資料同步、內建
功能相對單一

相關介紹：https://blog.csdn.net/iCloudEnd/article/details/125676123

選型建議：現在的資料中台、資料資産平台都會包含類似的資料門戶，CKAN的功能會被內建，企業基本上比較少的場景會單獨使用。政府、學校等機構有不少應用場景。

總結

資料治理、資料資産管理等工作，是企業數字化轉型中的底層基建，很重要，卻又很難展現出效果和價值。上層資料戰略、資料架構、資料流程、資料規範等問題，在組織層面沒有解決；不論資料資産平台等工作規劃和實作得如何好，都隻能展現出杯水車薪的效果。

參考資料：

1.wx公衆号（大資料流動）-《12款開源資料資産(中繼資料)管理平台選型分析（一）》

2.wx公衆号（大資料與數字化轉型）-《12款開源資料資産(中繼資料)管理平台選型分析（二）》

開源資料資産(中繼資料)管理平台選型對比0、前言一、Atlas二、DataHub三、Marquez四、Amundsen五、Open Data Discovery六、Open Metadata七、Magda八、CKAN總結

0、前言

一、Atlas

二、DataHub

三、Marquez

四、Amundsen

五、Open Data Discovery

六、Open Metadata

七、Magda

八、CKAN

總結

繼續閱讀

TiDB PD 元件代碼閱讀

atlas 初體驗

中繼資料是什麼？怎麼管？

Hive分區表新增字段值為NULL背景原因方案

Flex中繼資料标簽之[Style]

喜訊！麥聰DaaS平台榮獲“2022行業資訊化優秀産品”獎

Relabeling 重新标記

OpenStack的Windows鏡像制作

調試HeapAlloc虛拟配置設定時的發現(xp sp3+vc++6)

CentOs8系統安裝mailx發郵件

TS流分析-PMT包

C# 反射機制詳解

網易遊戲 Flink SQL 平台化實踐

企業資料中台選型時該從哪些方面考慮？

資料中台選型必讀（二）：資料中台如何搭建中繼資料管理中心

資料中台選型必讀（一）：中繼資料管理是資料使用與共享的根基