熱度再起：從Databricks融資談起

就在本周一，大資料初創公司Databricks在官網宣布他們完成了10億美元的G輪融資，對公司的估值為280億美元。作為同類公司，之前Snowflake的IPO就引發資本的熱捧，此次Databricks的融資也印證了這點。為什麼資本對資料平台公司如此關注？正如之前我的一篇《當紅炸子雞Snowflake》中談到，“雲計算+大資料”催收了無限遐想空間。下面就讓我們來看看這個獨角獸Databricks的情況。本文内容部分摘自Databricks官網。

1. Databricks公司概況

人生基本上就是兩件事，選題和解題。最好的人生是在每個關鍵點上，既選對題，又解好題。人生最大的痛苦在于解對了題，但選錯了題，而且還不知道自己選錯了題。正如人生最大的遺憾就是，不是你不行，而是你本可以。

Databricks成立于2013年，總部位于美國加州的舊金山。公司專注于大資料和人工智能，為資料和人工智能提供了一個開放和統一的平台，使資料科學團隊能夠更快，更安全地工作。目前這家初創公司擁有約1500名員工和6000家企業客戶。公司創始人都曾經是 Apache Spark 背後的功臣，包括 Matei Zaharia（在加州大學伯克利分校 AMPLab 學習時開發出了 Spark），還有其他來自 AMPLab 或伯克利計算機學院的同僚們，如 Ion Stoica、Reynold Xin、Andy Konwinski 和 Arsalan Tavakoli-Shiraji。可以說Spark 之于 Databricks，就像 Hadoop 之于 Cloudera，或者 NoSQL 資料庫之于 MongoDB。Spark 确實是 Databricks 公司規劃的關鍵部分，但也隻是他們多元化 SaaS 産品的一個組成元素。

1).融資情況

本次G輪融資是由富蘭克林鄧普頓基金集團領投，其他投資者還包括富達管理和研究公司、Whale Rock等，亞馬遜雲計算業務部門、Salesforce風投等也是新的戰略投資者。在其以往的投資者中，還包括微軟、Andreessen Horowitz、Alkeon 資本管理公司、貝萊德管理的基金和賬戶、Coatue管理公司、老虎環球管理的基金等。這其中微軟、亞馬遜頗為引入注目，因為這兩者也是Databricks在雲端托管的平台方。這兩家公司的投資，也說明非常看好其未來發展，并願意與之共同成長。此外，據外媒報道，華爾街對 Databricks 在 2021 年正式 IPO 抱有非常高的期待。一位知情人士表示：“當 Databricks 上市時，其市值可能會達到 350 億美元，甚至可能高達 500 億美元”。

2).業務模式

公有雲在歐美國家已經成為主流，在這個大背景下，雲原生成為了新一代資料架構的主流标準。公有雲所提供的對象存儲、彈性計算、按需使用等特性在架構設計的考慮中需要重新設計。除了公有雲廠商的标配服務外，如 SnowFlake、Databricks 等跨雲平台的第三方服務提供商自然也受到使用者和資本市場的追捧。在其服務模式下，進入一種SaaS業務模式。與傳統商業軟體售賣模式或者類似紅帽的開源商業模式（軟體免費、服務收費）不同，後者提供的是一種雲端托管類服務。在雲端托管開源項目并把它們租給使用者，這是一種更好的業務模式。這種模式的客戶流失率更低，客戶會更開心，利潤增長更快。使用者租賃 Databricks的服務，而後者負責保證安全性、可靠性和可用性。Databricks 使用開源軟體（如 Kubernetes）為各種資料工程、資料分析和機器學習負載提供伸縮能力，還開發了專有軟體來保證雲服務的可用性。客戶隻要關心其自身業務即可。此外，SaaS 租賃模式還為 Databricks 的資産（也就是知識産權）提供了保護。Databricks 的核心知識産權并不存在于它所贊助的軟體項目中，因為這些軟體項目是公開的。事實上，Databricks 最有價值的知識産權存在于它用來監控和管理雲端軟體的工具和技術中，它們不會像經典的開源模式那麼容易被洩露。

2. Databricks公司産品

Databricks産品，底層建構在公有雲平台上，目前支援AWS和Azure；中層由多款産品組成Runtime環境，上層通過統一的Workspace友善資料人員進行工作。

資料科學家

通過可視化或選擇語言快速浏覽資料，進行協作，并通過實時互動儀表闆來分享見解。
ML工程師

協同建構和管理從試驗到生産的模型，大規模部署以進行批處理或實時處理，并監視工作負載。
業務分析師

使用SQL、可視化報表等發現大型資料集的問題，并可使用BI工具分析。
資料工程師

使用Scale、Java和内置筆記本和API建立強大資料管道，自動化和監視生成作業。

❖ Spark

Databricks Runtime是基于高度優化的Apache Spark版本建構的資料處理引擎，性能提高了50倍。性能的顯着提高實作了以前無法用于資料處理和管道的新用例，并提高了資料團隊的生産力。Databricks為Spark封裝了一套用于自動化和管理的內建服務，以使資料團隊可以更輕松地建構和管理管道，同時為IT團隊提供管理控制權。它在自動擴充基礎架構上運作，無需DevOps即可輕松實作自助服務，同時還提供生産所需的安全性和管理控制。比以前更快地建立管道，安排工作和訓練模型。此外，運作時利用自動擴充的計算和存儲來管理基礎架構成本。叢集可以智能地啟動和終止，而高成本效益的性能可減少基礎設施的支出。其産品具備以下特點：

緩存：使用快速中間資料格式将遠端檔案的副本緩存在本地存儲中，進而提高了相同資料的連續讀取速度。
Z順序聚類：同一資訊在同一組檔案中的共置可以顯着減少需要讀取的資料量，進而加快查詢響應速度。
聯接優化：通過不同的查詢模式和偏斜提示，使用範圍聯接和偏斜聯接優化可以顯着提高性能。
資料跳過：在查詢時使用有關在寫入資料時自動收集的最小值和最大值的統計資訊，以提供更快的查詢。
易于使用的叢集管理：使用者友好的使用者界面簡化了群集的建立，重新啟動和終止，為群集提供了更高的可見性，進而更易于管理和控制成本。
高可用性：Databricks叢集管理器透明地重新啟動任何被吊銷或崩潰的工作執行個體，進而確定您的服務始終可以啟動并運作，而無需您自己進行管理。
彈性按需叢集：隻需單擊幾下即可在幾分鐘内建構按需叢集，然後根據您的目前需求進行放大或縮小。随着團隊或服務需求的變化，重新配置或重用資源。
具有自動更新的向後相容性：選擇要使用的Spark版本，以確定舊版作業可以繼續在以前的版本上運作，同時免費獲得最新版本的Spark麻煩。
靈活的計劃程式：按指定的計劃在不同時區中從分鐘到每月的時間間隔執行生産管道作業，包括cron文法和重新啟動政策。
通知：每當生産工作開始，失敗和/或完成時，通過電子郵件或第三方生産尋呼機內建，以零人工幹預通知一組使用者，使您放心。
靈活的作業類型：運作不同類型的作業以滿足您的不同用例，包括筆記本，Spark JAR，自定義Spark庫和應用程式。
優化的資料源：Spark資料源的中央存儲庫，具有廣泛的支援，包括SQL，NoSQL，Columnar，Document，UDF，檔案存儲，檔案格式，搜尋引擎等。

❖ Delta Lake

Delta Lake是Linux Foundation的一個開源項目。資料以開放的Apache Parquet格式存儲，進而允許任何相容的讀取器讀取資料。API是開放的，并且與Apache Spark™相容。在Delta Lake的支援下，Databricks将最好的資料倉庫和資料湖整合到了Lakehouse體系結構中，進而為您提供了一個平台來協作處理所有資料，分析和AI工作負載。Delta Lake為資料湖帶來了可靠性，性能和生命周期管理。由于缺乏對提取的資料的控制，資料湖經常存在資料品質問題。Delta Lake在資料湖中添加了一個存儲層以管理資料品質，進而確定資料湖僅包含供消費者使用的高品質資料。不再有格式錯誤的資料提取，為合規性而删除資料的困難或為修改資料捕獲而修改資料的問題。通過安全和可擴充的雲服務，加快高品質資料進入資料湖的速度，以及團隊可以利用這些資料的速度。其産品具備以下特點：

ACID事務：多個資料管道可以同時将資料讀取和寫入資料湖。ACID Transactions通過可序列化（最強的隔離級别）確定資料完整性。
更新和删除：Delta Lake提供DML API來合并，更新和删除資料集。這使您可以輕松遵守GDPR / CCPA并簡化變更資料捕獲。
模式強制：指定并強制執行資料湖模式，確定資料類型正确且存在必填列，并防止不良資料導緻資料損壞。
時間旅行（資料版本控制）：資料快照使開發人員能夠通路并還原到較早版本的資料，以稽核資料更改，復原錯誤更新或重制實驗。
可擴充的中繼資料處理：Delta Lake利用Spark的分布式處理能力，像處理資料一樣對待中繼資料。這允許具有數十億個分區和檔案的PB級表。
開放格式：Delta Lake中的所有資料均以Apache Parquet格式存儲，進而使Delta Lake能夠利用Parquet固有的高效壓縮和編碼方案。
統一的批處理和流源和接收器：Delta Lake中的表既是批處理表，又是流式源和接收器。流資料提取，批處理曆史回填和互動式查詢都可以直接使用。
模式演進：大資料在不斷變化。Delta Lake使您能夠更改可自動應用的表模式，而無需繁瑣的DDL。
稽核曆史記錄：Delta Lake交易日志記錄有關資料所做的每次更改的詳細資訊，提供更改的完整曆史記錄，以進行合規性，審計和複制。
100％與Apache Spark API相容：開發人員可以與現有的資料管道一起使用Delta Lake，而隻需很少的更改，因為它與常用的大資料處理引擎Spark完全相容。

❖ MLFlow和Koalas

MLFlow為資料科學家建構、測試和部署機器學習模型這個複雜的過程提供了标準化。Koalas 可以讓資料科學家在筆記本電腦上使用 Pandas 程式設計，然後調用幾個 API 就可以将工作負載部署到大型的分布式 Spark 叢集上。