天天看點

阿裡巴巴進階技術專家章劍鋒:大資料發展的 8 個要點

筆者從 2008 年開始工作到現在也有 11 個年頭了,一路走來都在和資料打交道,做過大資料底層架構核心的開發(Hadoop,Pig,Tez,Spark,Livy),也做過上層大資料應用開發(寫 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau 做資料可視化,用 R 做資料分析)。今天我想借此機會和大家聊聊我所了解的大資料現狀和未來。

首先讓我們來聊聊什麼是大資料。大資料這個概念已經出來很多年了(超過10年),但一直沒有一個準确的定義(也許也并不需要)。資料工程師(DataEngineer)對大資料的了解會更多從技術和系統的角度去了解,而資料分析人員(Data Analyst)對大資料了解會從産品的角度去了解,是以資料工程師(Data Engineer) 和資料分析人員(Data Analyst)所了解的大資料肯定是有差異的。我所了解的大資料是這樣的,大資料不是單一的一種技術或者産品,它是所有與資料相關的綜合學科。看大資料我會從 2 個次元來看,一個是資料流的次元(下圖的水準軸),另外一個是技術棧的次元(下圖的縱軸)。

阿裡巴巴進階技術專家章劍鋒:大資料發展的 8 個要點

其實我一直不太喜歡張口閉口講“大資料”,我更喜歡說“資料”。因為大資料的本質在于“資料”,而不是“大”。由于媒體一直重點宣揚大資料的“大”,是以有時候我們往往會忽然大資料的本質在“資料”,而不是“大”,“大”隻是你看到的表相,本質還是資料自身。

在我們講清楚大資料的含義之後,我們來聊聊大資料目前到底處在一個什麼樣的位置。從曆史發展的角度來看,每一項新技術都會經曆下面這樣一個技術成熟度曲線。

阿裡巴巴進階技術專家章劍鋒:大資料發展的 8 個要點
當一項新技術剛出來的時候人們會非常樂觀,常常以為這項技術會給人類帶來巨大的變革,對此持有過高的期望,是以這項技術一開始會以非常快的速度受到大家追捧,然後到達一個頂峰,之後人們開始認識到這項新技術并沒有當初預想的那麼具有革命性,然後會過于悲觀,之後就會經曆泡沫階段。等沉寂一定階段之後,人們開始回歸理性,正視這項技術的價值,然後開始正确的應用這項技術,從此這項技術開始走向穩步向前發展的道路。(題外話,筆者在看這幅圖的時候也聯想到了一個男人對婚姻看法的曲線圖,大家自己腦補)。

從大資料的曆史來看,大資料已經經曆了 2 個重要階段

兩個重要階段是指過高期望的峰值和泡沫化的底谷期 。現在正處于穩步向前發展的階段。我們可以從 googletrend 上 big data 的曲線就能印證。大資料大約從 2009 年開始走向人們的視野,在 2015 年左右走向了頂峰,然後慢慢走向下降通道(當然這張曲線并不會和上面這張技術成熟度曲線完全拟合,比如技術曲線處在下降通道有可能會使讨論這項技術的搜尋量增加)。

阿裡巴巴進階技術專家章劍鋒:大資料發展的 8 個要點

接下來我想講一下我對大資料領域未來趨勢的幾個判斷。

資料規模會繼續擴大,大資料将繼續發揚光大

前面已經提到過,大資料已經度過了過高期望的峰值和泡沫化的底谷期,現在正在穩步向前發展。做這樣判斷主要有以下 2 個原因:

  • 上遊資料規模會繼續增長,特别是由于 IOT 技術的發展和成熟,以及未來 5G 技術的鋪開。在可預測的未來,資料規模仍将繼續快速增長,這是能夠帶動大資料持續穩定向前發展的基本動力。
  • 下遊資料産業還有很多發展的空間,還有很多資料的價值我們沒有挖掘出來。

雖然現在人工智能,區塊鍊搶去了大資料的風口位置,也許大資料成不了未來的主角,但大資料也絕對不是跑龍套的,大資料仍将扮演一個重要而基礎的角色。可以這麼說,隻要有資料在,大資料就永遠不會過時。我想在大部分人的有生之年,我們都會見證大資料的持續向上發展。

資料的實時性需求将更加突出

之前大資料遇到的最大挑戰在于資料規模大(是以大家會稱之為“大資料”),經過工業界多年的努力和實踐,規模大這個問題基本已經解決了。接下來幾年,更大的挑戰在于速度,也就是實時性。而大資料的實時性并不是指簡單的傳輸資料或者處理資料的實時性,而是從端到端的實時,任何一個步驟速度慢了,就影響整個大資料系統的實時性。是以大資料的實時性,包括以下幾個方面:

  • 快速擷取和傳輸資料
  • 快速計算處理資料
  • 實時可視化資料
  • 線上機器學習,實時更新機器學習模型

目前以 Kafka,Flink 為代表的流處理計算引擎已經為實時計算提供了堅實的底層技術支援,相信未來在實時可視化資料以及線上機器學習方面會有更多優秀的産品湧現出來。當大資料的實時性增強之後,在資料消費端會産生更多有價值的資料,進而形成一個更高效的資料閉環,促進整個資料流的良性發展。

大資料基礎設施往雲上遷移勢不可擋

目前IT基礎設施往雲上遷移不再是一個大家還需要争論的問題,這是大勢所趨。當然我這邊說的雲并不單單指公有雲,也包括私有雲,混合雲。因為由于每個企業的業務屬性不同,對資料安全性的要求不同,不可能把所有的大資料設施都部署在公有雲上,但向雲上遷移這是一個未來注定的選擇。目前各大雲廠商都提供了各種各樣的大資料産品以滿足各種使用者需求,包括平台型(PAAS) 的 EMR ,服務型 (SAAS) 的資料可視化産品等等。

大資料基礎設施的雲化對大資料技術和産品産生也有相應的影響。大資料領域的架構和産品将更加 Cloud Native 。

  • 計算和存儲的分離。我們知道每個公有雲都有自己對應的分布式存儲,比如 AWS 的 S3 。 S3 在一些場合可以替換我們所熟知的 HDFS ,而且成本更低。而 S3 的實體存儲并不是在 EC2 上面,對 EC2 來說, S3 是 remote storage 。是以如果你要是 AWS 上面做大資料開發和應用,而且你的資料是在 S3 上,那麼你就自然而然用到了計算和存儲的分離。
  • 擁抱容器,與 Kubernate 的整合大勢所趨,我們知道在雲環境中 Kuberneate 基本上已經是容器資源排程的标準。
  • 更具有彈性(Elastic)。
  • 與雲上其他産品和服務整合更加緊密。

大資料産品全鍊路化

全鍊路化是指提供端到端的全鍊路解決方案,而不是簡單的堆積一些大資料産品元件。以 Hadoop 為代表的大資料産品一直被人诟病的主要問題就是使用者使用門檻過高,二次開發成本太高。全鍊路化就是為了解決這一問題,使用者需要的并不是 Hadoop,Spark,Flink 等這些技術,而是要以這些技術為基礎的能解決業務問題的産品。 Cloudera 的從 Edge 到 AI 是我比較認同的方案。大資料的價值并不是資料本身,而是資料背後所隐藏的對業務有影響的資訊和知識。下面是一張摘自 wikipedia 的經典資料金字塔的圖。

阿裡巴巴進階技術專家章劍鋒:大資料發展的 8 個要點

大資料技術就是對最原始的資料進行不斷處理加工提煉,金字塔每上去一層,對應的資料量會越小,同時對業務的影響價值會更大更快。而要從資料(Data) 最終提煉出智慧(Wisdom),資料要經過一條很長的資料流鍊路,沒有一套完整的系統保證整條鍊路的高效運轉是很難保證最終從資料中提煉出來有價值的東西的,是以大資料未來産品全鍊路化是另外一個大的趨勢。

大資料技術往下遊資料消費和應用端轉移

上面講到了大資料的全鍊路發展趨勢,那麼這條長長的資料鍊路目前的狀況是如何,未來又會有什麼樣的趨勢呢?

我的判斷是未來大資料技術的創新和發力會更多的轉移到下遊資料消費和應用端。之前十多年大資料的發展主要集中在底層的架構,比如最開始引領大資料風潮的 Hadoop ,後來的計算引擎佼佼者 Spark,Flink 以及消息中間件 Kafka ,資源排程器 Kubernetes 等等,每個細分領域都湧現出了一系列優秀的産品。總的來說,在底層技術架構這塊,大資料領域已經基本打好了基礎,接下來要做的是如何利用這些技術為企業提供最佳使用者體驗的産品,以解決使用者的實際業務問題,或者說未來大資料的側重點将從底層走向上層。之前的大資料創新更偏向于 IAAS 和 PAAS ,未來你将看到更多 SAAS 類型的大資料産品和創新。

從近期一些國外廠商的收購案例,我們可以略微看出一些端倪。

  • 1、2019 年 6 月 7 日,谷歌宣布以 26 億美元收購了資料分析公司 Looker,并将該公司并入 Google Cloud。
  • 2、2019 年 6 月 10 日,Salesforce 宣布以 157 億美元的全股票交易收購 Tableau ,旨在夯實在資料可視化以及幫助企業解讀所使用和所積累的海量資料的其他工具方面的工作。
  • 3、2019 年 9 月初,Cloudera 宣布收購 Arcadia Data 。 Arcadia Data 是一家雲原生 AI 驅動的商業智能實時分析廠商。

面對最終使用者的大資料産品将是未來大資料競争的重點,我相信會未來大資料領域的創新也将來源于此,未來 5 年内大機率至少還會再出一個類似 Looker 這樣的公司,但是很難再出一個類似 Spark 的計算引擎。

底層技術的集中化和上層應用的全面開花

學習過大資料的人都會感歎大資料領域的東西真是多,特别是底層技術,感覺學都學不來。經過多年的厮殺和競争,很多優秀的産品已經脫穎而出,也有很多産品慢慢走向消亡。比如批處理領域的 Spark 引擎基本上已經成為批處理領域的佼佼者,傳統的 MapReduce 除了一些舊有的系統,基本不太可能會開發新的 MapReduce 應用。 Flink 也基本上成為低延遲流處理領域的不二選擇,原有的 Storm 系統也開始慢慢退出曆史舞台。同樣 Kafka 也在消息中間件領域基本上占據了壟斷地位。未來的底層大資料生态圈中将不再有那麼多的新的技術和架構,每個細分領域都将優勝劣汰,走向成熟,更加集中化。未來更大的創新将更多來來自上層應用或者全鍊路的整合方面。在大資料的上層應用方面未來将會迎來有更多的創新和發展,比如基于大資料上的BI産品, AI 産品等等,某個垂直領域的大資料應用等等,我相信未來我們會看到更多這方面的創新和發展。

開源閉源并駕齊驅

大資料領域并不是隻有 Hadoop,Spark,Flink 等這類大家耳熟能詳的開源産品,還有很多優秀的閉源産品,比如 AWS 上的 Redshift ,阿裡的 MaxCompute 等等。這些産品雖然沒有開源産品那麼受開發者歡迎,但是他們對于很多非網際網路企業來說是非常受歡迎的。因為對于一個企業來說,采用哪種大資料産品有很多因素需要考慮,否開源并不是唯一标準。産品是否穩定,是否有商業公司支援,是否足夠安全,是否能和現有系統整合等等往往是某些企業更需要考慮的東西,而閉源産品往往在這類企業級産品特性上具有優勢。

最近幾年開源産品受公有雲的影響非常大,公有雲可以無償享受開源的成果,搶走了開源産品背後的商業公司很多市場佔有率,是以最近很多開源産品背後的商業公司開始改變政策,有些甚至修改了 Licence 。不過我覺得公有雲廠商不會殺死那些開源産品背後的商業公司,否則就是殺雞取卵,殺死開源産品背後的商業公司,其實就是殺死開源産品的最大技術創新者,也就是殺死開源産品本身。我相信開源界和公有雲廠商最終會取得一個平衡,開源仍然會是一個主流,仍然會是創新的主力,一些優秀的閉源産品同樣也會占據一定的市場空間。

最後我想再次總結下本文的幾個要點:

1、目前大資料已經度過了最火的峰值期和泡沫化的底谷期,現在正處于穩步向前發展的階段。

2、資料規模會繼續擴大,大資料将繼續發揚光大

3、 資料的實時性需求将更加突出

4、大資料基礎設施往雲上遷移勢不可擋

5、大資料産品全鍊路化

6、大資料技術往下遊資料消費和應用端轉移

7、底層技術的集中化和上層應用的全面開花

8、開源閉源并駕齊驅

11 月 28-30 日,Apache Flink 及大資料領域年度盛會 Flink ForwardAsia 2019 将在北京國家會議中心舉辦,更多大資料領域前沿趨勢、一線廠商重磅案例,你想得到的想不到的都來了,錯過可能後悔一整年,

詳細了解大會詳細議程資訊

作者簡介:章劍鋒(簡鋒),開源界老兵,Github ID:@zjffdu,Apache Member,曾就職于 Hortonworks,目前在阿裡巴巴計算平台事業部任進階技術專家,并同時擔任 Apache Tez、Livy 、Zeppelin 三個開源項目的 PMC ,以及 Apache Pig 的 Committer。有幸很早就接觸了大資料和開源,希望可以在開源領域為大資料和資料科學做點貢獻。

繼續閱讀