天天看點

大資料應用還處于早期——專訪Hadoop之父Doug Cutting

談到大資料,對技術有點了解的人很容易想到hadoop。的确,盡管hadoop隻是一個對資料進行存儲和分析處理的平台,但仍有不少人把hadoop和大資料對等起來。實際上,hadoop的确在很大程度上扮演着大資料代言人的角色,它應用的廣度和深度也基本反映了大資料市場的繁榮程度。

從有hadoop之父之稱的doug cutting推出hadoop算起,這個分布式大規模資料處理平台面市已經超過10年曆史。這些年來,hadoop自身在不斷進步,市場上也誕生了一批像cloudera、mapr、hortonworks這樣專門提供hadoop相關服務的廠商,對大資料市場的繁榮起到了重要作用。不過,在日前接受至頂網記者采訪時,doug cutting表示,無論是hadoop的使用還是大資料的應用目前仍處于早期,這個市場還大有潛力。

大資料應用還處于早期——專訪Hadoop之父Doug Cutting

今天的hadoop可謂大名鼎鼎,但和衆多開源軟體開發人員一樣,doug cutting開發hadoop的目的非常簡單,隻是為了完成當時的一個項目。今天的“火”是hadoop的創始人、cloudera首席架構師doug cutting當初未曾預料到的。

“當時,我正在做一個名為nutch的項目。希望采用開源的方式去建立出一種網絡搜尋的引擎,要求具有可擴充性、可收縮性的資料存儲和處理能力。由于之前,我們看到了來自于google的幾篇論文,其中的想法和我的想法是完全一緻的,是以我就把google論文中的想法放到了nutch項目當中來實施了,這就是今天的hadoop。”doug cutting在接受記者采訪時表示。

doug cutting說,他根本沒有想到hadoop今天會有如此之廣的用途,當初想到的也僅僅就是用于搜尋引擎和網站的建立上,看到hadoop有今天如此廣泛應用,他感覺到非常驚喜。

當然,其中最讓doug cutting興奮的還是hadoop的生态。嚴格說來,今天的hadoop已經不是一個開源項目,而是一個圍繞着hadoop形成的一組項目以及基于各個項目之上的大生态系統。比如,hadoop項目就從最初的hdfs、hbase、mapreduce等不多的項目擴充到包括spark在内的衆多開源項目的集合,展示出強大的包容能力。而在生态上,圍繞hadoop已經形成了由cloudera等hadoop服務商、各種相關工具提供商、iaas雲平台供應商等衆多合作夥伴組成的大生态。

毫無疑問,繁榮的hadoop生态也正是hadoop能走進今天的并且繼續發展的主要原因。以spark為例,曾經不少人認為spark可能替換hadoop,而實際上我們看到hadoop的大生态讓spark很快融入起來,互相成為補充而不是對手。除了spark之外,還有一些開源軟體也與hadoop社群有互動。比如kudu和kafka。前者是一個非常強大的存儲引擎,它既具備了類似hbase的随機通路能力,同時又有hdfs快速查詢能力;而kafka有很強的實時應用支援能力和流處理能力。目前,cloudera已經把這兩個技術內建到hadoop平台當中了。

doug cutting特别強調,在開源世界競争的邏輯是不一樣的,開源軟體之間不是完全的競争關系。因為沒有哪個公司完全擁有開源技術,每當開源技術有了新的進展,開源群體的每一分子都會受益于其中。

“如果在有一些領域出現了新的技術,在某些方面會優于hadoop,那cloudera也會毫無猶豫地去接納這樣的技術,把它放到我們的解決方案當中去傳遞給客戶。”他說。

ai是當今市場的一個熱門話題,其今天的熱度甚至超過了大資料。對此,doug cutting認為,ai對hadoop是非常有利的,ai市場的繁榮也有利于hadoop的普及。

“我覺得hadoop和ai之間是非常适合、非常比對的。因為ai本身就是一種大資料的應用。特别是在對于ai系統進行訓練的時候,使用的資料越多,ai系統就越可能成功。”doug cutting介紹說,google不久前發表了一篇關于應用ai進行圖象識别的論文,最終結論也是對數十億級的圖檔的人工智能系統還是進行訓練使用的資料量越大,人工智能系統的品質就越高。

當然,doug cutting認為,推動hadoop普及的不僅是ai,包括iot、雲等都對hadoop的未來發展具有非常重要的作用,特别是雲計算,将很大程度上影響hadoop的傳遞。

目前,受限于網絡條件和資料保密、合規等方面的原因,私有的、基于實體機的hadoop模式依然是主流,雲模式還是小衆。比如,cloudera的客戶中雲傳遞的不超過15%,但是doug cutting認為,這個資料肯定還會增長,預計會到40%-60%。

“本地安裝運作hadoop的形式來使用,往往要建一個很大的叢集來支援各種不同的應用,并且擁有一個統一的資料拷貝,資料集中可控,但成本高;而雲模式使得客戶在使用hadoop的方式上具有了更大的靈活性和可伸縮性,而且雲供應商已經幫助他們管理了資料的拷貝。”doug cutting說。

doug cutting表示,從整個it長遠的發展趨勢來看,it的控制正在從在企業的某個部門擴散到各個不同的部門,因為非it部門具有越來越大的能力,在it方面進行自我管理、自我服務,也有越來越多的工具能夠幫助他們做到這一點。而雲計算是促進和推動了這一趨勢的發展,也推動了資料的分散化、自助化。這是一個大趨勢,也是雲模式hadoop增長的原因。

針對目前大資料應用的現狀,這個hadoop的創始人認為,大資料應用的普及是一個長期的過程,讓每一家公司、每一個組織機構都能夠用正确的方式來用好資料,這需要花很長的時間。因為這其中,需要組織結構本身發生很大的變化,還需要很多的教育工作和人才的培養工作,好在這一切都是在穩步推進當中。 

原文釋出時間為:2017年7月25日 

本文作者:鄒大斌 

本文來自雲栖社群合作夥伴至頂網,了解相關資訊可以關注至頂網。

繼續閱讀