天天看點

如何保證Hadoop資料湖不變成“資料洪水”

資料湖的提出距今已經有了幾年時間了,特别是在當今時代中,基于hadoop建立的資料湖在大資料進行中占有的位置越來越重要。但是如何保證資料湖不像南方水災一樣泛濫,依然是一個耐人尋味的話題。

如何保證Hadoop資料湖不變成“資料洪水”

資料湖已滿,如何防泛濫

資料湖洪水泛濫

資料湖十分靈活,同時具備可擴充和低成本的特點。其最初建立的目的十分簡單,就是将所有形式的資料集中在同一處,這些資料包括了結構化資料、非結構化資料以及半結構化資料。這些資料可以是日志檔案、點選流、郵件、圖像、音頻視訊或者文本檔案。

如何保證Hadoop資料湖不變成“資料洪水”

資料湖中資料類型繁雜

在這些資料中,非結構化和半結構化資料占據了很大一部分,但是由于我們的處理能力不同,一些資料可能在資料湖中存儲了很長時間而不能被處理掉,這樣就會一直積攢下來保留的現在。

誠然,資料湖可以幫助處理各種形式的資料,這其中以結構化資料為主。而且資料湖具備資料庫的大部分特質,可以提供資料查詢、結構化資料處理報告等業務。資料湖的最大價值在于資料利用、探索大資料的價值,預測未來結果并為企業提出相關建議,進而指導企業的進一步決策和行動。

如何保證Hadoop資料湖不變成“資料洪水”

“資料洪”一觸即發

但是,問題也就發生在這裡。因為基于hadoop部署的資料湖的能力并不足以應付一切,而使用者對資料湖又疏于管理。資料量随時間而增加,資料湖開始泛濫,進而有逐漸發展成洪水的趨勢。資料不能得到有效的配置設定,“資料洪”随時可能沖潰堤壩,水漫金山。

抗洪還得靠管理

那麼資料湖要如何才能避免成為資料洪的悲劇呢?首先應該從根本上改變傳統對資料湖的看法。把資料湖當作一個整體庫存來管理是存在問題的,對于管理人員來講,基于資料類型需要把資料湖分成一個個的區,分别處理管理。

如何保證Hadoop資料湖不變成“資料洪水”

基于hadoop的資料湖需要分類

基于hadoop的資料湖的區域劃分歸類對其而言十分重要。管理者需要對其需要提取的資料進行原始資料的保留,并且對其進行中繼資料标記,标明資料源、資料類型等。當被提取的資料處理完畢之後要對其統一規劃并進行後續處理。

如果使用者需要選擇一些特定應用程式的資料,那麼可以通過收集、轉換,将來自不同資料源的資料全部帶走并進行處理。最後,在處理工作完成後可以通過資料軌迹、處理日志等工具對處理過程進行稽核,保障資料處理的完成度。

如何保證Hadoop資料湖不變成“資料洪水”

資料分類管理

這些問題說起來簡單,但是做起來卻是一件相當麻煩的事情。這要求企業擁有一套十分成熟的資料提取工具,用于資料轉化、分類、标記以及其他任務。

而且不僅僅是企業關注這一問題,在apache的hadoop社群也有好多團隊在緻力于開發此類工具。事實上,此類工具更趨向于資料管理專業,這些對于企業來講并不熟悉。而好消息是,一些相關的生态鍊已經在hadoop領域開始形成,相信解決資料湖管理難題的工具将在不久後出現。

====================================分割線================================

本文轉自d1net(轉載)

繼續閱讀