天天看點

EMC更新Greenplum 4.2 實作Hadoop處理

本文講的是<b>EMC更新Greenplum 4.2 實作Hadoop處理</b>,大資料的問題不僅是因為它很大,還因為它一直在膨脹。比起傳統的資料倉庫,它需要更現代的Hadoop MapReduce 資料處理。EMC最近更新了自己的Greenplum資料庫,使其能夠更容易地處理大資料。

  Greenplum資料庫是開源PostgreSQL資料庫的并行且高度定制化版本,經過優化用于特定的查詢,而不是事務處理。它是一個大規模的并行無分享的資料庫,并有“多形态資料存儲”,使資料庫管理者可以做出一系列的資料庫表和選擇資料的行或列的定位查詢,用于查詢哪些資料、執行或壓縮設定,應适用于此資料段。

  像别的資料倉庫引擎,Greenplum資料庫是資料壓縮的重量級使用者,用于加速查詢和減少磁盤存儲容量需求。

  去年12月,Greenplum公布了它的長遠計劃,混合它的資料倉庫和Hadoop堆棧以建立一個大型的資料處理器,稱做Unified Analytics Platform統一分析平台。

  EMC對Greenplum資料庫4.2做了一些調整。第一,像他去年12月份說的,Greenplum已調整它的并行資料倉庫加載技術gNET,是以它可以從資料倉庫到Hadoop叢集并行導入或者導出資料。

  同樣重要的是釋出的4.2版本gNET 功能中的關系資料庫,允許gNET到達Hadoop叢集,詢問資料的位置,使用一些Hadoop叢集的資源,而不是增加資料倉庫裝置的運作負擔。

  Greenplum産品營銷進階總監Mike Maxey解釋道:“以前這是隻讀工具,現在在Hadoop中做更多的資料處理。”

  Greenplum資料庫4.2也包括新的管理控制台稱為Command Center,替代很多資料庫管理者至今還在使用的舊工具PerfMon。Maxey表示,Command Center不像PerfMon,它是基于Web的工具,有資料庫管理者需要的更多功能,例如啟動、停止和優化運作的資料庫、恢複和調整資料庫鏡像,在系統上進行搜尋、分區或者取消詢問。

  Command Center也可以跨越網絡進入Greenplum HD或者MR Hadoop叢集,通過控制台内部檢查叢集狀态。Maxey表示:“随着時間的推移,Command Center将更廣泛更深入地覆寫資料庫和Hadoop平台。”

  Command Center的最初版本可用于Data Computing Appliance 1.2系統中,最終作為純軟體發行版提供給客戶。

  最後,EMC在Greenplum Database 4.2中添加了Data Domain Boost重複資料删除備份軟體。在基準測試中,EMC能夠在不到8小時的時間内備份173TB的資料倉庫。這是通過将部分Data Domain重複資料删除操作配置設定到該裝置中的多個資料倉庫節點中實作的,因為重複資料删除速度提高了,是以進行大規模任務的并行化以及更快地備份。

  除了釋出新的資料庫之外,Greenplum還強調,Greenplum MR Hadoop可運作在思科C系列機架式伺服器之上。

作者: 佚名

來源: IT168

原文标題:EMC更新Greenplum 4.2 實作Hadoop處理