天天看點

「大資料」Hadoop生态系統:分布式檔案系統

Apache HDFS

Hadoop分布式檔案系統(HDFS)提供了一種在多台計算機上存儲大型檔案的方法。 Hadoop和HDFS源自Google檔案系統(GFS)檔案。 在Hadoop 2.0.0之前,NameNode是HDFS叢集中的單點故障(SPOF)。 使用Zookeeper,HDFS高可用性功能通過提供在具有熱備用的主動/被動配置中的同一群集中運作兩個備援NameNode的選項來解決此問題。

  • hadoop.apache.org
  • 谷歌檔案系統 - GFS檔案
  • Cloudera為何選擇HDFS
  • Hortonworks為何選擇HDFS

Red Hat GlusterFS

GlusterFS是一個橫向擴充的網絡附加存儲檔案系統。 GlusterFS最初由Gluster,Inc。開發,然後由Red Hat,Inc。在2011年購買Gluster後開發。2012年6月,Red Hat Storage Server被宣布為商業支援的GlusterFS與Red Hat Enterprise Linux的內建。 Gluster檔案系統,現在稱為Red Hat Storage Server。

  • www.gluster.org
  • Red Hat Hadoop插件

Quantcast檔案系統

QFS QFS是一個開源的分布式檔案系統軟體包,适用于大規模MapReduce或其他批處理工作負載。它被設計為Apache Hadoop HDFS的替代品,旨在為大規模處理叢集提供更好的性能和成本效益。它是用C ++編寫的,具有固定占用記憶體管理。 QFS使用Reed-Solomon糾錯作為確定可靠通路資料的方法。

Reed-Solomon編碼在大容量存儲系統中被廣泛使用以校正與媒體缺陷相關的突發錯誤。 QFS不是存儲每個檔案的三個完整版本(如HDFS),而是需要三倍的存儲空間,是以它隻需要1.5倍的原始容量,因為它會跨九個不同的磁盤驅動器對資料進行條帶化。

  • QFS網站
  • GitHub QFS
  • HADOOP-8885

Ceph Filesystem

Ceph是一個免費的軟體存儲平台,旨在從單個分布式計算機叢集中呈現對象,塊和檔案存儲。 Ceph的主要目标是完全分發,沒有單點故障,可擴充到exabyte級别,并且可以自由使用。資料被複制,使其具有容錯能力。

  • Ceph檔案系統站點
  • Ceph和Hadoop
  • HADOOP-6253

Lustre檔案系統

Lustre檔案系統是一種高性能的分布式檔案系統,适用于大型網絡和高可用性環境。傳統上,Lustre被配置為管理存儲區域網絡(SAN)内的遠端資料存儲磁盤裝置,SAN是通過小型計算機系統接口(SCSI)協定進行通信的兩個或多個遠端連接配接的磁盤裝置。這包括光纖通道,以太網光纖通道(FCoE),串行連接配接SCSI(SAS)甚至iSCSI。

使用Hadoop HDFS,該軟體需要一個專用的計算機叢集來運作。但是,為其他目的運作高性能計算叢集的人通常不會運作HDFS,這會使他們擁有一堆計算能力,這些任務幾乎肯定會受益于一些地圖縮減,并且無法将這些功能用于運作Hadoop的。英特爾注意到了這一點,并且在其上周悄然釋出的Hadoop發行版2.5版本中增加了對Lustre的支援:用于Apache Hadoop *軟體的英特爾®HPC分發,這是一款将英特爾分布式Apache Hadoop軟體與英特爾®結合的新産品适用于Lustre軟體的企業版。這是與Lustre內建的唯一Apache Hadoop發行版,Lustre是許多世界上最快的超級計算機1使用的并行檔案系統.

  • wiki.lustre.org /
  • 帶有Lustre的Hadoop
  • 英特爾HPC Hadoop

Alluxio

Alluxio是世界上第一個以記憶體為中心的虛拟分布式存儲系統,它統一了資料通路并橋接了計算架構和底層存儲系統。應用程式隻需與Alluxio連接配接即可通路存儲在任何底層存儲系統中的資料。此外,Alluxio以記憶體為中心的架構使資料通路速度比現有解決方案快幾個數量級。

在大資料生态系統中,Alluxio介于計算架構或作業(如Apache Spark,Apache MapReduce或Apache Flink)和各種存儲系統(如Amazon S3,OpenStack Swift,GlusterFS,HDFS,Ceph或OSS)之間。 Alluxio為堆棧帶來了顯着的性能提升;例如,百度使用Alluxio将其資料分析性能提高了30倍。除了性能之外,Alluxio還将新工作負載與存儲在傳統存儲系統中的資料相結合。使用者可以使用其獨立群集模式運作Alluxio,例如在Amazon EC2上運作,或者使用Apache Mesos或Apache Yarn啟動Alluxio。

Alluxio相容Hadoop。這意味着現有的Spark和MapReduce程式可以在Alluxio之上運作而無需更改任何代碼。該項目是開源的(Apache License 2.0),并在多家公司部署。它是增長最快的開源項目之一。 Alluxio擁有不到三年的開源曆史,吸引了來自50多家機構的160多名貢獻者,包括阿裡巴巴,Alluxio,百度,CMU,IBM,英特爾,NJU,紅帽,加州大學伯克利分校和雅虎。該項目是Berkeley Data Analytics Stack(BDAS)的存儲層,也是Fedora發行版的一部分。

  • Alluxio網站

GridGain

GridGain是在Apache 2.0下獲得許可的開源項目。該平台的主要部分之一是記憶體中的Apache Hadoop加速器,旨在通過将資料和計算都帶入記憶體來加速HDFS和Map / Reduce。這項工作是通過GGFS-Hadoop相容的記憶體檔案系統完成的。對于I / O密集型作業,GridGain GGFS的性能比标準HDFS快近100倍。從GridGain Systems轉述Dmitriy Setrakyan談論有關Tachyon的GGFS:

GGFS允許對底層HDFS或任何其他Hadoop相容檔案系統進行直讀和寫入,而無需更改代碼。從本質上講,GGFS完全從內建中删除了ETL步驟。

GGFS能夠選擇和保留記憶體中的檔案夾,CD光牒上的檔案夾,以及同步或異步與底層(HD)FS同步的檔案夾。

  • GridGain網站

XtreemFS

  • XtreemFS站點
  • 在XtreemFS上進行Flink。
  • Spark XtreemFS