天天看點

hadoop使用場景

hadoop比較擅長的是資料密集的并行計算。它主要是對不同的資料做相同的事情,最後再整合。

  • wordCount ;
  • 文檔反向索引;
  • PageRank;
  • K-Means 算法;

hadoop主要應用于資料量大的離線場景。特征為:

1、資料量大。一般真正線上用Hadoop的,叢集規模都在上百台到幾千台的機器。這種情況下,T級别的資料也是很小的。Coursera上一門課了有句話覺得很不錯:Don’t use hadoop, your data isn’t that big

2、離線。Mapreduce架構下,很難處理實時計算,作業都以日志分析這樣的線下作業為主。另外,叢集中一般都會有大量作業等待被排程,保證資源充分利用。

3、資料塊大。由于HDFS設計的特點,Hadoop适合處理檔案塊大的檔案。大量的小檔案使用Hadoop來處理效率會很低。

海量資料、一次寫入多次讀取、非高實時性要求的場景,都适合用hadoop處理

繼續閱讀