hadoop使用場景

2023-04-30 22:39:23

hadoop比較擅長的是資料密集的并行計算。它主要是對不同的資料做相同的事情，最後再整合。

wordCount ；
文檔反向索引；
PageRank；
K-Means 算法；

hadoop主要應用于資料量大的離線場景。特征為：

1、資料量大。一般真正線上用Hadoop的，叢集規模都在上百台到幾千台的機器。這種情況下，T級别的資料也是很小的。Coursera上一門課了有句話覺得很不錯：Don’t use hadoop, your data isn’t that big

2、離線。Mapreduce架構下，很難處理實時計算，作業都以日志分析這樣的線下作業為主。另外，叢集中一般都會有大量作業等待被排程，保證資源充分利用。

3、資料塊大。由于HDFS設計的特點，Hadoop适合處理檔案塊大的檔案。大量的小檔案使用Hadoop來處理效率會很低。

海量資料、一次寫入多次讀取、非高實時性要求的場景，都适合用hadoop處理

上一篇: debian10 dns_如何在Debian 10上使用OctoDNS部署和管理DNS

下一篇: BLE-2の藍牙4.0協定棧のLL層 Scaning 和 initiating狀态的差別

繼續閱讀