檔案分塊
HDFS中檔案在實體上分塊存儲
Hadoop2.x版本中預設檔案塊為: 128M
通過hdfs參數: dfs.blocksize 設定
檔案塊大小設定
(1)尋址時間:10ms
(2)傳輸時間:尋址時間為傳輸時間1%為最佳狀态
是以: 傳輸時間 = 10ms / 0.01 = 1s
(3)目前磁盤普遍傳輸速率: 100Mb/s (适合檔案塊:128M)
(4)固态硬碟(适合檔案塊:256M 甚至 512M)
固态硬碟不同品牌型号之間,平均大約在150~300M每秒。
最高可達500MB/s
結論:HDFS塊大小設定主要取決于磁盤傳輸速率
太大太小的問題
(1)HDFS塊設定太小,會增加尋址時間,程式一直在找塊的位置。
(2)HDFS塊設定太大,磁盤傳輸時間明細大于尋址時間,處理資料非常慢。