天天看點

hadoop之 參數調優

一、 hdfs-site.xml 配置檔案

1、 dfs.blocksize 

參數:hadoop檔案塊大小

描述:新檔案的預設塊大小,以位元組為機關,預設 134217728 位元組。

可以使用以下字尾(大小寫不敏感):k(kilo)、m(mega)、g(giga)、t(tera)、p(peta)、e(exa)來指定大小(如128k、512m、1g等),

或者以位元組為機關提供完整的大小。

2、 dfs.namenode.handler.count

參數:namenode的伺服器線程數

描述:NameNode有一個工作線程池用來處理用戶端的遠端過程調用及叢集守護程序的調用。處理程式數量越多意味着要更大的池來處理來自不同DataNode的并發心跳以及用戶端并發的中繼資料操作。對于大叢集或者有大量用戶端的叢集來說,通常需要增大參數dfs.namenode.handler.count的預設值10。設定該值的一般原則是将其設定為叢集大小的自然對數乘以20,即20logN,N為叢集大小。

3、 dfs.datanode.balance.bandwidthPerSec

參數: datanode 平衡帶寬

描述:指定每個datanode可以利用每秒位元組數來平衡目标的最大帶寬。

4、 dfs.replication

參數:塊副本數

描述:預設的塊複制。可以在建立檔案時指定複制的實際數量。如果在create time中沒有指定複制,則使用預設值3。

5、dfs.datanode.max.transfer.threads

參數:datanode 最大傳輸線程數

描述:指定用于傳輸資料進出DN的最大線程數。叢集中如果不一緻,會造成資料分布不均。

二、 core-site.xml 配置檔案

1、 io.file.buffer.size

參數:檔案的緩沖區大小

描述:用于順序檔案的緩沖區大小。這個緩沖區的大小應該是硬體頁面大小的倍數(在Intel x86上是4096),它決定了在讀寫操作中緩沖了多少資料。SequenceFiles 讀取和寫入操作的緩存區大小,還有map的輸出都用到了這個緩沖區容量, 可減少 I/O 次數。建議設定為 64KB 到 128KB

三、 yarn-site.xml 配置檔案

1、 yarn.nodemanager.resource.memory-mb

參數:該節點 nodemanager 資源池記憶體 

描述:NodeManager節點上可使用的實體記憶體總量,預設是8192(MB),根據節點所能配置設定的最大的記憶體進行配置設定即可,注意為作業系統與其他服務預留資源。

2、yarn.nodemanager.resource.cpu-vcores

參數:該節點 有多少cpu加入資源池 , 預設值為8

描述:表示該節點上YARN可使用的虛拟CPU個數,預設是8,注意,目前推薦将該值設值為與實體CPU核數數目相同。如果你的節點CPU核數不夠8個,則需要調減小這個值,而YARN不會智能的探測節點的實體CPU總數。

文章可以轉載,必須以連結形式标明出處。

本文轉自 張沖andy 部落格園部落格,原文連結:http://www.cnblogs.com/andy6/p/8464323.html   ,如需轉載請自行聯系原作者