天天看點

hadoop 的一些錯誤

1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out

Answer:

程式裡面需要打開多個檔案,進行分析,系統一般預設數量是1024,(用ulimit -a可以看到)對于正常使用是夠了,但是對于程式來講,就太少了。

修改辦法:

修改2個檔案。

/etc/security/limits.conf

vi /etc/security/limits.conf

加上:

* soft nofile 102400

* hard nofile 409600

$cd /etc/pam.d/

$sudo vi login

添加 session    required     /lib/security/pam_limits.so

2:Too many fetch-failures

Answer:

出現這個問題主要是結點間的連通不夠全面。

1) 檢查 、/etc/hosts

   要求本機ip 對應 伺服器名

   要求要包含所有的伺服器ip + 伺服器名

2) 檢查 .ssh/authorized_keys

   要求包含所有伺服器(包括其自身)的public key

3:處理速度特别的慢 出現map很快 但是reduce很慢 而且反複出現 reduce=0% 

Answer:

結合第二點,然後

修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 

4:能夠啟動datanode,但無法通路,也無法結束的錯誤

在重新格式化一個新的分布式檔案時,需要将你NameNode上所配置的dfs.name.dir這一namenode用來存放NameNode 持久存儲名字空間及事務日志的本地檔案系統路徑删除,同時将各DataNode上的dfs.data.dir的路徑 DataNode 存放塊資料的本地檔案系統路徑的目錄也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。這是因為Hadoop在格式化一個新的分布式檔案系統時,每個存儲的名字空間都對應了建立時間的那個版本(可以檢視/home/hadoop /NameData/current目錄下的VERSION檔案,上面記錄了版本資訊),在重新格式化新的分布式系統檔案時,最好先删除NameData 目錄。必須删除各DataNode的dfs.data.dir。這樣才可以使namedode和datanode記錄的資訊版本對應。

注意:删除是個很危險的動作,不能确認的情況下不能删除!!做好删除的檔案等通通備份!!

5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log

出現這種情況大多是結點斷了,沒有連接配接上。

6:java.lang.OutOfMemoryError: Java heap space

出現這種異常,明顯是jvm記憶體不夠得原因,要修改所有的datanode的jvm記憶體大小。

Java -Xms1024m -Xmx4096m

一般jvm的最大記憶體使用應該為總記憶體大小的一半,我們使用的8G記憶體,是以設定為4096m,這一值可能依舊不是最優的值。(其實對于最好設定為真實實體記憶體大小的0.8)

7:出現map%,但是呢reduce到98%左右的時候呢,就直接進failedjobs了

解決辦法:

檢查mapred.map.tasks是不是設定的太多了,設定太多的話會導緻處理大量的小檔案

檢查mapred.reduce.parallel.copies是否設定合适。

8:

系統根目錄下的/tmp檔案夾是不可以删除的

否則bin/hadoop jps

會出現異常:

Exception in thread "main" java.lang.NullPointerException  at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)

        at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)

        at sun.tools.jps.Jps.main(Jps.java:45)

同時

bin/hive

Unable to create log directory /tmp/hadoopuser

2:Too many fetch-failures

Answer:

出現這個問題主要是結點間的連通不夠全面。

1) 檢查 、/etc/hosts

   要求本機ip 對應 伺服器名

   要求要包含所有的伺服器ip + 伺服器名

2) 檢查 .ssh/authorized_keys

   要求包含所有伺服器(包括其自身)的public key

3:處理速度特别的慢 出現map很快 但是reduce很慢 而且反複出現 reduce=0% 

Answer:

結合第二點,然後

修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 

4:能夠啟動datanode,但無法通路,也無法結束的錯誤

在重新格式化一個新的分布式檔案時,需要将你NameNode上所配置的dfs.name.dir這一namenode用來存放NameNode 持久存儲名字空間及事務日志的本地檔案系統路徑删除,同時将各DataNode上的dfs.data.dir的路徑 DataNode 存放塊資料的本地檔案系統路徑的目錄也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。這是因為Hadoop在格式化一個新的分布式檔案系統時,每個存儲的名字空間都對應了建立時間的那個版本(可以檢視/home/hadoop /NameData/current目錄下的VERSION檔案,上面記錄了版本資訊),在重新格式化新的分布式系統檔案時,最好先删除NameData 目錄。必須删除各DataNode的dfs.data.dir。這樣才可以使namedode和datanode記錄的資訊版本對應。

注意:删除是個很危險的動作,不能确認的情況下不能删除!!做好删除的檔案等通通備份!!

5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log

出現這種情況大多是結點斷了,沒有連接配接上。

6:java.lang.OutOfMemoryError: Java heap space

出現這種異常,明顯是jvm記憶體不夠得原因,要修改所有的datanode的jvm記憶體大小。

Java -Xms1024m -Xmx4096m

一般jvm的最大記憶體使用應該為總記憶體大小的一半,我們使用的8G記憶體,是以設定為4096m,這一值可能依舊不是最優的值。(其實對于最好設定為真實實體記憶體大小的0.8)

7:出現map%,但是呢reduce到98%左右的時候呢,就直接進failedjobs了

解決辦法:

檢查mapred.map.tasks是不是設定的太多了,設定太多的話會導緻處理大量的小檔案

檢查mapred.reduce.parallel.copies是否設定合适。

8:

系統根目錄下的/tmp檔案夾是不可以删除的

否則bin/hadoop jps

會出現異常:

Exception in thread "main" java.lang.NullPointerException  at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)

        at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)

        at sun.tools.jps.Jps.main(Jps.java:45)

同時

bin/hive

Unable to create log directory /tmp/hadoopuser

2:Too many fetch-failures

Answer:

出現這個問題主要是結點間的連通不夠全面。

1) 檢查 、/etc/hosts

   要求本機ip 對應 伺服器名

   要求要包含所有的伺服器ip + 伺服器名

2) 檢查 .ssh/authorized_keys

   要求包含所有伺服器(包括其自身)的public key

3:處理速度特别的慢 出現map很快 但是reduce很慢 而且反複出現 reduce=0% 

Answer:

結合第二點,然後

修改 conf/hadoop-env.sh 中的export HADOOP_HEAPSIZE=4000 

4:能夠啟動datanode,但無法通路,也無法結束的錯誤

在重新格式化一個新的分布式檔案時,需要将你NameNode上所配置的dfs.name.dir這一namenode用來存放NameNode 持久存儲名字空間及事務日志的本地檔案系統路徑删除,同時将各DataNode上的dfs.data.dir的路徑 DataNode 存放塊資料的本地檔案系統路徑的目錄也删除。如本此配置就是在NameNode上删除/home/hadoop/NameData,在DataNode上删除/home/hadoop/DataNode1和/home/hadoop/DataNode2。這是因為Hadoop在格式化一個新的分布式檔案系統時,每個存儲的名字空間都對應了建立時間的那個版本(可以檢視/home/hadoop /NameData/current目錄下的VERSION檔案,上面記錄了版本資訊),在重新格式化新的分布式系統檔案時,最好先删除NameData 目錄。必須删除各DataNode的dfs.data.dir。這樣才可以使namedode和datanode記錄的資訊版本對應。

注意:删除是個很危險的動作,不能确認的情況下不能删除!!做好删除的檔案等通通備份!!

5:java.io.IOException: Could not obtain block: blk_194219614024901469_1100 file=/user/hive/warehouse/src_20090724_log/src_20090724_log

出現這種情況大多是結點斷了,沒有連接配接上。

6:java.lang.OutOfMemoryError: Java heap space

出現這種異常,明顯是jvm記憶體不夠得原因,要修改所有的datanode的jvm記憶體大小。

Java -Xms1024m -Xmx4096m

一般jvm的最大記憶體使用應該為總記憶體大小的一半,我們使用的8G記憶體,是以設定為4096m,這一值可能依舊不是最優的值。(其實對于最好設定為真實實體記憶體大小的0.8)

7:出現map%,但是呢reduce到98%左右的時候呢,就直接進failedjobs了

解決辦法:

檢查mapred.map.tasks是不是設定的太多了,設定太多的話會導緻處理大量的小檔案

檢查mapred.reduce.parallel.copies是否設定合适。

8:

系統根目錄下的/tmp檔案夾是不可以删除的

(jps is based on jvmstat and it needs to be able to secure a memory mapped file on the temporary file system. 

否則bin/hadoop jps

會出現異常:

Exception in thread "main" java.lang.NullPointerException  at sun.jvmstat.perfdata.monitor.protocol.local.LocalVmManager.activeVms(LocalVmManager.java:127)

        at sun.jvmstat.perfdata.monitor.protocol.local.MonitoredHostProvider.activeVms(MonitoredHostProvider.java:133)

        at sun.tools.jps.Jps.main(Jps.java:45)

同時

bin/hive

Unable to create log directory /tmp/hadoopuser

繼續閱讀