一、Hadoop部署模式
單機模式:預設情況下運作為一個單獨機器上的獨立Java程序,主要用于調試環境
僞分布模式:在單個機器上模拟成分布式多節點環境,每一個Hadoop守護程序都作為一個獨立的Java程序運作
完全分布式模式:真實的生産環境,搭建在完全分布式的叢集環境
二、添加使用者群組
$ sudo adduser hadoop ##建立使用者hadoop
$ sudo usermod -G sudo hadoop ##将hadoop使用者添加進sudo使用者組
三、安裝相關軟體
$ sudo apt-get update
$ sudo apt-get -y install openssh-server rsync openjdk-7-jdk
$ sudo service ssh restart
$ java -version
四、配置SSH免密登入
$ su -l hadoop ##切換至hadoop使用者
$ ssh-keygen -t rsa -P "" ##配置SSH免密登入
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ##将公鑰追加到authorized_keys中
$ ssh localhost ##驗證
五、Hadoop配置
①下載下傳安裝Hadoop
$ su -l hadoop
$ wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
$ tar -zxvf hadoop-2.7.1.tar.gz
$ sudo mv hadoop-2.7.1 /usr/local/hadoop
②配置Hadoop
a.添加環境變量
$ vi /home/hadoop/.bashrc
#HADOOP START
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
export HADOOP_INSTALL=/usr/local/hadoop/
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_INSTALL/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_INSTALL/lib"
#HADOOP END
$ . /home/hadoop/.bashrc ##重載使其生效
六、測試
①建立輸入資料
$ su -l hadoop
$ cd /usr/local/hadoop
$ sudo mkdir input
$ sudo cp /etc/passwd input/
②執行Hadoop WordCount應用(詞頻統計)
$ bin/hadoop jar share/hadoop/mapreduce/sources/hadoop-mapreduce-examples-2.7.1-sources.jar org.apache.hadoop.examples.WordCount input output
$ hadoop dfs -ls output
-rw-r--r-- 1 hadoop hadoop 0 2015-12-18 13:18 output/_SUCCESS
-rw-r--r-- 1 hadoop hadoop 2128 2015-12-18 13:18 output/part-r-00000
$ hadoop dfs -cat output/*