天天看點

搭建雲伺服器Hadoop叢集/僞分布Linux 系統搭建雲伺服器 Hadoop 叢集

新增使用者

下載下傳安裝

配置 SSH 免密登入

修改配置

初始化、啟動與停止

(所有雲伺服器都要執行)

(下面的 IPn 表示如 192.168.1.1 格式的雲伺服器外網 IP 位址。注意,如果是指向本機的 IP,請用内網 IP 位址代替)

    chmod 644 /home/hadoop/.ssh/authorized_keys

---以上指令所有雲伺服器都要運作---

(如果搭建僞分布模式,則可以略過交換共享這一步,直接進行 ssh 的測試)

這一步的最終目的是讓所有雲伺服器的 authorized_keys 内容都包含各自的 id_rsa.pub 資訊,且内容相同。

需要確定所有雲伺服器能夠互相 <code>ssh</code> 通過。

第一次進行 <code>ssh</code> 需要密碼登入。輸完密碼之後,選擇 <code>yes</code> 儲存記錄。之後就不再需要輸入密碼登入了。

如果出現異常情況,可重新開機服務再嘗試:<code>sudo service sshd service</code>。

發現很多配置檔案,其中

設定 HDFS NameNode 的 URI 為 <code>IP1:9000</code>

設定了 I/O 檔案緩存容量

設定 Namenode 資訊存儲目錄

設定副本數為 2

設定 Secondary NameNode URI 為 <code>IP2:9001</code> (slave1 &lt;=&gt; IP2)

開啟 WebHDFS 子產品

設定 DataNode 的目錄路徑

設定用戶端送出任務的 URI 為 <code>IP1:8032</code>

設定主程式資源擷取的 URI 為 <code>IP1:8032</code>

設定 NodeManager URI 為 <code>IP1:8033</code>

設定 ResourceManager 的 Web 界面 URI 為 <code>IP1::8088</code>

以上4點配置可不設定,本身有預設值

設定每個任務所需最小記憶體為 512MB

設定每個任務所需最大記憶體為 2048MB

設定 NodeManger 可使用的記憶體為 1024MB

設定如果任務超過記憶體限制,則自動殺死(kill)該任務。

任務曆史預設端口也是 10020

任務曆史 Web 界面端口也是 19888

約第 54 行的位置修改為

或者

注意不要每次啟動都格式化,導緻 NameNode 與 DataNode 的 clusterID 不一緻而啟動失敗;

如果一定要格式化,需要删除配置檔案中指定在運作時生成的檔案夾,如 <code>hdfs/name</code>、<code>hdfs/data</code>、<code>tmp</code>(在 Hadoop 安裝目錄下)。

可檢視 hadoop 安裝目錄下的 <code>logs</code> 日志檔案夾排錯