天天看點

自建Hadoop資料遷移到阿裡雲EMR

作者:雲魁、連轍

最佳實踐概述

應用場景

客戶在IDC或者公有雲環境自建Hadoop叢集,資料集中儲存在HDFS檔案系統用于資料分析任務。但是由于自建HDFS空間限制無法儲存長期資料,或者客戶有Hadoop叢集遷移上雲的需求。本實踐方案提供如下場景的最佳實踐:

基于IPSec VPN隧道 + DistCp(Hadoop原生工具),将資料遷移到阿裡雲EMR叢集,目标存儲包括HDFS,阿裡雲OSS和阿裡雲EMR的Jindo

技術架構

本實踐方案基于如下圖所示的技術架構和主要流程編寫操作步驟:

自建Hadoop資料遷移到阿裡雲EMR

方案優勢

  • 安全性

    基于IPSec VPN/專線的方式進行資料安全傳輸。

  • 低成本

    在阿裡雲建立Hadoop類型的EMR叢集和自建Hadoop叢集相比有一定成本優勢,同時阿裡雲EMR可以使用OSS作為底層存儲空間,進一步降低成本。

在進行本文操作之前,您需要完成以下準備工作:

  • 擁有阿裡雲實名認證賬号。
  • 擁有已經通過備案的域名。
  • 保證賬号餘額大于100元人民币。
  • 開通ECS、OSS、EMR和VPN網關等服務。

資源規劃說明

  • 本方案實踐的資源規劃僅作為實踐示範,實際業務場景資源以使用者實際需求為準。
  • 本實踐方案中,涉及到阿裡雲資源開通和購買,本文後續執行個體中不單獨展示服務開通相關操作,請使用者自行完成。
  • 本實踐方案在使用過程中,大緻流程和實際操作所需的時長如下(不包含文檔閱讀時間),供使用者參考:
    自建Hadoop資料遷移到阿裡雲EMR

1. 自建Hadoop叢集環境搭建

本實踐方案中,使用上海VPC環境模拟客戶IDC網絡,主要安裝以下元件:

(1) 在ECS上安裝FlexGW VPN,用于模拟客戶IDC網絡中的VPN網關;

(2) 在ECS上安裝Apache日志模拟器,用于生成Apache格式的日志資訊;

(3) 在ECS上安裝Kafka,用于集中存儲Flume發送的日志;

(4) 在ECS上安裝3節點的Hadoop叢集,其中的HDFS用于集中儲存日志資料資訊。

1.1. 建立VPC網絡

步驟1 登入

專有網絡VPC産品控制台

步驟2 單擊建立專有網絡。

自建Hadoop資料遷移到阿裡雲EMR

步驟3 在建立專有網絡頁面,參考下表,配置專有網絡和交換機相關參數,并單擊确定。

自建Hadoop資料遷移到阿裡雲EMR
自建Hadoop資料遷移到阿裡雲EMR
自建Hadoop資料遷移到阿裡雲EMR

步驟4 等待專有網絡和交換機建立成功後,單擊完成。

1.2. 批量建立ECS執行個體

建立ECS執行個體

步驟1 登入上海區域的

ECS産品控制台

步驟2 單擊右上角的建立執行個體。

步驟3 在自定義購買模式下,配置相關參數。

參考下表,配置基礎配置相關内容。

自建Hadoop資料遷移到阿裡雲EMR

配置完成,單擊下一步:網絡和安全組。

自建Hadoop資料遷移到阿裡雲EMR

單擊檢視曆史價格 ,在搶占式執行個體曆史價格走勢圖中,可以看到可用區F的執行個體目前市場價格為0.034,是以,我們設定單台上限價為0.04,要求略高于目前市場價格。

自建Hadoop資料遷移到阿裡雲EMR
自建Hadoop資料遷移到阿裡雲EMR

步驟4 在網絡和安全組頁面,參考下表,配置相關參數。

自建Hadoop資料遷移到阿裡雲EMR

配置完成,單擊下一步:系統配置。

自建Hadoop資料遷移到阿裡雲EMR

步驟5 在系統配置頁面,參考下表,配置相關參數。

自建Hadoop資料遷移到阿裡雲EMR

配置完成,單擊确認訂單。

自建Hadoop資料遷移到阿裡雲EMR

步驟6 在确認訂單頁面,确認各項參數資訊。确認無誤,閱讀、同意并勾選《雲伺服器ECS服務條款》和《鏡像商品使用條款》,并單擊建立執行個體。

自建Hadoop資料遷移到阿裡雲EMR

步驟7 建立任務送出成功後,單擊管理控制台前往ECS執行個體清單頁面檢視詳情。為了在控制台便于識别ECS的用途,首先将執行個體名稱修改為如下圖所示:

自建Hadoop資料遷移到阿裡雲EMR
自建Hadoop資料遷移到阿裡雲EMR

步驟8 将Kafka隊列和FlexGW VPN這兩個執行個體關機,将系統盤更換為雲市場的鏡像,節省基礎環境部署時間。

自建Hadoop資料遷移到阿裡雲EMR
自建Hadoop資料遷移到阿裡雲EMR

步驟9 首先為FlexGW VPN網關執行個體更換系統盤。

  1. 單擊執行個體操作列下的更多 > 磁盤和鏡像 > 更換作業系統。
    自建Hadoop資料遷移到阿裡雲EMR
  2. 單擊右下角确定,更換系統盤按鈕。
    自建Hadoop資料遷移到阿裡雲EMR
  3. 選擇鏡像市場,單擊從鏡像市場選擇(含作業系統)。
    自建Hadoop資料遷移到阿裡雲EMR
  4. 在搜尋框中輸入flexgw,定位到FlexGW IPsec VPN伺服器企業版,并單擊使用。
    自建Hadoop資料遷移到阿裡雲EMR
  5. 選擇自定義密碼,并設定登入密碼。
    自建Hadoop資料遷移到阿裡雲EMR

步驟10 參考步驟9為Kafka隊列執行個體更換系統盤,選擇下面的鏡像。

自建Hadoop資料遷移到阿裡雲EMR

(可選)配置安全組

在執行個體所在安全組中确認22、80和443端口的放通情況,如果有未放通端口,請按照下面步驟進行放通。

步驟1 在ECS控制台,單擊FlexGW VPN網關執行個體操作列下的管理 。

步驟2 在左側導航欄單擊本執行個體安全組。

自建Hadoop資料遷移到阿裡雲EMR

步驟3 單擊對應安全組操作列下的配置規則。

自建Hadoop資料遷移到阿裡雲EMR

步驟4 在入方向頁簽下,單擊快速建立規則。

自建Hadoop資料遷移到阿裡雲EMR

步驟5 在快速建立規則對話框中,根據下圖配置相關參數,并單擊确定 。

自建Hadoop資料遷移到阿裡雲EMR

因篇幅原因,餘下内容請點選 原文連結 閱讀

阿裡巴巴開源大資料技術團隊成立Apache Spark中國技術社群,定期推送精彩案例,技術專家直播,問答區數個Spark技術同學每日線上答疑,隻為營造純粹的Spark氛圍,歡迎釘釘掃碼加入!

自建Hadoop資料遷移到阿裡雲EMR