天天看點

資料ACP總結(二)

接上 大資料ACP總結(一)

剛剛順利苟過了阿裡ACP, 主要複習政策是多次熟悉阿裡雲提供大資料官方教程,官方文檔,并對核心環境做總結。

社群關于複習提綱的内容以及比較詳細了,這裡梳理下存在關鍵細節的考點,也給大家一些參考。

Tunnel :

核心指令

Usage: tunnel <subcommand> [options] [args]
    Type 'tunnel help <subcommand>' for help on a specific subcommand.
Available subcommands:
    upload (u)
    download (d)
    resume (r)
    show (s)
    purge (p)
    help (h)           

Q:是否支援 ascii 字元的分隔符?

A:指令行方式不支援,配置檔案可以用十六進制表示。如 u000A,表示回車。

Q:檔案大小是否有限制?

A:檔案大小沒有限制,但一次 upload 無法超過 24 小時,可以根據實際上傳速度和時間來估算能夠上傳的資料量。

Q:記錄大小是否有限制?

A:記錄大小不能超過 200M。

Q:是否要使用壓縮?

A:預設會使用壓縮,如果帶寬允許的情況下,可以關掉壓縮。

Q:同一個表或 partition 是否可以并行上傳?

A:可以。

Q:是否支援不同字元編碼?

A:支援不同的編碼格式參數,帶 bom 辨別檔案不需要指定編碼。

Q:導入後的髒資料怎麼處理?

A:導入結束後,如果有髒資料可以通過 tunnel show bad [sessionid] 檢視髒資料。

Q:上傳下載下傳的檔案路徑是否可以有空格?

A:可以有空格,參數需要用雙引号括起來。

Q:為什麼會出現亂碼?

A:可能是上傳檔案的字元編碼和工具指定的編碼不符。

Q:導入資料最後一列為什麼多出r符号?

A:windows 的換行符是rn,macosx 和 linux 的換行符是n,tunnel 指令使用系統換行符作為預設列分隔符,是以從 macosx 或 linux 上傳 windows 編輯儲存的檔案會把r作為資料内容導進去。

Q:Tunnel 下載下傳/上傳速度正常速度範圍是多少?

A:Tunnel 下載下傳上傳,受網絡因素影響較大,正常網絡情況下速度範圍在 1MB/s-20MB/s 區間内。

Q:Tunnel 域名是什麼?

A:不同 region 對應不同的域名,詳情請參見 通路域名和資料中心。

Q:無法上傳/下載下傳怎麼辦?

A:找到配置中配置的 tunnel 域名,通過 curl -i 域名例如 curl -i

http://dt.odps.aliyun.com

測試網絡是否連通,若無法連通請檢查機器網絡或更換為正确的域名。

Q:上傳/下載下傳速度緩慢怎麼辦?

A:您可以從以下幾方面進行檢查:

檢查機器網絡狀态,ping tunnel_endpoint 域名延遲是否異常。

Q:Tunnel 需注意的分隔符問題有哪些?

A:Tunnel 需要注意的分隔符問題,如下所示:

列分隔符 fd 不能包含行分隔符 rd。

行分隔符 rd。

預設值: rn (windows) 和 n(linux)。

上傳開始的時候會列印提示資訊,告知本次上傳所使用的行分隔符(0.21.0 版本及以後)供使用者檢視和确認。

列分隔符 fd。

預設值:, (逗号)。

Mapreduce:

資料ACP總結(二)
  • mapreduce 采用了大量便宜低成本的機器支援橫向擴充,并非失效是常态
  • bdp.system.bizdate 為格式為目前前一天 格式YYYYMMDD
  • bdp.system.cycdate 為排程執行個體定時運作時間
  • 一個 map 的輸出結果可能會被配置設定到多個 reduce 上去
  • 一個 reduce 的輸入資料可能來自于多個 map 的輸出
  • 一個 MR 處理可以不包括任何 map