天天看点

数据ACP总结(二)

接上 大数据ACP总结(一)

刚刚顺利苟过了阿里ACP, 主要复习策略是多次熟悉阿里云提供大数据官方教程,官方文档,并对核心环境做总结。

社区关于复习提纲的内容以及比较详细了,这里梳理下存在关键细节的考点,也给大家一些参考。

Tunnel :

核心命令

Usage: tunnel <subcommand> [options] [args]
    Type 'tunnel help <subcommand>' for help on a specific subcommand.
Available subcommands:
    upload (u)
    download (d)
    resume (r)
    show (s)
    purge (p)
    help (h)           

Q:是否支持 ascii 字符的分隔符?

A:命令行方式不支持,配置文件可以用十六进制表示。如 u000A,表示回车。

Q:文件大小是否有限制?

A:文件大小没有限制,但一次 upload 无法超过 24 小时,可以根据实际上传速度和时间来估算能够上传的数据量。

Q:记录大小是否有限制?

A:记录大小不能超过 200M。

Q:是否要使用压缩?

A:默认会使用压缩,如果带宽允许的情况下,可以关掉压缩。

Q:同一个表或 partition 是否可以并行上传?

A:可以。

Q:是否支持不同字符编码?

A:支持不同的编码格式参数,带 bom 标识文件不需要指定编码。

Q:导入后的脏数据怎么处理?

A:导入结束后,如果有脏数据可以通过 tunnel show bad [sessionid] 查看脏数据。

Q:上传下载的文件路径是否可以有空格?

A:可以有空格,参数需要用双引号括起来。

Q:为什么会出现乱码?

A:可能是上传文件的字符编码和工具指定的编码不符。

Q:导入数据最后一列为什么多出r符号?

A:windows 的换行符是rn,macosx 和 linux 的换行符是n,tunnel 命令使用系统换行符作为默认列分隔符,所以从 macosx 或 linux 上传 windows 编辑保存的文件会把r作为数据内容导进去。

Q:Tunnel 下载/上传速度正常速度范围是多少?

A:Tunnel 下载上传,受网络因素影响较大,正常网络情况下速度范围在 1MB/s-20MB/s 区间内。

Q:Tunnel 域名是什么?

A:不同 region 对应不同的域名,详情请参见 访问域名和数据中心。

Q:无法上传/下载怎么办?

A:找到配置中配置的 tunnel 域名,通过 curl -i 域名例如 curl -i

http://dt.odps.aliyun.com

测试网络是否连通,若无法连通请检查机器网络或更换为正确的域名。

Q:上传/下载速度缓慢怎么办?

A:您可以从以下几方面进行检查:

检查机器网络状态,ping tunnel_endpoint 域名延迟是否异常。

Q:Tunnel 需注意的分隔符问题有哪些?

A:Tunnel 需要注意的分隔符问题,如下所示:

列分隔符 fd 不能包含行分隔符 rd。

行分隔符 rd。

默认值: rn (windows) 和 n(linux)。

上传开始的时候会打印提示信息,告知本次上传所使用的行分隔符(0.21.0 版本及以后)供用户查看和确认。

列分隔符 fd。

默认值:, (逗号)。

Mapreduce:

数据ACP总结(二)
  • mapreduce 采用了大量便宜低成本的机器支持横向扩展,并非失效是常态
  • bdp.system.bizdate 为格式为当前前一天 格式YYYYMMDD
  • bdp.system.cycdate 为调度实例定时运行时间
  • 一个 map 的输出结果可能会被分配到多个 reduce 上去
  • 一个 reduce 的输入数据可能来自于多个 map 的输出
  • 一个 MR 处理可以不包括任何 map