天天看点

PAI平台公共数据集导出

Step By Step

1、数据读取

2、数据导出到自己的maxcompute项目表

3、通过DataWorks下载数据

4、通过odps cmd下载数据

一、数据读取

这里以 基于对象特征推荐 实验为例,获取公共数据集数据:pai_online_project.tao_train
  • 1.1 模板创建实验
PAI平台公共数据集导出
  • 1.2 一键运行实验
PAI平台公共数据集导出

二、数据导出到自己的maxcompute项目表

  • 2.1 使用写数据表组件将数据写入到自己的maxcompute项目
PAI平台公共数据集导出

三、通过DataWorks下载数据

  • 3.1 创建odps sql查询数据,快速下载
PAI平台公共数据集导出

注意: 目前DataWorks界面一次下载数据的上限是10000条,如果数据集超过1万条,无法通过修改SQL分次下载实现,建议可以通过DataWorks的数据集成功能,将数据导出到阿里云MySQL数据库或者本地支持公网连接的MySQL数据库。

四、通过odps cli下载数据

tunnel 命令是专门用来上传下载maxcompute数据的,也不受10000条下载的限制
  • 下载指令
tunnel download download_table_test log.txt //下载指定表数据           

cli客户端工具安装:

MaxCompute客户端(odpscmd)

相关参考

数据集成导出数据 数据上传下载常见问题