通过阿里云容器服务深度学习解决方案上手Caffe+多GPU训练

深度学习作为近几年推动人工智能在机器视觉、语音、自然语言处理等领域取得显著进展的主要方法，已经发展成一门相对成熟的学科。同时，随着越来越多科技企业和科研机构的投入，深度学习的基础支撑技术和工程系统也越来越完善，并且呈现百花齐放的局面。以深度学习计算框架为例， Google的Tensorflow拥有最为庞大的粉丝群，Keras在产业界和学界的接受度都有大幅提升，而Caffe在图像类的模型训练上依然是很多算法工程师的最爱。同时，还有大量其他开源框架，比如MXNet, Torch, PyTorch, CNTK, deeplearning4j等也都保持快速演进，并且在不同体系结构和计算环境下也都有相应的框架项目。

目前，阿里云容器服务提供的深度学习解决方案内置了对Tensorflow, Keras, MXnet框架的环境，并支持基于它们的深度学习模型开发、模型训练和模型预测。同时，对于模型训练和预测，用户还可以通过指定自定义容器镜像的方式，使用其他深度学习框架。

本文将描述如何通过自定义镜像的方式，实现使用Caffe框架在GPU设备上进行多卡模型训练。

使用阿里云容器服务的深度学习解决方案，主要的工作包括：

准备计算资源集群

购买ECS计算资源，可以包括CPU和GPU；

创建容器集群管理上述ECS节点；

准备数据存储，用于保存和共享训练数据集、训练日志和结果模型

创建阿里云共享存储服务实例。目前可以支持阿里云OSS和NAS存储服务；

为上述数据存储创建数据卷，用于将共享存储实例挂载入容器内部。方便训练、预测代码从本地目录读写训练数据等；

在阿里云容器服务控制台的解决方案页面填写参数，配置、启动模型训练任务

以下将就这几项工作，详细介绍。

创建容器服务集群

通过阿里云容器服务控制台

<a href="https://cs.console.aliyun.com">https://cs.console.aliyun.com</a>

(首次使用需要免费开通服务)，创建容器集群，详见文档

<a href="https://help.aliyun.com/document_detail/52677.html?spm=5176.doc53547.6.900.VyPXtY">https://help.aliyun.com/document_detail/52677.html?spm=5176.doc53547.6.900.VyPXtY</a>

注：

1. 容器集群所管理的ECS节点资源，可以提前购买好，然后添加到容器集群内。也可以在创建容器集群的时候自动购买。但目前自动购买仅支持包年包月的ECS实例，在加入容器集群后可以再修改为按量付费的类型。

2. 不同ECS服务区域，提供的GPU实例类型可能不同。需要在提前确认。

可以在容器服务控制台查看容器集群的详情，如这里创建的华东2可用区B的容器集群“swarmcluster”

创建共享数据存储

容器服务可以通过数据卷挂载的方式支持阿里云OSS对象存储和NAS文件存储。首先，需要创建存储服务实例。

注1: 请在与上述ECS节点的相同阿里云服务区域，创建OSS或NAS存储实例。否则，运行在ECS上的容器将无法访问它们。

OSS对象存储实例创建方法，详见

<a href="https://help.aliyun.com/document_detail/31896.html?spm=5176.doc31842.2.5.ug192v">https://help.aliyun.com/document_detail/31896.html?spm=5176.doc31842.2.5.ug192v</a>

我们在华东2区创建OSS bucket“deeplearning-test”，可以查看其内、外网的访问地址

NAS文件存储实例创建需要两步，详见

1. 创建文件系统

<a href="https://help.aliyun.com/document_detail/27526.html?spm=5176.doc27527.6.551.t4fGpd">https://help.aliyun.com/document_detail/27526.html?spm=5176.doc27527.6.551.t4fGpd</a>

2. 添加挂载点

<a href="https://help.aliyun.com/document_detail/60431.html?spm=5176.doc27526.6.552.mTQl8H">https://help.aliyun.com/document_detail/60431.html?spm=5176.doc27526.6.552.mTQl8H</a>

创建数据卷

创建好数据存储实例后，需要在容器集群中创建对应的数据卷。比如，使用OSS作为训练数据和日志存储，可以创建OSS数据卷，步骤详见

<a href="https://help.aliyun.com/document_detail/52681.html?spm=5176.doc52677.6.902.DMpKvy">https://help.aliyun.com/document_detail/52681.html?spm=5176.doc52677.6.902.DMpKvy</a>

这里我们创建OSS数据卷“ossdata”，用于连接上述创建的OSS

bucket “deep learning-test”。

创建NAS数据卷的过程与OSS基本类似。

启动训练任务

目前，解决方案还未内置对Caffe框架的支持。可以通过指定自定义镜像的方式，使用用户自己的Caffe框架来训练模型。过程如下，

构建和推送自定义的容器镜像

用户在开通容器服务的同时，也会开通容器镜像仓库服务。可以使用镜像仓库服务，在与集群相同的阿里云区域创建公开的，或者私有的容器镜像仓库。并把希望使用的Caffe框架制作成docker镜像，推送到镜像仓库中。以后在该集群部署的训练任务就可以使用这个Caffe镜像了。

容器镜像仓库构建的文档可以参考

<a href="https://help.aliyun.com/document_detail/60997.html?spm=5176.doc60765.6.547.eGFyUs">https://help.aliyun.com/document_detail/60997.html?spm=5176.doc60765.6.547.eGFyUs</a>

<a href="https://help.aliyun.com/document_detail/44535.html?spm=5176.doc25985.6.676.HGxEOq">https://help.aliyun.com/document_detail/44535.html?spm=5176.doc25985.6.676.HGxEOq</a>

在本示例里，我们可以在华东2区创建镜像仓库

registry.cn-shanghai.aliyuncs.com/dl-frameworks/acs-caffe，

使用dockerfile和docker build命令在本地构建好acs-caffe的gpu版镜像，并推送到上述镜像仓库中。

具体地，可以在集群中的一个ECS节点上创建custom_train_caffe.dockerfile文件，示例内容如下：

该镜像基于caffe官方基础镜像bvlc/caffe:gpu，并使用一个自定义的脚本custom_train_helper.sh作为用镜像启动容器时的入口进程。在相同目录下创建custom_train_helper.sh文件供dockerfile文件里构建镜像时使用，内容如下：

脚本逻辑很简单，主要是在执行具体训练命令的前后期，设置工作目录，和训练日志、结果的备份工作。

接下来，在同级目录下构建自定义镜像。

然后可以将构建好的镜像registry.cn-shanghai.aliyuncs.com/dl-frameworks/acs-caffe:gpu推送到之前在华东2区创建的镜像仓库中去。可以参考

<a href="https://help.aliyun.com/document_detail/60743.html?spm=5176.doc60765.6.543.JJch13">https://help.aliyun.com/document_detail/60743.html?spm=5176.doc60765.6.543.JJch13</a>

示例如下：

可以在容器镜像服务的控制台https://cr.console.aliyun.com，“管理”这个镜像仓库。可以查看到刚刚推送的caffe镜像的公网、内网地址。

在配置训练任务的页面表单里填入必要的参数：

具体的参数意义和值如下：

集群：swarmcluster，指定训练任务运行的集群

应用名：test-caffe，训练任务将作为一个容器应用被部署在容器集群中运行；

训练框架：选择自定义镜像

镜像地址：填入上述推送的caffe镜像地址，如

registry.cn-shanghai.aliyuncs.com/dl-frameworks/acs-caffe:gpu

。

分布式训练：勾选后可指定Parameter

Server架构的分布式训练任务配置

单worker使用GPU数量：单机训练时，任务所使用的GPU卡数量

数据来源：存储训练数据集的数据卷，可支持OSS、NAS和本地数据卷

执行命令：执行模型训练任务的命令。

这里填写的命令，和通常启动训练时执行的命令是一样的。可以执行python程序，如

也可以执行shell脚本，比如 "/input/train-mnist.sh"。只要确保shell文件存在于容器内正确的路径下。在任务容器启动时都会以

“sh –c 命令”的形式自动执行。

本示例中用到的训练命令是执行脚本“train-mnist.sh”。该脚本只要提前存放在OSS存储bucket“deeplearning-test”的根目录下。

在使用上述构建的镜像启动容器时，会通过“ossdata”数据卷自动挂载到容器内的“/input”目录下。这样就可以在容器内像执行本地脚本一样运行“train-mnist.sh”了。

示例脚本内容也很简单，会运行Caffe自带的mnist训练例子。

其中 create_mnist.sh用于准备mnist训练数据集，代码如下：

train_lenet.sh脚本用于真正执行Caffe训练任务，其中指定了模型定义为lenet_solver。代码如下：

训练监控：目前只支持基于Tensorboard的训练监控可视化服务，本例中先不使用。如果勾选，会自动部署Tensorboard服务，并与下面指定的日志存储路径自动关联。这样，训练代码中输出的日志可以被Tensorboard读取。

训练日志路径：用于存储训练过程中输出的日志和结果。请在训练代码中使用同样的路径。

“确定”后，训练任务将被作为容器应用创建，自动调度到合适的GPU节点，并开始执行训练命令

查看训练容器运行详情

训练任务创建后，会以应用容器的方式运行。在容器服务控制台，进入“应用”页面，可以找到前面创建的任务“test-caffe”。

可以点击应用名，查看更多任务执行的状况。

可以看到上述任务有一个容器“test-caffe_worker1”在运行，查看该容器的运行的节点位置，以及查看资源监控和日志信息。也可以通过简单的web远程终端，直接进入该容器内部。效果和通过SSH进入容器一样。

训练过程输出的日志会实时地显示在对应的容器名下。

通过简单的web远程终端进入容器内部操作。

根据训练任务的复杂程度，在等待一段时间后，训练结束。任务容器会自动退出，释放所占用的GPU等资源。

至此，通过自定义镜像的方式，用户可以使用容器服务简单、快速地运行基于Caffe等任何深度学习框架的模型训练。训练任务调度、计算资源分配、GPU使用率优化、数据存储的集成、集群管理，监控等工作都不需要额外的投入。

通过阿里云容器服务深度学习解决方案上手Caffe+多GPU训练

继续阅读

Vue学习记录— 键盘修饰符以及自定义键盘修饰符

Vue学习记录-- v-cloak,v-text,v-html,v-bind,v-on的基本使用

k8s Dashboard 调研

ZooKeeper ：Docker Compose部署ZooKeeper集群

Docker：可视化管理工具LazyDocker

Docker：安装Docker Compose

Nginx：Docker Compose部署Nginx

flow.ci - 简单强大的开源 CI/CD 工具，Jenkins 之外的另一种选择！flow.ci - 开源 CI/CD 工具

docker-compose 文件结构和示例（大全）

使用jvm监控工具(jconsole、jvisualvm)通过jmx远程连接kubernetes上的java应用

Docker - Docker Volume及Volume命令详解

Ubuntu16.04下Caffe环境搭建：cuda8.0 + opencv2.4.13

Ubuntu14.04+cuda8.0+caffe+MATLAB

Docker-compose 进行Doris自动化编排部署

服装信息化数字化变革

K-近邻算法以及图像分类应用