deep learning, deep convolutional neural network (cnn), mobile gpu, performance optimization, low energy con- sumption, open source software, android, renderscript
智能手机、可穿戴设备、微型机器人、物联网等越来越多的移动平台都在深度学习的领域找到了相应的应用方向(如图1)。例如在移动设备上,语音识别和图像识别等许多app都受益于机器学习的本地算法。如果允许将模型等数据直接放在客户端,就可以避免和服务器的上下行数据交互而导致的网络延迟等体验的问题。cnn卷积网络在预测的精确性和可扩展性上都取得了很先进的成果,然而像此类密集计算型的网络结构必须依赖硬件级加速才可能在移动设备上得到广泛的应用。
图1:cnn在移动设备上的应用
许多基于深度学习的硬件加速平台都有相应的解决方案了,ibm也正在开发一种用于神经网络的cmos的芯片,用于在移动设备和物联网设备上。与此同时,类似的解决方案依然处于早期的研发阶段,也并没有商用到现有的移动设备上。
和基于硬件的加速平台不同的是,gpu已经大规模的商用到现在的移动设备上了,同时在软件层面的编码支持也做的非常完善了。利用gpu现成的并行计算能力去实现cnn神经网络在移动端设备上的计算加速是完全可行的。
现存的gpu加速方案的深度学习cnn的开源库有很多种,都是基于服务器和桌面平台的[见附录的6, 7, 8, 9, 10, 11, 12].然而,由于平台架构的差异,简单的把这些开源库移植到移动端上,在某些case下效果是欠佳的(见2.2节)。目前在移动端上,据我们所知,并没有相应的带有gpu加速的深度学习计算框架的开源库,这些库 [见附录的13, 14, 15, 16]仅仅能够利用移动设备的cpu多核计算能力,而这样局限性很大。
如今,我们提供一个支持gpu加速的开源库,称为“cnndroid”,可以在android平台用来通过训练数据集的方式设计和优化cnn的网络。以下是cnndroid的几个主要亮点。
1. 支持几乎所有的cnn的layer type(section 3.1) 2. 兼容caffe[6]、torch[7]、theano[8]这些开源框架在pc平台、服务器平台上已经训练好的模型(section 3.2) 3. 现有的android app可以快速的加入这个库,无需额外的软件依赖(section 3.3) 4. 开发者可以指定最大的内存消耗(section 3.4) 5. cnn layer的gpu和cpu加速均支持(section 3.5) 6. 自动的硬件条件检测(section 3.6) 7. 在移动设备上超过60倍的性能提升以及减少130倍的能耗(section 4)
现代图形处理单元(gpu)不仅仅能做图形计算,也能够被用来做可编程的通用计算。台式机的gpu长期以来都是可编程的,近期移动设备上的gpu也开放了通用计算的硬件级支持。但受限于gpu的尺寸和功耗,移动gpu和桌面gpu设备还是有很大的差异。
现代移动gpu的shader cores(sc)通常成为若干可编程并行计算单元。每个shader core都是由若干个alu并行组成。比如,三星的exynos 5433芯片是由arm a53/a57 cpu和mali t-760 gpu组成(见图2)。t-760 gpu中的每一个sc都具有两个vliw格式的128位alu。每个128位alu能够执行simd操作,即并行的两个64位,四个32位或八个16位操作[17]。与桌面平台gpu相比,移动设备的并行alu架构在并行线程的有效执行中更多地依赖于软件和编译器,而不是动态硬件调度器。
图2: exynos 5433 mobile processor with arm a53 / a57 cpu and mali t-760 gpu
(sc: shader core, vliw: very long instruction word, simd: single instruction multiple data
更重要的是,在桌面gpu中广泛应用的线程块快速内存共享机制在移动gpu中并不可用,同时许多基于cuda的桌面平台的library在移动gpu上也不可以用。
更不幸的是,在软件层面这两端的差异也是巨大的。比如android提供的renderscript[18]是一个用于并行计算的库,但是并发线程的机制并不可用。另外,并行线程和并行线程使用的内存中的数据部分必须是一对一的关系。
在服务器和桌面端,已经有很多现成的基于gpu加速的并行计算框架可用于cnn网络,诸如caffe[6],torch [7], theano [8],tensor- flow [9], cudnn [10], cuda-convnet [11],,and velesnet [12],然而由于两端的硬件和软件的差异,这种加速和并行计算的方法并不能直接的被移植到移动设备上。比如说,caffe[6]中的卷积操作被展开并转换为矩阵乘法,这些操作对内存的要求比较高,这在移动设备上是不现实的。再举一个例子,theano [8]中的并行算法虽然与cnndroid类似,但是在移动gpu中没有使用simd单元(详见section 3.5)。
更不幸的是,桌面的计算库利用桌面gpu和cuda框架提供的线程管理功能,如快速共享内存和线程同步,这些在移动gpu和android提供的renderscript中均不可用。
在移动设备上,就目前所知的支持cnn深度学习的框架只有[13,14,15,16]。包括了caffe mobile[13]和torch mobile[14],均受限于多核的cpu计算能力,而只有cnndroid支持cpu和gpu(详见section 3.5)。
另外,cnndroid还兼容caffe[6]、torch[7]、和theano[8]训练出来的cnn模型,方便快速将模型部署到移动设备上(详见section 3.2)。
开发环境上,不需要安装android ndk,只需要安装android sdk即可。
cnndroid库支持几乎大部分的cnn layers,比如说卷积层,max/mean池化层,全链接层,relu(rectified linear units)激活函数,lrn(local response normalization)层,softmax等。相关的描述和每一层的参数设置在开源库中的文档里有说明[1]。由于库的开源特性,其它的层也可以随时加入。
模型转换脚本:图3展示了如何将训练好的模型部署到移动端
cnndroid库提供了一系列的脚本,可以把不同框架训练的库转成cnndroid格式的模型,目前已经支持caffe[6],torch[7],theano[8],因此可以使用以上框架训练模型然后转为cnndroid库支持的格式,最终运行在android移动设备上。当然你也可以模仿这些脚本写出其它平台的转换脚本,cnndroid使用messagepack序列化和存储模型中不同层的参数。具体的细节可以参考开源库的说明文档[1]。
图3:cnndroid的模型部署流程
netfile:开发者需要准备一个名为netfile.txt的文本文件,类似于caffe的.prototxt配置文件,netfile.txt文件用于配置已经训练好的模型的层次,比如说,cnn layer的各层的顺序,卷积层中的padding和stride的值。图4是一个该文件的样例,更详细的细节可以参考说明文档[1]。
netfile中也可以配置如下参数,allocated_ram:用于指定本框架可以分配的最大内存上线(见section 3.4),execution_mode:用于指定是采用并行模式还是串行模式(见section 3.5),auto_tuning:用于指定auto-tuning是否默认开启(见section 3.6)。
图4:netfile示例,如何配置alexnet[20]的三层网络结构, 以及allocated_ram, execution_mode,auto_tuning参数的配置
一旦将训练好的模型和相应的netfile文件上传到了移动设备后(图3),这个模型可以被所在的android app轻易的调用(图5),具体的有如下几个步骤:
第一步,在自己的app中依赖cnndroid库,cnndroid库只依赖android sdk,而不需要安装android ndk的,也就是说,不依赖其他的第三方库。
第二步,构造renderscript和cnndroid对象(图5所示的steps 2和3)。cnndroid的构造函数需要提供netfile文件作为输入,并会自动的创建相应的网络层次。
最后,compute函数负责利用训练好的模型,计算传入的单个图像或者批量图像并返回结果。
图5: 使用cnndroid库的几个关键调用步骤,
详细的使用方法可以参见开源库中的说明文档 [1].
我们将已经训练好的cnn模型,上传到手机的sd卡上,这些模型中包含了矩阵式的各层参数。在执行每一层前,在compute函数里(图5,step5),相应层的矩阵参数被自动的从sd卡上加载内存里,这会导致大量的内存开销。
为了减少这种内存开销,cnndroid采用的方法是:保持一部分的层长期驻留在内存中,而其他的层每次都会被创建和销毁。该选择过程开发者无需关心,在cnndroid构造函数中自动完成(图5,step3)。选择器从最大的层开始,让尽量多的层进入选择器,直到达到netfile中allocated_ram参数指定的内存上限。
注意:allocated_ram参数不宜设置的过大,比如说,android 5.0在系统层就会限制每个app的内存上限为512mb。
在cnndroid中,不同的层有不同的加速方法。比如数据并行的卷积层和需要大量密集计算的全连接层,就需要用到renderscript的框架来实现移动端的gpu加速。
这两层的大部分计算可以表示为点积。具体地来说,在卷积层中kernels与input frames进行卷积;而在全连接层中,计算可以表示为矩阵和向量的乘法。在移动设备上使用gpu的simd单元可以高效的进行点积的计算。因此,我们分离了大量的向量,并且使用基于renderscript框架的预定义点积函数来完成运算。也就是说,我们在软件层面体现了这种计算的并行性,而不像是基于cuda的桌面计算框架库那样把这类问题交给gpu的硬件调度程序。
相对于卷积层和全连接层,其它层的密集型计算相对较少。因此,它们通过多线程并发在多核cpu上进行加速。比较特殊的是,由于relu层通常出现在卷积层或全连接层之后,所以把它嵌入到之前的层中,可以在将多个图像传输时提高cnndroid的性能。
除了上述并行计算的实现之外,cnndroid还包括所有层的单线程顺序执行的实现。可以通过配置netfile中的execution_mode参数,指定执行将是顺序模式还是并行模式(图4)。
为了能够在移动设备上达到最好的性能,cnndroid框架的gpu并行加速算法支持在每个gpu线程上执行自动配额,比如说调配该gpu线程的工作量以及simd alus的工作量。配额的参数调整决定了并行的粒度。
如果在netfile(图4)中打开了auto-tuning,那么auto-tuner就会在android app首次启动时执行。auto-tuner会记录该移动设备上多个预定义的情景下cnn模型的运行时长,用于调整最佳的配额参数。因此,首次启动app需要花费较长的时间。为了公平性以及更清晰的表述我们的实验,在第4节中,我们将关掉auto-tuning。
我们在三星的galaxy note 4和htc one m9进行了实验。采用的模型是几个标准的cnn网络:lenet network for mnist dataset [21],alex krizhevsky’s network for cifar-10 (alex’s cifar-10) [22], alex krizhevsky’s network for imagenet 2012 dataset (alexnet) [20].
基准cnn的层设置如图6所示。当移植到cnndroid格式时,我们还统计了文件大小和内存占用。具体的结果如图7所示。
我们的实验环境是将手机充满电,同时进入飞行模式并且将屏幕亮度调为最低。以下的实验中,并没有每次都从sd卡加载配置和模型,因为在第一次运行时候就加载到内存中了。每次我们都会将16张图片作为输入传给cnndroid app,接下来测量输出的准确性以及运行耗时和耗电量。
图6: 三种标准的cnn网络的层次
图7: 在cnndroid格式下使用三种标准cnn网络的文件大小以及内存消耗
为了测量cnndroid的准确度,我们同时使用了cnndroid和caffe作对比实验。结果显示两者的结果方差是10的-12次方,也就意味着cnndroid的准确度和caffe几乎一样。
图8显示了仅使用cpu的线性运行cnn的运行耗时以及使用gpu加速的运行耗时和加快的倍速。报告显示的值是十次运行结果的平均值。
图8:(a)是cnn运行的平均耗时和加速的速率,(b)是整个cnn中最耗时的卷积层的耗时和加速速率
我们使用“qualcomm trepn profiler”应用程序[25]测量htc one m9手机基于alexnet网络结构的每一幅图像的功耗和能耗。
gpu加速执行时,消耗约523 mw功率和0.4 j能量,而仅仅使用cpu执行时消耗2338 mw功率和51.6 j能量。 因此,gpu加速执行消耗的电池消耗减少51.6÷0.4 = 129x。值得注意的是,我们的测量中有大约20%的波动。
我们介绍了cnndroid:一个在android平台上基于gpu加速cnn网络的开源库。经过实验评估证明该库可以提升60倍速,以及130倍的能耗节省。相关的代码以及说明文档都已经开源并发布在github上[1]。
[1] cnndroid open source gpu-accelerated library.
<a href="https://github.com/encp/cnndroid" target="_blank">https://github.com/encp/cnndroid</a>
[2] inchul song, hyun-jun kim, and paul barom jeon. deep learning for real-time robust facial expression recognition on a smartphone. in ieee international conference on consumer electronics, pages 564–567, jan 2014.
[3] yu-hsin chen, tushar krishna, joel emer, and vivienne sze. 14.5 eyeriss: an energy-e cient reconfigurable accelerator for deep convolutional neural networks. in ieee international solid-state circuits conference, pages 262–263, jan 2016.
[4] mohammad motamedi, philipp gysel, venkatesh akella, and soheil ghiasi. design space exploration of fpga-based deep convolutional neural networks. in asia and south pacific design automation conference, pages 575–580, jan 2016.
[5] paul a merolla, john v arthur, rodrigo alvarez-icaza, andrew s cassidy, jun sawada, filipp akopyan, bryan l jackson, nabil imam, chen guo, yutaka nakamura, bernard brezzo, ivan vo, steven k esser, rathinakumar appuswamy, brian taba, arnon amir, myron d flickner, william p risk, rajit manohar, and dharmendra s modha. a million spiking-neuron integrated circuit with a scalable communication network and interface. science, 345(6197):668–673, 2014.
[6] yangqing jia, evan shelhamer, jeff donahue, sergey karayev, jonathan long, ross girshick, sergio guadarrama, and trevor darrell. caffe: convolutional architecture for fast feature embedding. arxiv preprint arxiv:1408.5093, 2014.
[8] james bergstra, olivier breuleux, fr ́ed ́eric bastien,
pascal lamblin, razvan pascanu, guillaume desjardins, joseph turian, david warde-farley, and yoshua bengio. theano: a cpu and gpu math expression compiler. in proceedings of the python for scientific computing conference, 2010.
[13] caffe android library.
[14] torch-7 for android.
[15] a convolutional neural network for the android
awesome-cnn-android-python. accessed 2016-08-01.
[17] arm. mali-t600 series gpu opencl, version 1.1.0,
developer guide. accessed 2016-08-01.
[18] android renderscript developers guide.
renderscript/compute.html. accessed 2016-08-01.
[19] messagepack. http://msgpack.org/index.html.
[20] alex krizhevsky, ilya sutskever, and geoffrey e.hinton. imagenet classification with deep convolutional neural networks. in advances in neural information processing systems, 2012.
[21] y. lecun, l. bottou, y. bengio, and p. haffner. gradient-based learning applied to document recognition. proceedings of the ieee, 86(11):2278–2324, nov 1998.
[22] alex krizhevsky. learning multiple layers of features from tiny images. technical report, university of toronto, 2009.
本文作者:恒亮