如同他的演讲题名「AI,在实践中前行」,这一届人工智能大会与半年前在旧金山举办的英特尔首届第一届 AIDC 相比,在展示硬件产品与工具、阐释其开发理念的基础之上,英特尔引入了更多为特定应用场景高度定制的案例、邀请了更多来自各行各业的合作伙伴进行经验分享。
换句话说,他们将那「4%」请来了现场。
于是我们知道了,神经计算棒在给开发者的终端设备增加一些训练算力之外,更重要且不可替代的应用方式是支持部署在终端的深度学习模型的测试和原型制作,成为连接模型开发与量产阶段的桥梁;而 OpenVINO 这个看起来只是框架与设备之间的「交叉编译器」的工具,在工厂进行大规模部署的时候,究竟能如何提高效率。
英特尔神经计算棒二代:边缘设备从实验室到量产
「相比于上一代神经计算棒,NCS 2 有高达 8 倍的性能提升。」英特尔人工智能产品事业部总经理 Naveen Rao 这样介绍道。
第二代神经计算棒和第一代的最大区别,就是内含的终端视觉处理器 VPU,从上一代 Myriad 2 升级成了最新的 Myriad X。Myriad X 的效率高达每秒钟 4 万亿次运算(4TOPS),而且比 Myriad 2 多了一个专门加速神经网络的模块,能够以 1w 的耗电量实现每秒钟一万亿次神经网络运算。
神经计算棒可以说是比原型设计中常见的「开发板」更灵活一个等级的算力模块。5 月,在采访原 Movidius CEO,Remi El-Ouazzane 时,他这样介绍针对于企业用户的开发板:「……我们的产品还有内含 Myriad 2 或 Myriad X 的开发者工具包,它是一块包含 VPU 在内的开发板,包含摄像头,各种输入输出接口。客户可以利用开发板进行研发和测试,然后在研发完成后,再接入自己的工具包、传感器等……开发板并不直接进行『零售』,我们直接向需要开发 VPU 相关设备的公司销售这一产品。」
所以,如果你的系统在走入量产阶段之前,想要进行原型设计与测试,那么 NCS 就非常适合你了。
自 2017 年 7 月 神经计算棒(NCS)一代发布以来,致力于在边缘设备上发力的开发团队想出了不少有趣的点子。英特尔自己也推出了 AI Builder 项目,英特尔为合作伙伴提供资源和支持,而合作伙伴则贡献出基于英特尔 AI 平台的好点子。
在现场,Clean Water AI 项目的创始人 Peter Ma 就介绍了他利用神经计算棒闯关大小 Hackathon 的经历:在去年 9 月拿到神经计算棒后,他先后将皮肤癌检测技术、人脸识别「开锁」技术乃至机械臂相关的训练技术放在了终端上。最后,他用神经计算棒设计了 Cleanwater AI,一个能从显微镜图片中离线、实时检测出水中的污染物的设备。原型机只是笔记本电脑加上神经计算棒,实验成功后他们决定将这个项目产品化。
至强与 FPGA:为深度学习优化的高性能设备们
神经计算棒和 VPU 主要集中为终端边缘设备提供低功耗的算力,在服务器级的训练与推理方面,则是至强与 FPGA 的天下。
英特尔在今年公布了面向数据中心的至强系列的新一代路线图,其中包括了一系列用于神经网络的指令集扩展,统称为 DLBoost。DLBoost 给 AVX-512 指令集扩展了一系列神经网络指令,并引入了 bfloat16 等用于神经网络推理的新格式,而这一系列举措的目的就是加速神经网络计算负载。在现场,英特尔的工程师展示了 DLBoost 之后,今年的至强处理器相较于去年的版本在速度上有了近 11 倍的提升。
除此之外,至强也被诸多企业合作伙伴频繁提及。专攻医疗影像的汇医慧影提到了至强使得医疗影像中三维乃至四维数据的直接训练变得可行,腾讯优图实验室的安防项目用至强服务器在云端进行人脸识别、人体结构化数据分析,包括跨摄像头的跟踪。
制造业巨头美的,用摄像头和至强处理器搭配,搭建了「视觉检测平台」,用以完成质检任务。
「美的拥有足够多的工业视觉数据资源,缺少的是一套能够整合数据采集、算法模型训练、算法部署三位一体的机制。所以我们就开始了工业视觉检测云平台的构建。」美的视觉研究所所长胡正博士说。英特尔提供了云计算部署,辅以基于酷睿的工业终端和 Analytics Zoo 开发工具,完成了能在 50 毫秒内完成图片的读取和处理、在 124 毫秒内完成模型推理,且不需要产线进行任何额外停顿的视觉检测系统,应用在了中央空调、滤芯、微波炉等多条产线,开发周期只有 0.5 个月。
「如果你还想要额外的加速,现场可编程门阵列,或者说 FPGA 就是正确的解决方案。」Naveen Rao 说。
大量的 I/O,让用户可以减少数据迁移,直接将输入源接入 FPGA。而「可编程」意味着工程师可以根据模型需求改变芯片结构,在 INT4 到 FP32 范围内调整精度,找到性能与功耗的最佳平衡,「优化算法直到每一个比特」。在展台区,鲲云科技模拟了一个拥有 16 台摄像头的智能门店场景,演示了一个基于 Arria 10 FPGA 的解决方案。
nGraph 与 OpenVINO:任选框架、任选硬件
在过去,每一种框架通常只运行在一种硬件上,想要使用其他硬件,意味着工程师需要多掌握一门,甚至几门语言。选择框架几乎和选择技术路径一样重要,跨前后端组合有时意味着重组团队。
而英特尔在 15 年到 17 年,斥资数百亿美元,耗时两年完成了人工智能领域几乎是全品类的硬件收购之后,开始了软件中间层的建设工作。
今年 5 月的 AIDC 上,英特尔介绍了 nGraph 与 OpenVINO。nGraph 是一个「跨英特尔所有硬件的统一中间层编译器」,而 OpenVINO 是针对视觉任务进行快速神经网络优化与压缩的软件工具包。
「今天你可能希望在至强处理器上用 TensorFlow 来训练模型,明天你可能想在 NNP 训练加速器上加快这些模型的训练,或者你想在另一个项目中获取开拓式的动态性能,同时保持针对 TensorFlow 的软件优化,nGraph 可以帮助你有效结合前端、后端组合,甚至可以同时使用多个加速器进行模型训练。」英特尔人工智能部门数据科学部主任刘茵茵描述了一个完全不受框架与硬件限制的情境。
而这样的情境,已经从愿景成为了现实。
百度带着利用 OpenVINO 和智能摄像头的货运卡车监控解决方案来到了现场。阿里云更是直接搬来了将铝合金压铸厂的缺陷检测精度提升了 5 倍的机械臂与视觉系统:在现场,机械臂以每秒 100 帧的速度,在「有瑕疵产品」和「无瑕疵产品」间切换,而平台能在产品出现翻面的瞬间给出缺陷识别结果。
这个系统使用酷睿 i7 处理器,以及 8 个 Movidius Myriad X VPU 加速器。而这个系统只利用了加速器的 7%,与 CPU 的 25%。
使用 OpenVINO 提升视觉模型效果的企业名单还很长,在会上,英特尔给出了一个「推理性能价格功耗比」的比较:与英伟达 P4 和 Tegra X2 相对标的是多块 Myriad X VPU 的组合或者单块 Arria 10 FPGA,在给定性能比较成本方面,有了加速工具的英特尔解决方案似乎都略胜一筹。
「人工智能作为一项技术,需要与实体经济有更紧密的结合,推动实体经济转型升级。」杨旭在开幕致辞里的这一句话,在这两天的会议里,被英特尔邀请来的诸多合作伙伴与用户所印证。
如果人工智能如其所言,是一场刚刚起步的、看不到终点的马拉松,那么在这里,我们得以窥见那些领跑者。