天天看点

英伟达:超高的性能表现……足以支持AI应用

英伟达公司已经为ai应用设计出两款全新tesla处理器,分别为p4与p40。

英伟达:超高的性能表现……足以支持AI应用

这款16纳米finfet gpu采用英伟达pascal架构,且延续今年6月发布的p100命名方式。其中p4为单高、单长pcie卡,用于向外扩展服务器;而更为强大的p40则着眼于向上扩展设备。

这一新组合主要用于推理工作,即在硬件当中内置一套经过训练的ai模型、部分对应软件以及类似摄像头视频或者麦克风音频的输入数据,并由其据此提供决策、语音到文本转换以及对象分类等功能。

如今我们的深度学习模型已经发展到新的阶段——即利用大规模训练数据立足强大系统方可起效。但在另一方面,推理功能则需要奋起直追:我们必须能够利用数字运算处理器向复杂的神经网络推送数据,并借此进行实时决策。

这对于英特尔、英伟达及其它芯片厂商而言不啻为一个好消息,这意味着他们能够出售更多高端芯片以实现训练及推理。但坏消息在于,这意味着将有更多数据被发送至云端,并在那里进行处理,而后将结果发送回我们的手机、平板设备乃至其它小型计算平台。如此一来,我们需要高度依靠稳定的互联网连接方案。

英伟达公司高级产品经理roy kim告诉我们,未来的发展趋势将在于“混合”方案,即在设备之上建立低精度模型,从而保证决策可立即完成,而后再决定是否利用更为强大的后台处理资源返回更加精确的处理结果。目前最先进的图像识别系统拥有超过150层神经元,kim指出,因此我们目前更需要在推理层面投入研究精力。

有什么新内容?

为了最大限度提升推理通量,我们的物联网云端个人助手不会在处理问题方面耗费太多时间。英伟达公司已经向其pascal架构中添加了两条新指令:idp2a与idp4a。二者能够执行双及四元素8位矢量点积计算,并借此累加为32位。

基本上,数据科学家们认为8位精度已经足以支撑神经网络,;这意味着如果需要进一步提升精度以获得16位或者32位值,则可再经由gpu完成相关运算。事实上,当处理作为深层感知输入数据的信息时,我们并不需要太高的计算精度。

谷歌公司的tensorflow加速asic同样使用8位精度进行推理,而英特尔与amd芯片亦可在8位矢量计算领域带来出色的性能表现。

这是什么原理?

矢量点产品已经成为人工神经网络的核心所在。目前全部热门ai的核心皆为数学方程串,即从输入数据中或者普通英文中提取特性,或者从传感器及摄像头端获取有价值信息等,而后再利用软件对其进行处理。我们可以通过组合或者训练帮助网络接收数据流,而后通过不同加权机制对其进行分流,直到找出正确答案。这种加权机制贯穿整个训练过程,旨在检测输入数据的重要特性。

以下单个神经元示意图看起来非常复杂,但请相信我,并没有大家想象的那么可怕。首先我们在左侧获得从x1到xn的多个值,其经由n条路径向右推进。每个xi输入值都乘以其路径权重wi,而后再将这些乘积结果相加。这就是所谓点生成机制。在此之后,该加和会被引入一个阈值或者激活函数,输出结果则供网络中的下一感知体系进行使用。

英伟达:超高的性能表现……足以支持AI应用

将其加以组合,我们就能够得到以下这套基本网络,其中包含2个输入结果,3个神经元与1个输出结果。

英伟达:超高的性能表现……足以支持AI应用

让我们着眼于顶部神经元。其使用m输入值,将其乘以加权θ1,而后将结果添加至j再乘以θ2。由此得到的加和经由激活函数运行,并将结果交付至最右端的神经元。

因此如果忽略激活函数,那么顶端神经元的点生成输出结果为(mxθ1) + (jxθ2)。现在想象一下,如果这些变量各为8位整数,范围在-127到127之间,或者0到255之间。假设这些点生成运算可每秒执行47万亿次,且全部加和结果都能够提交至网络的下一阶段,那么这正是英伟达p40的定位所在。也正因为如此,英伟达公司才决定使用8位生成加速计算方案。

英伟达方面宣称,其p4能够在理想状态下每秒执行21.8万亿次8位整数运算,而p4在利用alexanet训练模型时,第瓦每秒图像分类数量可达到英特尔至强e5 cpu的“40倍”。

当然,这一切都要求我们的ai模型采用8位加权机制。这显然是一种非常高效的语音识别模型,同时亦可用于识别图像及完成其它类似的推理分类工作。

以下为tesla gpu家族各产品的详尽规格数据,其中包括全新p4与p40:

tesla 加速器

tesla m4

tesla p4

tesla m40

tesla p40

gpu

maxwell gm206

pascal gp104

maxwell gm200

pascal gp102

流多处理器

8

20

24

30

fp32 cuda 核心 / sm

128

fp32 cuda 核心/ gpu

1024

2560

3072

3840

基本时钟

872 mhz

810 mhz

948 mhz

1303 mhz

gpu 启动时钟

1072 mhz

1063 mhz

1114 mhz

1531 mhz

int8 top/s

na

21.8

47.0

fp32 gflop/s

2195

5442

6844

11758

fp64 gflop/s

69

170

213

367

纹理单元

64

160

192

240

内存接口

128-bit gddr5

256-bit gddr5

384-bit gddr5

内存带宽

88 gb/s

192 gb/s

288 gb/s

346 gb/s

内存大小

4 gb

8 gb

12/24 gb

24 gb

二级缓存大小

2048 kb

3072 kb

注册文件大小/ sm

256 kb

注册文件大小/ gpu

5120 kb

6144 kb

7680 kb

共享内存大小 / sm

96kb

128kb

计算容量

5.2

6.1

tdp

50/75 w

75 w (50w option)

250 w

晶体管数量

2.9 billion

7.2 billion

8 billion

12 billion

gpu晶片大小

227 mm²

314 mm²

601 mm²

471 mm²

制造工艺

28-nm

16-nm

p4与p40将于今年10月与11月分别开始销售。如果大家希望早点熟悉这类新方案,则可选择英伟达公司的pascal titan x显卡,其发布于今年7月且同样拥有44 tops的8位整数运算能力。p40基本上就是一款略微强化过的titan x。

与此同时,英伟达方面还发布了tensorrt(一套运行于其硬件之上的推理引擎)外加deepstream软件开发工具包,用于识别高分辨率(hevc、vp9)视频中的人物与对象。

原文发布时间为:2016年9月14日

本文作者:孙博 

本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。

继续阅读