据外媒Phoronix报道,其测试了美国超微(Supermicro)公司基于英特尔至强(Xeon) Max 9480/9468处理器的服务器Hyper SuperServer SYS-221H-TNR,显示Xeon Max 9480/9468内置的64GB HBM2e高带宽内存显著提升了整体的高性能计算(HPC)和人工智能(AI)计算的工作负载能力。
今年1月,英特尔正式推出了全球首款配备 HBM 内存的处理器——Intel Xeon Max 系列处理器,其基于代号Sapphire Rapids-HBM芯片构建。新的Xeon Max系列处理器拥有32至56 个内核(旗舰是Xeon Max 9468),均为 P 核,可提供最高 112 线程,350W TDP。同时所有的Xeon Max都内置了 64 GB 的 HBM2e 高带宽内存,分为 4 个 16 GB 的集群,总内存带宽为 1 TB / s。
英特尔称,Xeon Max系列CPU配备的高带宽内存足以满足最常见的HPC工作负载,与旧的英特尔至强 8380 系列处理器或 AMD EPYC 7773X 相比,可在某些工作负载中提供接近 5 倍的性能。同时, Xeon Max 系列CPU中还还包含了最多 20 个加速引擎,主要是用于 AVX-512、AMX、DSA 和英特尔 DL Boost 等AI工作负载。据称,在 MLPerf DeepCAM 训练中,Xeon Max 系列CPU的AI性能比 AMD 7763 提升了 3.6 倍,比 NVIDIA 的 A100 提升了 1.2 倍。
Phoronix表示,Xeon Max系列处理器所支持的AVX-512、AMX、DDR5、CXL 1.1等功能与其他的第四代至强可扩展处理器系列差不多,其配备的 64 GB 的 HBM2e 高带宽内存才是最为突出的优势。
据介绍,Xeon Max系列支持三种不同的操作模式:仅HBM模式、HBM平面(1LM)模式和HBM缓存模式。
在仅HBM模式中,是服务器完全在64GB的HBM2e内存(或128GB的双插槽场景)内运行。仅HBM模式的工作原理是,简单地不填充服务器上的任何DDR5内存插槽并引导;
HBM缓存模式,是服务器运行Xeon Max CPU同时安装DDR5内存的默认模式。在这种模式下,HBM2e作为缓存透明地工作,不需要软件方面的更改。
HBM平面模式,是当DDR5填充Xeon Max服务器时,可以通过BIOS启用该模式。在HBM平面模式中,可以建立具有HBM和DRAM的平面存储器区域,以便比使用HBM2E的软件具有更大的灵活性。但对于HBM平面模式来说,可能需要进行软件更改。
从Supermicro最新曝光的基于英特尔Xeon Max 9480/9468处理器的服务器的测试数据来看,不仅测试了仅HBM模式和HBM缓存模式,此外还测试了HBM平面模式,但没有为HBM2e内存分配任何内容,以便在HBM2e内存未使用的情况下,仅在DDR5内存上有效测试这些处理器,以查看其非活动/有效未使用的影响。
对于每个插槽容量可以容纳64GB高带宽内存的工作负载,仅HBM模式非常有趣。Xeon Max 9480有56个内核,每个内核的内存的HBM内存略高于1GB,这不适合当今许多高度线程化的工作负载,但仍有相当多的情况下,每个内核1~2GB的内存是令人满意的。最低端Xeon Max 9462,具有32个CPU核心,但每个核心将平均拥有2GB的HBM2e。如果Xeon Max系列能够在未来几代中实现约128GB或更多的HBM2e高带宽内存,从而在理想情况下每个核心平均至少拥有2GB的情况下,通过更高的核心数量部件开辟更多的可能性,这将是非常有趣的。
曝光的基准测试着眼于仅HBM和HBM缓存模式,加上HBM未使用/非活动模式之间的各种工作负载,其中软件可以通过128GB(双插槽)与512GB DDR5-4800加上128GB HBM2e缓存的缓存模式进行比较。将主要着眼于针对HPC和AI的Xeon Max Linux性能的其他领域,以及与竞争对手的比较。
英特尔Xeon Max 9468拥有48个P核,基本频率为2.1GHz,全核turbo频率为2.6GHz,最大turbo频率为3.5GHz,除了64GB HBM2e内存之外,还拥有105MB缓存。Xeon Max 9480旗舰处理器有56个P核,基本频率为1.9GHz,全核turbo频率为2.6GHz,最大turbo频率为3.5GHz,除了64GB HBM2e内存之外,还拥有112.5MB缓存。Xeon Max 9468和Xeon Max 9480均具有350瓦TDP额定值。
英特尔至强Max 9480的推荐客户价格为12980美元,远低于售价17000美元的60核至强Platinum 8490H,也不比11800美元左右的AMD EPYC 9654高太多。此外,如果用户能够在仅HBM模式下满足需求,则可以节省相当多的DDR5内存成本。
为了测试Intel Xeon Max处理器,Supermicro提供了Hyper SuperServer SYS-221H-TNR审查单元。SYS-221H-TNR是一款不错的双插座LGA-4677解决方案,具有Sapphire Rapids所需的所有功能。Supermicro SYS-221H-TNR评论将在未来几周Phoronix上发布的其他Xeon Max文章中单独发布。
在第一轮测试中,所有Supermicro SYS-221H-TNR+Xeon Max 9468/9480双套接字测试都是在Ubuntu 23.04上完成的,使用其Linux 6.2内核和GCC 12.2编译器,同时在Intel CPU Freq性能调控器模式下运行。服务器在SNC4模式下运行所有基准测试。
值得指出的是,所有的处理器测试都是使用SYS-221H-TNR的空气冷却。对于要求非常高的Xeon Max 9480部署,英特尔则鼓励使用液体冷却。英特尔鼓励其合作伙伴使用液体冷却来满足给定SKU的指定外壳温度(TCase)。Xeon Max 9480的温度建议为64°C或Xeon Max 9468的温度为77°C。
让我们继续看一看加入HBM2e高带宽内存的Xeon Max对性能的影响:
凭借OpenFOAM领先的开源计算流体动力学(CFD)软件,仅使用HBM模式可以节省大量时间,并在性能上实现显著飞跃。这些结果显示了启用Intel HBM2e的服务器处理器的巨大潜力,这些处理器能够将数据集/工作负载适应每个插槽64GB的HBM2e。
IPMI报告的Super Micro服务器在运行OpenFOAM CFD时的功耗在测试模式之间相似。
对于这个开源CFD解决方案,Xeon Max带来的OpenFOAM好处是非常可观和有趣的。尽管Xeon Max 9480的最高核数仅为56核,但相对于没有配备HBM2e的更高核数的Sapphire Rapids(非Max)处理器或竞争对手提供了多少好处。
得益于HBM2e内存,Xeon Max处理器的每瓦性能也得到了很好的提升。
在Phoronix进行基准测试的许多常见HPC工作负载中,Xeon Max处理器在使用HBM2E内存时以及在每个核心能够容纳的对应的内存容量的工作负载中显示出显著优势。
当在仅HBM模式下操作时,由于不必为16个DDR5 DIMM供电,使用IPMI监测整个交流系统功率消耗时可以节省一些功率。
但是,当采用仅HBM模式时,许多HPC基准测试的CPU功耗也略高(通过RAPL/PowerCap sysfs接口监控),因此这并不像完全移除16个DDR5 DIMM那样大。
当启动美国国家航空航天局在HPC空间中常见的NPB平行基准测试时,在单独使用HBM2e存储器方面几乎一致地取得了相当大的进步。也就是说利用HBM2e内存性能得到了非常好的改进。
在仅HBM模式下,一些性能改进也是非常令人印象深刻。
所有,我们很容易理解为什么Aurora超级计算机的设计是基于Xeon Max处理器,而不是标准(非Max)Sapphire Rapids处理器。
OpenRadioss作为基于Altair Radioss的开源软件,在Xeon Max HBM模式下也显示出了一些不错的时间节约。
Quantum Espresso软件也能够享受HBM2E带来的提升。但是在某些工作负载中,Xeon Max 9468领先于Xeon Max 9480,主要是在一些工作负载不能很好地扩展的情况下,当每个核心的HBM2e数量越多时,则对Xeon Max 9468更有利。
对于许多HPC工作负载,在仅HBM模式下操作Xeon Max 9468和9480处理器也都有着显著提升。但是,对于这些最初的Xeon Max处理器,在仅HBM模式下运行时,每个套接字(Socket)只能有64GB的系统内存可寻址。对于需要更多内存的工作负载——或者线程工作负载喜欢每个核心超过1GB——这可能意味着资源争用导致内存不足。
在广泛的技术工作负载范围内,通过在仅HBM模式下运行,可以观察到许多显著的性能改进。
了解Xeon Max在一系列HPC工作负载中的表现,并量化仅HBM与HBM缓存模式的差异,是非常有趣的。
英特尔Xeon Max的性能得益于英特尔的开源OpenVINO工具包。由于OpenVINO能够利用高级矩阵扩展(AMX),并在基准测试中从仅HBM2E的操作中受益匪浅,因此在各种测试模型中都出现了许多显著的加速。
使用HBM2E内存,PetSC库的流性能得到了巨大提升。
以下是所进行的各种基准测试的CPU功耗。在仅HBM模式下运行时,双插槽处理器的综合功耗略高。在使用HBM的情况下,有记录的峰值CPU功耗,有时功率消耗明显更高。然而,这部分可能是由于PowerCap/RPL驱动程序错误或其他平台异常。因为当查看下面IPMI报告的AC服务器功耗数字时,它们与PowerCap提供的结果中的峰值不一致。
通过Super Micro IPMI接口获得的交流功耗数字显示,在仅HBM模式下,功耗略低于HBM非活动或HBM缓存模式下的功耗,因为16个DDR5服务器DIMM未填充。因此,如果能够针对工作负载在仅HBM模式下运行,则可以节省一些电力。同时也避免了所有DDR5服务器内存的开销。
当对这些能够利用Xeon Max上的HBM2e的工作负载取几何平均值时,HBM缓存模式将性能提高了约10%至11%。当使用HBM时,性能仅提高了约8%。或者总的来说,如果将Xeon Max 9468/9480的性能与没有HBM2e内存用于在128GB(双插槽)的HBM2e上操作所有情况进行比较,那么从OpenVINO到OpenFOAM以及测试的许多其他HPC/AI基准测试,这种广泛的工作负载组合的总体性能提高了18~20%。
不过,这在很大程度上取决于与计算目的相关的工作负载。对于OpenFOAM CFD、OpenVINO AI和许多其他工作负载,在仅HBM模式下都有显著改进。如果能够使用64GB或128GB的HBM2E和售价约12000美元的旗舰Xeon Max 9480,再加上不必投资DDR5服务器内存的节省,Xeon Max系列对Sapphire Rapids来说是具有很大的优势,尤其是对于各种HPC和AI工作负载。特别是对于准备使用英特尔高级矩阵扩展的人工智能工作负载,Xeon Max实际上是AMX和HBM2E之间的双赢。
虽然Xeon Max 9468和Xeon Max 9480的整体表现相当接近,Xeon Max 9468也确实比Xeon Max 9480具有轻微的频率优势,但是Xeon Max 9480具有明显的核心优势。但对于两个处理器来说,都只争夺64GB的HBM2e内存或每个内核略多于1GB的内存,Xeon Max 9468可以在少八个内核的情况下享受稍微更少的资源争夺。
以上Xeon Max测试也是基于所提供的硬件通过风冷却进行的。然而,英特尔确实鼓励其合作伙伴使用液体冷却,尤其是Xeon Max 9480 SKU。
Xeon Max确实支持AMX和DSA,但不提供任何可与其他Sapphire Rapids处理器一起使用的QAT/DLB/IAA加速器设备。然而,围绕新的英特尔加速器的软件生态系统支持仍然有限,因此除了一些特定的用例外,Xeon Max并没有太大的缺陷。
不过,主要的限制是每个CPU只有64GB的HBM2E内存,这对于56核的旗舰Xeon Max 9480来说意味着每个核略高于1GB。那些考虑将Xeon Max用于仅HBM路由的用户需要确保它们不会达到任何内存限制/争用,从而对性能产生负面影响。
希望对于未来的Xeon Max处理器,我们将设法看到英特尔在更高核数的CPU中实现至少128GB的HBM2E。另一个障碍是Xeon Max 9480的内核数为56,而非Max Sapphire Rapids处理器的内核数高达60,AMD第四代EPYC Genoa的每个插槽最多可管理96各内核,AMD的Bergamo的每个插槽可管理128个内核。
对于内存非常有限的工作负载,配备HBM2E的Xeon Max系列可能是一件令人愉快的事情,但在与竞争对手甚至SPR非最大的竞争中,肯定有一些工作负载对于具有更高的核心数量更有利。无论如何,这些Xeon Max处理器在HBM缓存和仅HBM操作模式下的表现是非常出色的。
编辑:芯智讯-浪客剑 来源:Phoronix