大中型企业可以从超级计算革命中学到什么
Frontier是一个庞大的系统,其HPE克雷EX集群由9,408个第三代AMD EPYC 7A53处理器组成,每个处理器有64个内核,总共有602,112个CPU内核。每个单处理器节点都配备了四个AMD Instinct MI250X GPUs,总共有37,632个加速器。虽然CPU计算能力已经非常强大,但GPU提供了最大份额的FLOPS,因此要利用Frontier提供的计算能力,工作负载需要支持GPU加速,包括独特的新功能。
部署在Frontier中的AMD Instinct MI250X GPUs提供了一系列功能,但有两项非常突出。首先是内存一致性,加速器内存和系统内存可以视为一个连续体,而不是像其他标准系统那样需要两个数据副本。虽然一个节点中的多个GPU已经可以共享它们的内存,从而有助于处理非常大的数据集,但添加系统内存也进一步扩展了这种可能性,特别是当每个节点可以支持高达4TB的RAM时。
结果是节省了内存空间,允许处理更大和更复杂的数据集。编程代码的显著减少使得代码更加灵活和高效,减少了执行命令所需的时间。
AMD Instinct MI250X也是第一款提供内置网络的GPU,支持跨节点的分布式处理。当GPU直接插入互连网络时,计算节点或GPU之间的通信可以变得更快、更高效,延迟开销更小。这将使更多的能力能够在巨大的数据集上操作,这对于一些工作负载来说将意味着质的变化,而不仅仅是量的变化。某些受范围限制的见解将成为可能。用计算流体动力学研究宇宙学或极其复杂的环境系统的科学界将首先从中受益。
虽然Frontier是迄今为止第一台利用AMD Instinct MI250X内置网络的超级计算机,但它并不是该系统的独有功能。这种能力可能会在更广泛的基础上在更普遍可用的HPC数据中心中可用,GPU增强的代码将利用它来提高性能扩展。就目前而言,科学中某些领域使用的巨大数据集将是这项技术的主要受益者。但数据分析的所有领域都可以受益于数量,以提供更有效的见解。任何需要在全球范围内分析其客户商业行为的公司都将有大量的信息需要处理。在覆盖更长时间的更大集合上工作的能力可以提供更好的可操作的分析。
功耗是另一个超级计算机领先的领域,如Frontier和欧洲最近投入使用的米露。他们选择的硬件提供了前所未有的性能水平,总体功耗也很高,但就每瓦特的计算量而言,他们是迄今为止最节省的系统。对于大中型企业来说,这将是一个越来越重要的属性,不仅仅是因为对环境的关注,还因为运营成本的优化。
现在有了全球超过700万个数据中心。能源公司Engie据估计,它们占世界能源消耗的4%和温室气体排放的1%。对计算能力的渴望没有减弱的迹象,特别是随着物联网设备的激增和AI/ML工作负载部署在越来越多的领域。这种计算必须以最环保的方式交付,以确保需求的增长不会带来令人望而却步的环境影响或成本。
由于高效的处理器和加速器设计,Frontier和米露等超级计算机的密度使它们能够为其性能消耗更少的功率,从而为瓦特提供最多的计算。然而,HPC数据中心不仅直接消耗能源为其CPU和GPU供电,还消耗能源进行冷却,以保持这些组件处于最佳运行温度。这是最新的超级计算机中使用的技术提供了大量可供效仿的另一个领域。
传统上,数据中心需要复杂、耗电的空调来保持最佳温度。这不仅消耗大量电力,还会向周围环境散发大量热量。使用依靠水和自然气流的冷却方式,而不是主动制冷空调,可以显著降低功耗和环境影响。美国西部和西南部地区等炎热干燥气候下的数据中心也一直在部署“沼泽冷却”,这种冷却依靠蒸发来提供冷却效果。这些系统不仅安装起来比空调便宜得多(大约一半的价格),而且消耗的电力还不到40%。
密度带来的效率也会提高。随着AMD第四代EPYC处理器的发布,超级计算的处理器方面刚刚注入了巨大的额外动力。这将每个插槽的内核数量增加了50%。顶级CPU现在提供96个核心,使双插槽服务器能够提供192个核心。虽然这使散热设计功耗比同等的64核第三代AMD EPYC处理器提高了近30%,但由于核心数增加了50%,计算功耗比将会下降,从而使这一HPC平台更加环保。
大中型企业正在经历一个协调一致的数字化转型时期,这一时期没有减弱的迹象。AI/ML和数据分析在业务实践中的使用越来越多,对HPC计算基础架构的需求也随之增加。超级计算革命以GPU加速、密度和功耗为重点,展示了前进的方向。通过借鉴世界上最快的计算机,大中型企业可以确保以最环保、最经济的方式应对数字化转型。