点击蓝字 关注我们
SUBSCRIBE to US
RALF-UWE LIMBACH/FORSCHUNGSZENTRUM JÜLICH
就在过去的几年里(https://spectrum.ieee.org/frontier-exascale-supercomputer),超级计算加速进入了超算时代——世界上最庞大的机器每秒能够执行超过10亿次运算。但是,除非效率的大幅提高能够沿着指数增长曲线进行干预,否则预计计算也将需要越来越不切实际且不可持续的能源——甚至根据一项被广泛引用的研究,到2040年,计算所需的能源将超过当今世界的总产出(https://www.semiconductors.org/wp-content/uploads/2018/06/RITR-WEB-version-FINAL.pdf)。
幸运的是,高性能计算社区现在不仅将重点转移到提高性能(以原始PB级或EB级为单位)上,而且还转移到更高的效率上,增加了每瓦的操作次数。
近日公布了最新的Top500超级计算机排名(世界上最强大的机器列表,https://www.top500.org/lists/top500/2024/06/)及Green500(世界上效率排名最高的机器,https://www.top500.org/lists/green500/2024/06/)。Top 500超级计算机中领先的10台基本保持不变,由橡树岭国家实验室的Frontier exascale计算机领导。前十名中只有一个新成员,排名第六:瑞士国家超级计算中心的Alps系统。与此同时,阿贡国家实验室的Aurora将其规模扩大了一倍,但仍保持着第二梯队的排名。另一方面,在Green500榜单上,新来者进入了前三名,这表明世界上一些最新的高性能系统可能在追求效率多余纯粹的功率。
在新的Green500名单中,Jülich超级计算中心的原型系统JEDI名列榜首,该系统将用于其即将推出的JUPITER exascale计算机。排名第二和第三的是布里斯托尔大学的Isambard AI,也是一个更大计划系统的第一阶段,以及波兰Cyfronet组织的Helios超级计算机。排在第四位的是上届榜单的领导者,西蒙斯基金会的Henri。
A Hopper Runs Through It
Green500榜单上排名前三的系统有一个共同点——它们都是用英伟达的Grace Hopper超级芯片构建的(https://www.nvidia.com/en-us/data-center/grace-hopper-superchip/),该芯片是Hopper(H100)GPU和Grace CPU的组合。伟达加速数据中心走向市场战略总监Dion Harris表示,Grace Hopper架构如此高效的主要原因有两个。第一个是Grace CPU,它得益于ARM指令集架构卓越的电源性能。此外,他说,它还集成了一种称为LPDDR5X的存储器结构,这种结构通常存在于手机中,并针对能效进行了优化。
JÜLICH SUPERCOMPUTING CENTER
Harris说,Grace Hopper的第二个优势是在Hopper GPU和Grace CPU之间新开发的互连。该连接利用了CPU和GPU在一块板上彼此接近的优势,实现了每秒900吉比特的带宽,大约是最新PCIe第5代互连的7倍(https://www.xda-developers.com/pcie-5/)。Harris提到,这使得GPU能够快速访问CPU的内存,这对于人工智能训练或图形神经网络等高度并行的应用程序尤为重要。
三个顶级系统都使用Grace Hoppers,但Jülich的JEDI仍以显著的优势领先——每瓦72.7千兆次,而第二名为每瓦68.8千兆次(上届排名第一为每瓦65.4千兆次)。JEDI团队将他们的额外成功归功于他们将芯片连接在一起的方式。他们的互连结构也来自英伟达——Quantum-2 InfiniBand(https://www.nvidia.com/en-us/networking/quantum2/)——而不是其他两个顶级系统使用的HPE Slingshot(https://www.hpe.com/us/en/compute/hpc/slingshot-interconnect.html)。
JEDI团队还引用了他们为适应Green500基准所做的具体优化。除了使用所有最新的英伟达设备外,JEDI还通过其冷却系统降低了能源成本。JEDI不使用空气或冷冻水,而是在其计算节点中循环使用热水来处理多余的热量。Jülich高性能计算部门负责人Benedikt von St.Vieth表示:“在正常天气条件下,多余的热量可以通过自由冷却装置来解决,而不需要额外的冷水冷却。”
JUPITER将使用与其原型JEDI相同的架构,von St.Vieth表示,他的目标是保持原型的大部分能效——尽管随着规模的扩大,互连结构可能会损失更多的能量。
当然,最关键的是这些系统在实际科学任务中的性能,而不仅仅是在Green500基准上。“看到这些系统上线真的很令人兴奋,”英伟达的Harris说,“但更重要的是,我们真的很高兴看到这些系统的科学成果,因为我认为(能效)对应用的影响甚至比基准更大。”
微信号|IEEE电气电子工程师学会
新浪微博|IEEE中国
· IEEE电气电子工程师学会 ·
往
期
推
荐
IEEE将成为您的竞争优势
空间计算是什么?空间计算时代到来了吗?
如何负责任地使用人工智能
什么是通用人工智能?