英伟达重磅发布:144核超级ArmCPU及800亿晶体管GPU!

原创 EETOP 2022-03-23 12:00
近期技术直播推荐:
  • AMD FPGA+MathWork联合直播:从MATLAB/Simulink到HDL,基于模型的FPGA/SoC设计【4月7日】
  • 罗德与施瓦茨联合 Cadence直播:射频功放设计【3月30日】


来源:EETOP综合整理自tomshardware

3月23日,在今日的NVIDIA(英伟达)GTC大会上,英伟达创始人兼CEO黄仁勋重磅发布了近20项新技术及产品。

其中最为引人关注的是最新Hopper架构的H100 GPU系列及144核超级Arm CPU。

先进的小芯片互联技术

为了便于更好的文章内容,我们先介绍一下英伟达的最新推出的芯片互联技术NVLink-C2C。

这是一种支持内存一致性的芯片到芯片互连技术。NVLink-C2C 可提供高达 25 倍的能效,比 Nvidia 目前使用的 PCIe 5.0 PHY 的面积效率高 90 倍,支持高达 900 GB/s 或更高的吞吐量。该接口支持 CXL 和 Arm 的 AMBACHI 等行业标准协议,并支持从基于 PCB 的互连到硅中介层和晶圆级实现的各种连接。令人惊讶的是,Nvidia 现在允许其他供应商将该设计用于他们自己的小芯片。此外,Nvidia 宣布将支持新的 UCIe 规范。

NVLink-C2C 现在将覆盖 Nvidia 的所有芯片,包括 GPU、CPU、SOC、NIC 和 DPU。Nvidia 还表示,它正在开放规范以允许其他公司在其小芯片设计中使用 NVLink。这为客户提供了使用 UCIe 接口或 NVLink 的选项,尽管 Nvidia 声称 NVLink-C2C 已针对比 UCIe 更低的延迟、更高的带宽和更高的能效进行了优化。

比如英伟达利用NVLink-C2C可将两个Grace CPU互联在一起组成144核的超级CPU - Grace CPU Superchip (CPU+CPU)。也可以将单片Grace CPU与Hopper GPU互联(CPU+GPU),组成Grace Hopper Superchip.

144核超级CPU: Grace CPU Superchip

Grace CPU Superchip是该公司第一款专为数据中心设计的纯 CPU 的 Arm 芯片。基于 Neoverse 的架构,支持 Arm v9,并通过Nvidia 新的 NVLink-C2C 互连技术将两个72核心的Hopper CPU融合在一起(CPU+CPU),提供一致的 900 GB/s 连接,组成144核的Grace CPU Superchip。此外,基于 Arm v9 Neoverse的芯片支持 Arm 的 Scalable VectorExtensions (SVE),这是一种性能提升的 SIMD 指令,其功能类似于 AVX。

两个 Grace CPU 通过 Nvidia 新的 NVLink 芯片到芯片 (C2C) 接口进行通信。这种芯片到芯片和芯片到芯片的互连支持低延迟内存一致性,允许连接的设备同时在同一个内存池上工作。Nvidia 使用其 SERDES 和 LINK 设计技术制作接口,重点是能源和面积效率。

Nvidia 声称 Grace CPUSuperchip 在 SPEC 基准测试中提供的性能比其自己的 DGX A100 服务器中的两个上一代 64 核 AMD EPYC 处理器高出 1.5 倍,并且是当今领先服务器芯片的两倍。

老黄声称 Grace CPUSuperchip 将于 2023 年初出货,将成为市场上最快的处理器,适用于超大规模计算、数据分析和科学计算等广泛的应用。

鉴于我们对 Arm 路线图的了解,该芯片基于 N2 Perseus 平台,这是第一个支持 Arm v9 的平台。该平台采用 5nm 设计,支持所有最新的连接技术,如 PCIe Gen 5.0、DDR5、HBM3、CCIX 2.0 和 CXL 2.0,比 V1 平台提供高达 40% 的性能。

考虑到 Grace CPU Superchip 的两个 CPU 和板载内存都消耗 500W 的峰值功率,这很有意义。这与其他领先的 CPU 具有竞争力,例如 AMD 的 EPYC(霄龙),每个芯片的最高功率为 280W(这不包括内存功耗)。

Nvidia 声称 Grace CPU 在市场上的效率将是竞争 CPU 的两倍。每个 CPU 都可以访问自己的 8片LPDDR5X,因此这两个芯片仍然会受到近远内存的标准 NUMA 类趋势的影响。尽管如此,两个芯片之间增加的带宽也应该有助于减少由于竞争减少而导致的延迟,从而实现非常有效的多芯片实现。该设备还配备了 396MB 的片上缓存,但尚不清楚这是用于单个芯片还是两者兼有。

Grace CPU Superchip 内存子系统提供高达 1TB/s 的带宽,Nvidia 称这是 CPU 的首创,是支持 DDR5 内存的其他数据中心处理器的两倍多。LPDDR5X 共有 16 个封装,可提供 1TB 容量。此外,Nvidia 指出,Grace 使用了 LPDDR5X 的第一个 ECC 实现。

集成800亿晶体管,英伟达发布新一代GPU,台积电4nm

今天,在其 GPU 技术大会 (GTC) 上,Nvidia 透露了其 Hopper 架构和 Nvidia H100 GPU的详细信息。


我们知道 Nvidia 致力于下一代 GPU 已经有一段时间了,但现在我们有了一些具体的规格。不要将 Hopper 架构和 H100 GPU 与 Ada 混淆,后者是以消费者为中心的架构,将为未来的 GeForce 卡提供动力。

Nvidia 尚未透露有关 Ada 的任何细节,Hopper H100 将取代 Ampere A100,后者本身取代了 Volta V100。这些都是数据中心部件,并且与来自 AMD 的Instinct MI250/250X和新发布的Instinct MI210等公司的激烈竞争,Nvidia 正在寻求重新夺回 HPC 的领先地位。正如您所期望的那样,H100 专为超级计算机设计,专注于 AI 功能。与当前的 A100 相比,它包括许多更新和升级,所有设计都达到了新的性能和效率水平。

Hopper 包含 800 亿个晶体管(A100 GPU“仅”有 540 亿个晶体管)。它是使用定制的 TSMC 4N 工艺制造的——这是为 4nm Nvidia 设计的,这不要与 TSMC 提供的通用 N4 4nm 工艺混淆。

英伟达没有透露核心数量或时钟频率,但确实提供了一些其他细节。H100 支持 Nvidia 的第四代 NVLink 接口,可提供高达 128 GB/s 的带宽。它还支持不使用 NVLink 的系统的 PCIe 5.0,最高速度为 128 GB/s。更新后的 NVLink 连接提供的带宽是 A100 的 1.5 倍,而 PCIe 5.0 提供的带宽是 PCIe 4.0 的两倍。

H100 还将默认支持 80GB 的 HBM3 内存,带宽为 3 TB/s,比 A100 的 HBM2E 快 1.5 倍。虽然 A100 有 40GB 和 80GB 两种型号,后者在生命周期的后期推出,但 H100 和 A100 仍然使用多达六个 HBM 堆栈,显然禁用了一个堆栈(即使用虚拟堆栈)。

一般来说,H100 的内存和接口带宽比其前代产品多 50%。可以肯定,这是一个很好的改进,但 Hopper 的其他方面涉及更大的增长。H100 可提供高达 2,000 TFLOPS 的 FP16 计算和 1,000 TFLOPS 的 TF32 计算,以及 60 TFLOPS 的通用 FP64 计算——在所有三种情况下,这都是 A100 性能的三倍。Hopper 还增加了改进的 FP8 支持,计算能力高达 4,000 TFLOPS,比 A100 快六倍(由于缺乏原生 FP8 支持,它不得不依赖 FP16)。为了帮助优化性能,Nvidia 还拥有一个新的转换器引擎,它将根据工作负载在 FP8 和 FP16 格式之间自动切换。

Nvidia 还将添加旨在加速动态编程的新 DPX 指令。这些可以帮助广泛的算法,包括路线优化和基因组学,Nvidia 声称这些算法的性能比其上一代 GPU 快 7 倍,比基于 CPU 的算法快 40 倍。Hopper 还包括提高安全性的更改,多实例 GPU (MIG) 现在允许在单个 H100 GPU 上运行七个安全租户。所有这些变化对于英伟达的超级计算和人工智能目标都很重要。然而,这些变化并非都是好的。尽管转向较小的制造节点,但 SXM 变体的 H100 TDP 已增加到 700W,而 A100 SXM 模块的 TDP 为 400W。这增加了 75% 的功率,改进范围似乎在 50% 到 500% 之间,具体取决于工作负载。

总的来说,我们预计性能将比英伟达 A100 快两到三倍,因此效率仍应有净提升,但这进一步证明了摩尔定律正在放缓。总体而言,英伟达声称 H100 的扩展性优于 A100,并且可以在 AI 训练中提供高达 9 倍的吞吐量。使用 Megatron 530B 吞吐量作为基准,它还提供了 16 到 30 倍的推理性能。最后,在 3D FFT(快速傅立叶变换)和基因组测序等 HPC 应用程序中,Nvidia 表示 H100 比 A100 快 7 倍。

Nvidia DGX H100、Superpods 和 Eos 超级计算机


当然,Nvidia H100 GPU 只是故事的一部分。与 A100 一样,Hopper 最初将作为新的 DGX H100 机架式服务器提供。每个 DGX H100 系统包含 8 个 H100 GPU,可提供高达 32 PFLOPS 的 AI 计算和 0.5 PFLOPS 的 FP64,以及 640GB 的 HBM3 内存。DGX H100 alos 具有 3.6 TB/s 的二等分带宽。

使用多台 DGX H100 服务器,Nvidia 可以扩展到具有 32 个 DGX H100 系统的 DGX SuperPod,并与更新的 NVLink 交换机系统和 Quantum-2 InfiniBand 网络连接在一起。因此,单个 H100 SuperPod 具有 256 个 H100 GPU、20TB 的 HBM3 内存和高达 1 ExaFLOPS 的 AI 计算潜力。它还提供 70.4 TB/s 的带宽。

自然,超级计算机可以使用多个 SuperPod 构建,Nvidia 宣布了其新的 Eos 超级计算机,该超级计算机紧随 Selene 的脚步。Eos 将由 18 个 H100 SuperPods、576 个 DGX H100 系统和 360 个 NVLink 交换机构建而成,它将提供 275 PFLOPS 的 FP64 计算。更重要的是,在 Nvidia 专注于 AI 的未来,它将提供 18 EFLOPS 的 FP8 AI 计算,或 9 EFLOPS 的 FP16。

Hopper 遇到 Grace:超级CPU+超级GPU

前面提到,通过英伟达最新互联技术可以将Grace CPU和Hopper GPU互联融合在一起(CPU+GPU),组成Grace Hopper Superchips。

Grace Hopper Superchip 在一个载板上有两个不同的芯片,一个 CPU 和一个 GPU我们现在知道 CPU 72 个内核,使用基于 Neoverse 的设计,支持 Arm v9,并与 Hopper GPU 配对。这两个单元通过 900 GBpsNVLink-C2C 连接进行通信,提供 CPU GPU 之间的内存一致性,从而允许两个单元同时访问 LPDDR5X ECC 内存池,据称带宽比标准系统提高了 30 倍。

Nvidia 最初没有公布设计中使用的 LPDDR5X 数量,但在这里我们可以看到该公司现在声称拥有“600GB 内存 GPU”,其中肯定包括 LPDDR5X 内存池。我们知道 LPDDR5X 每个封装的最高容量为 64GB,这意味着 CPU 配备了高达 512GB 的 LPDDR5X。同时,Hopper GPU 通常具有 80GB 的 HBM3 容量,使我们接近 Nvidia 的 600GB 。让 GPU 访问该数量的内存容量可能会对某些工作负载产生变革性影响,尤其是对于经过适当优化的应用程序。 


EETOP创芯人才网高薪职位推荐





创芯人才网(https://www.icjob.top)--EETOP旗下半导体微电子领域招聘平台,欢迎大家发布职位、传简历!(免费)

网页版访问:https://www.icjob.top

扫描二维码访问创芯人才网
以下职位均为真实信息,发布企业已做资质认证,大家放心申请!
(注:图片中的薪资为月薪)

扫描二维码查看推荐职位

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 209浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 233浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 340浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 117浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 169浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 93浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 221浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 191浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 556浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 128浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 207浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 563浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 85浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 81浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 173浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦