AMD EPYC 服务器芯片的路线图

半导体产业纵横 2021-11-11 18:00

本文由半导体产业纵横编译自nextplatform

 

世界上为其他所有人构建服务器的超大规模者、云构建者、HPC 中心和 OEM 服务器制造商都希望,最重要的是,组件供应商之间的竞争以及定期、可预测、几乎无聊的新组件推出节奏。通过这种方式,每个人都可以定期消费,而那些实际制造每年消耗的 1200 万台服务器(并且还在增长)的 ODM 和 OEM 可以预测需求并管理他们的供应链。

 

然而,正如许多聪明人所说,IT 组织购买路线图,他们不购买单点产品,因为他们必须管理风险。

 

在英特尔最终推出出色的 64 位服务器芯片设计之后,AMD 于 2010 年在服务器的市场开始出现瓶颈——2009 年初推出的“Nehalem”Xeon E5500 架构很大程度上是从 AMD 大获成功的 Opteron 系列中复制而来的的芯片。AMD 早期的 Opteron 具有创新性,支持 64 位、多核、HyperTransport 互连和芯片上的多核,从本质上讲,英特尔看起来像是一个只推出 32 位 Xeon 并试图让企业采用 64 位的安腾( Itanium)芯片。但到2010年,AMD已经推迟了几代Opterons的交付,并且做出了一个架构分叉,但没有成功。当英特尔放弃安腾,设计了许多代具有竞争力的64位Xeon服务器芯片时,AMD基本上被挤出了数据中心。但到2015年,英特尔的创新步伐开始疲软,市场要求更多的竞争,因此,AMD进行了重组,并开始创造其Epyc的回归——这一次再次恰逢英特尔因其10纳米和7纳米芯片制造过程的延迟,而让对手抓到了机会。

 

在首席执行官帕特·盖辛格 (Pat Gelsinger) 的指导下,英特尔正在让其芯片制造厂井井有条,同时也恢复了可预测且更快速的性能和功能增强节奏,这意味着 AMD 必须做同样的事情。作为本周 Data Center Premier 活动的一部分,AMD 的高层展开了路线图,并表明他们不仅将坚持 Epyc 世代的常规节奏和完美执行,而且将深化Epyc 路线图包括不同的变体和 SKU,以追逐服务器市场的特定部分和非常精确的工作负载。

 

在 AMD 总裁兼首席执行官 Lisa Su 发表主题演讲之前,公司首席技术官 Mark Papermaster 和 AMD 数据中心和嵌入式解决方案事业部总经理 Forrest Norrod 介绍了 Epyc 服务器芯片的深化路线图。这是在推出带有 3D V-Cache 的“Milan-X”Epyc 7003 的背景下完成的,该产品将许多 HPC 和 AI 工作负载的性能提高了 50%,并将于 2022 年第一季度推出,并且“Aldebaran”Instinct MI200 GPU 加速器,现在开始出货,需要注意的是,改芯片用在了橡树岭国家实验室安装的1.5 exaflops“Frontier”超级计算机中。可以肯定的是,Milan-X 和 Instinct MI200 是本周 AMD 活动的亮点,但它们并不是 AMD 在其路线图上谈论的唯一内容,我们还需要考虑其他一些问题比 AMD 本身更进一步推动了这一路线图。

 

“它们都是在过去四年中开始扩大我们在数据中心的产品组合的大量工作的结晶,”Norrod 解释说,指的是 Milan-X 和 Aldebaran。“所以特别是在 CPU 方面,你应该考虑沿着合理的足迹快速进入市场。长期以来,我们一直认为,当我们通过某个点时,特别是考虑到数据中心工作负载复杂性的增加,我们将不得不开始扩大我们的产品范围,并且始终注意我们如何在这样的情况下做到这一点。我们保持执行保真度的方式。我们需要让客户真正轻松地采用更多工作负载的特定产品。这是我们讨论的中心主题:工作负载的特殊性,拥有针对数据中心市场的特定细分市场进行调整的产品。通过这样做,我们确保我们可以继续在这些细分市场中的每一个领域提供领导力绩效和领导力 TCO。”

 

Norrod 没有做出具体承诺,但表示我们应该期待使用 AMD 计算 GPU 的芯片和产品组合的扩大和深化。

 

在她的主题演讲中, Lisa Su将数据中心分为四个部分,并解释了 AMD 将如何使用独特的芯片来针对每个部分。

 


“通用计算涵盖了最广泛的主流工作负载,包括本地和云端,” Lisa Su 解释说。“socket级性能是一个重要的考虑因素。技术计算包括数据中心中一些要求最高的工作负载。在这里,每个核心的性能对这些工作负载最重要。加速计算专注于人类理解的前沿,解决气候变化、材料研究和基因组学等科学领域,高度并行和海量计算能力才是真正的关键。对于云原生计算,需要最大的内核和线程密度来支持超大规模应用程序。为了在所有这些工作负载中提供领先的计算能力,我们必须采用量身定制的方法,专注于硬件、软件和系统设计的创新。”

 

有了这个,让我们来看看 Su、Norrod 和 Papermaster 谈到的 Epyc 路线图,然后看看我们放在一起的增强和扩展路线图,以便为您提供更全面的认识。

 

这是他们都谈到的 Epyc 路线图:

 


您可以看到添加了“Milan-X”芯片,以及“Genoa”系列中的另一个芯片,称为“Bergamo”,采用 Zen 4c 内核,即将推出的 Zen 4 内核的变体,计算芯片的封装与标准的Genoa不同。但这并不是你得到的全部。

 

还有 Milan处理器的“Trento”变体,它将用作 Frontier 系统中 MI200 GPU 加速器的 CPU 主机。然后将是第二代 5 纳米 Epyc 处理器,我们还听到了代号为“Turin”的高核数版本,现在我们看到了更具有启发性的 AMD 服务器芯片路线图,看起来非常像 Bergamo的后续,而不是Genoa。这也许意味着对Genoa将会有不同后续版本。

 

无论如何,这是我们看到的扩展版的 AMD Epyc 路线图:



让我们来看看这个。

 

正如我们本周所知,Milan-X 将由几个 Milan 芯片的 SKU 组成,其中两排 L3 缓存堆叠在裸片上的本机 L3 缓存之上,将总 L3 缓存增加三倍以提高性能. 我们从演示文稿中知道有 16 核变体和 64 核变体,我们假设可能还有更多——24 核和 32 核,可能是 48 核——所有这些变体都得到了成比例的数量添加了额外的 L3 缓存(每个内核多出 3 倍)。

 

通过 Trento,我们听说 Milan 处理器复合体上的 I/O 和内存集线器小芯片在两个方面得到了增强。首先是 I/O 集线器支持 Infinity Fabric 3.0 互连,这意味着 Trento 芯片可以与连接到它的任何 Instinct MI200 加速器一致地共享内存。这是 Frontier 的必要功能,因为 Oak Ridge 在之前基于 IBM Power9 CPU 和 Nvidia V100 GPU 加速器的“Summit”超级计算机上具有一致的 CPU-GPU 内存。据传,Trento I/O 和内存集线器小芯片的另一项增强是在控制器上支持 DDR5 主内存。据我们所知,Trento 集线器小芯片还支持 PCI-Express 5.0 控制器和 CXL 加速器协议,这可能在 Frontier 中很有用。

 

Milan、Milan-X 和 Trento 都适合 SP3 服务器插座,最高 TDP 为 400 瓦。

 

借助 Genoa 和 Bergamo 芯片,AMD 正在转向台积电的 5 纳米芯片蚀刻工艺,Papermaster 表示,在相同的 ISO 频率下,该工艺可提供两倍的晶体管密度和两倍的晶体管功率效率,同时还提升了晶体管的开关性能提高了 25%。非常清楚:这不是Milan到Genoa的声明,而是 7 纳米工艺到 5 纳米工艺的声明,这如何导致服务器芯片性能取决于架构以及 AMD 如何在频率和电压曲线上转动刻度盘。AMD 还为这些处理器迁移到更大的 SP5 插槽。

 

Genoa 基于 Zen 4 内核,而 Bergamo 基于 Zen 4c 内核,与 Milan 系列芯片中的 Zen 3 内核相比,每时钟指令 (IPC) 具有相同的改进 – 以及相同的微体系结构,因此没有软件使用它所需的调整 - 但它在频率和电压的优化曲线上有一个不同的点,并且在缓存层次结构中进行了一些优化,使Bergamo更适合在 Epyc 包中拥有更多的计算小芯片或 CCD。与 Zen 3 核心相比,Zen 4 核心 IPC 的提升预计将在 29% 的范围内,因此这将是单线程性能以及Genoa吞吐量性能的重大变化。Begamo 将吞吐量性能提升到更高的极限,但会牺牲一些每线程性能来实现这一目标。

 

Genoa Epyc 7004 将拥有 96 个 Zen 4 内核,跨越四组三个计算块,总共十几个计算块,以及一个支持 DDR5 内存、PCI-Express 5.0 控制器和 CXL 协议的 I/O 和内存集线器最重要的是将加速器、内存和存储连接到计算复合体。Genoa将于 2022 年某个时候启动;我们不太清楚何时,因为 AMD 正在把握时机以领先于英特尔,英特尔一直在改变其“Sapphire Rapids”和“Granite Rapids”至强 SP 的发布日期。

 

有几种方法可以获得Bergamo将提供的 128 个 Zen 4c 内核。Bergamo 芯片可以使用八个 16 核计算块,而不是 Genoa 中的 12 个 8 核计算块。芯片也可以有 12 个 12 核tiles,然后将每个tiles上的一些核心倒回去,将核心数一直拨回到Bergamo封装中的 128 个总核心。后者似乎与前者的可能性相同,但如果两个处理器都有十二个内存控制器,正如传言那样,那么它将是后一种情况。Trento I/O 和内存集线器支持 8 个计算小芯片,而 Genoa I/O 和内存集线器支持 12 个计算小芯片,因此 AMD 可以采用任何一种方式到达Bergamo,但同样,如果它使用 Trento I/O 和内存中心,那么Bergamo将被降级为只有八个内存控制器,这将导致计算内存容量和带宽不平衡。看起来Bergamo将使用Genoa I/O 和内存集线器,因此,并有一些部分失效的内核,因此它最大为 128 个内核而不是 144 个内核。Papermaster 所说的只是,Bergamo 的物理设计和 Chiplet 配置与 Genoa 不同,所以大家在这一点上都在猜测。

 

Bergamo 芯片将插入与Genoa相同的 SP5 插槽,这是超大规模和云构建者关心的。据 Lisa Su称,Bergamo 将在 2023 年上半年上市,但 Norrod 最初表示可能在 2022 年底至 2023 年初推出。目前尚不清楚为什么这需要这么长时间来上市。可能是超大规模和云构建者最近才与 AMD 进行对话,让 AMD 承担风险并承担额外成本来制作 Gemoa 处理器的特殊 SKU。

 

在这之后是Bergamo和Gemoa ,看起来Bergamo实际上是传闻中的256核“Turin”处理器,该处理器是基于最近传言的未来的Zen 5c内核。

 

我们不认为普通用途的Genoa会从96核跃升到256核,但跃升到192核是合理的。这就是我们认为 在我们上面的扩展路线图中,Genoa中会出现标有“???”的内容。(除非另有说明,否则我们将称其为 Florence。)该芯片可能有四个计算块,每个块有 12 个 Zen 5 核心,在每个核心复合体中,并且封装上有四个核心复合体,以达到理论上的 192 个通用核心Epyc 7005。人们说Turin超大规模变体将有 256 个内核和高达 600 瓦的热设计点。此处的计算块可能基于 16 个 Zen 5c 内核,打包成一个四块计算复合体,其中四个在包装上。

 

我们认为将会有带有堆叠 3D V-Cache 的 Genoa-X 和 Florence-X 变体,甚至有可能看到也具有增强的 L3 缓存的 Bergamo-X 和Turin-X 变体。

 

有传言说 Epyc 7005s 将基于台积电的 3 纳米工艺,但我们认为 AMD 将尝试从 5 纳米中获得两代芯片,Genoa的演进版本和Turin基于改进的 5 纳米工艺,就像罗马一样是 7 纳米, Milan是第二次的更新。如果像两个月前传闻的那样,台积电的 3 纳米工艺出现延迟,情况尤其如此。Epyc 7005s 可能是 2024 年末到 2025 年初的产品——同样,这将取决于许多活动部件以及英特尔的表现如何,以及当时服务器领域发生的其他事情。10 exaflops 的超级计算机将需要这些 CPU。

 

我们强烈怀疑 Genoa kicker 和 Turin 处理器将适合与 Genoa 和 Bergamo 相同的 SP5 服务器插槽。如果您每代都更改插槽,会为服务器制造商造成麻烦。

 

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。







半导体产业纵横 (微信号: ICViews)半导体产业纵横是神州数码数智创新+平台下的自媒体账号,立足产业视角,提供及时、专业、深度的前沿洞见、技术速递、趋势解析,赋能中国半导体产业,我们一直在路上。
评论
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 118浏览
  • 随着智慧科技的快速发展,智能显示器的生态圈应用变得越来越丰富多元,智能显示器不仅仅是传统的显示设备,透过结合人工智能(AI)和语音助理,它还可以成为家庭、办公室和商业环境中的核心互动接口。提供多元且个性化的服务,如智能家居控制、影音串流拨放、实时信息显示等,极大提升了使用体验。此外,智能家居系统的整合能力也不容小觑,透过智能装置之间的无缝连接,形成了强大的多元应用生态圈。企业也利用智能显示器进行会议展示和多方远程合作,大大提高效率和互动性。Smart Display Ecosystem示意图,作
    百佳泰测试实验室 2025-01-16 15:37 194浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 57浏览
  • 百佳泰特为您整理2025年1月各大Logo的最新规格信息,本月有更新信息的logo有HDMI、Wi-Fi、Bluetooth、DisplayHDR、ClearMR、Intel EVO。HDMI®▶ 2025年1月6日,HDMI Forum, Inc. 宣布即将发布HDMI规范2.2版本。新规范将支持更高的分辨率和刷新率,并提供更多高质量选项。更快的96Gbps 带宽可满足数据密集型沉浸式和虚拟应用对传输的要求,如 AR/VR/MR、空间现实和光场显示,以及各种商业应用,如大型数字标牌、医疗成像和
    百佳泰测试实验室 2025-01-16 15:41 189浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 146浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 84浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 205浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 152浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 187浏览
  • 电竞鼠标应用环境与客户需求电竞行业近年来发展迅速,「鼠标延迟」已成为决定游戏体验与比赛结果的关键因素。从技术角度来看,传统鼠标的延迟大约为20毫秒,入门级电竞鼠标通常为5毫秒,而高阶电竞鼠标的延迟可降低至仅2毫秒。这些差异看似微小,但在竞技激烈的游戏中,尤其在对反应和速度要求极高的场景中,每一毫秒的优化都可能带来致胜的优势。电竞比赛的普及促使玩家更加渴望降低鼠标延迟以提升竞技表现。他们希望通过精确的测试,了解不同操作系统与设定对延迟的具体影响,并寻求最佳配置方案来获得竞技优势。这样的需求推动市场
    百佳泰测试实验室 2025-01-16 15:45 310浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 117浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦