AMD EPYC 服务器芯片的路线图

半导体产业纵横 2021-11-11 18:00

本文由半导体产业纵横编译自nextplatform

 

世界上为其他所有人构建服务器的超大规模者、云构建者、HPC 中心和 OEM 服务器制造商都希望,最重要的是,组件供应商之间的竞争以及定期、可预测、几乎无聊的新组件推出节奏。通过这种方式,每个人都可以定期消费,而那些实际制造每年消耗的 1200 万台服务器(并且还在增长)的 ODM 和 OEM 可以预测需求并管理他们的供应链。

 

然而,正如许多聪明人所说,IT 组织购买路线图,他们不购买单点产品,因为他们必须管理风险。

 

在英特尔最终推出出色的 64 位服务器芯片设计之后,AMD 于 2010 年在服务器的市场开始出现瓶颈——2009 年初推出的“Nehalem”Xeon E5500 架构很大程度上是从 AMD 大获成功的 Opteron 系列中复制而来的的芯片。AMD 早期的 Opteron 具有创新性,支持 64 位、多核、HyperTransport 互连和芯片上的多核,从本质上讲,英特尔看起来像是一个只推出 32 位 Xeon 并试图让企业采用 64 位的安腾( Itanium)芯片。但到2010年,AMD已经推迟了几代Opterons的交付,并且做出了一个架构分叉,但没有成功。当英特尔放弃安腾,设计了许多代具有竞争力的64位Xeon服务器芯片时,AMD基本上被挤出了数据中心。但到2015年,英特尔的创新步伐开始疲软,市场要求更多的竞争,因此,AMD进行了重组,并开始创造其Epyc的回归——这一次再次恰逢英特尔因其10纳米和7纳米芯片制造过程的延迟,而让对手抓到了机会。

 

在首席执行官帕特·盖辛格 (Pat Gelsinger) 的指导下,英特尔正在让其芯片制造厂井井有条,同时也恢复了可预测且更快速的性能和功能增强节奏,这意味着 AMD 必须做同样的事情。作为本周 Data Center Premier 活动的一部分,AMD 的高层展开了路线图,并表明他们不仅将坚持 Epyc 世代的常规节奏和完美执行,而且将深化Epyc 路线图包括不同的变体和 SKU,以追逐服务器市场的特定部分和非常精确的工作负载。

 

在 AMD 总裁兼首席执行官 Lisa Su 发表主题演讲之前,公司首席技术官 Mark Papermaster 和 AMD 数据中心和嵌入式解决方案事业部总经理 Forrest Norrod 介绍了 Epyc 服务器芯片的深化路线图。这是在推出带有 3D V-Cache 的“Milan-X”Epyc 7003 的背景下完成的,该产品将许多 HPC 和 AI 工作负载的性能提高了 50%,并将于 2022 年第一季度推出,并且“Aldebaran”Instinct MI200 GPU 加速器,现在开始出货,需要注意的是,改芯片用在了橡树岭国家实验室安装的1.5 exaflops“Frontier”超级计算机中。可以肯定的是,Milan-X 和 Instinct MI200 是本周 AMD 活动的亮点,但它们并不是 AMD 在其路线图上谈论的唯一内容,我们还需要考虑其他一些问题比 AMD 本身更进一步推动了这一路线图。

 

“它们都是在过去四年中开始扩大我们在数据中心的产品组合的大量工作的结晶,”Norrod 解释说,指的是 Milan-X 和 Aldebaran。“所以特别是在 CPU 方面,你应该考虑沿着合理的足迹快速进入市场。长期以来,我们一直认为,当我们通过某个点时,特别是考虑到数据中心工作负载复杂性的增加,我们将不得不开始扩大我们的产品范围,并且始终注意我们如何在这样的情况下做到这一点。我们保持执行保真度的方式。我们需要让客户真正轻松地采用更多工作负载的特定产品。这是我们讨论的中心主题:工作负载的特殊性,拥有针对数据中心市场的特定细分市场进行调整的产品。通过这样做,我们确保我们可以继续在这些细分市场中的每一个领域提供领导力绩效和领导力 TCO。”

 

Norrod 没有做出具体承诺,但表示我们应该期待使用 AMD 计算 GPU 的芯片和产品组合的扩大和深化。

 

在她的主题演讲中, Lisa Su将数据中心分为四个部分,并解释了 AMD 将如何使用独特的芯片来针对每个部分。

 


“通用计算涵盖了最广泛的主流工作负载,包括本地和云端,” Lisa Su 解释说。“socket级性能是一个重要的考虑因素。技术计算包括数据中心中一些要求最高的工作负载。在这里,每个核心的性能对这些工作负载最重要。加速计算专注于人类理解的前沿,解决气候变化、材料研究和基因组学等科学领域,高度并行和海量计算能力才是真正的关键。对于云原生计算,需要最大的内核和线程密度来支持超大规模应用程序。为了在所有这些工作负载中提供领先的计算能力,我们必须采用量身定制的方法,专注于硬件、软件和系统设计的创新。”

 

有了这个,让我们来看看 Su、Norrod 和 Papermaster 谈到的 Epyc 路线图,然后看看我们放在一起的增强和扩展路线图,以便为您提供更全面的认识。

 

这是他们都谈到的 Epyc 路线图:

 


您可以看到添加了“Milan-X”芯片,以及“Genoa”系列中的另一个芯片,称为“Bergamo”,采用 Zen 4c 内核,即将推出的 Zen 4 内核的变体,计算芯片的封装与标准的Genoa不同。但这并不是你得到的全部。

 

还有 Milan处理器的“Trento”变体,它将用作 Frontier 系统中 MI200 GPU 加速器的 CPU 主机。然后将是第二代 5 纳米 Epyc 处理器,我们还听到了代号为“Turin”的高核数版本,现在我们看到了更具有启发性的 AMD 服务器芯片路线图,看起来非常像 Bergamo的后续,而不是Genoa。这也许意味着对Genoa将会有不同后续版本。

 

无论如何,这是我们看到的扩展版的 AMD Epyc 路线图:



让我们来看看这个。

 

正如我们本周所知,Milan-X 将由几个 Milan 芯片的 SKU 组成,其中两排 L3 缓存堆叠在裸片上的本机 L3 缓存之上,将总 L3 缓存增加三倍以提高性能. 我们从演示文稿中知道有 16 核变体和 64 核变体,我们假设可能还有更多——24 核和 32 核,可能是 48 核——所有这些变体都得到了成比例的数量添加了额外的 L3 缓存(每个内核多出 3 倍)。

 

通过 Trento,我们听说 Milan 处理器复合体上的 I/O 和内存集线器小芯片在两个方面得到了增强。首先是 I/O 集线器支持 Infinity Fabric 3.0 互连,这意味着 Trento 芯片可以与连接到它的任何 Instinct MI200 加速器一致地共享内存。这是 Frontier 的必要功能,因为 Oak Ridge 在之前基于 IBM Power9 CPU 和 Nvidia V100 GPU 加速器的“Summit”超级计算机上具有一致的 CPU-GPU 内存。据传,Trento I/O 和内存集线器小芯片的另一项增强是在控制器上支持 DDR5 主内存。据我们所知,Trento 集线器小芯片还支持 PCI-Express 5.0 控制器和 CXL 加速器协议,这可能在 Frontier 中很有用。

 

Milan、Milan-X 和 Trento 都适合 SP3 服务器插座,最高 TDP 为 400 瓦。

 

借助 Genoa 和 Bergamo 芯片,AMD 正在转向台积电的 5 纳米芯片蚀刻工艺,Papermaster 表示,在相同的 ISO 频率下,该工艺可提供两倍的晶体管密度和两倍的晶体管功率效率,同时还提升了晶体管的开关性能提高了 25%。非常清楚:这不是Milan到Genoa的声明,而是 7 纳米工艺到 5 纳米工艺的声明,这如何导致服务器芯片性能取决于架构以及 AMD 如何在频率和电压曲线上转动刻度盘。AMD 还为这些处理器迁移到更大的 SP5 插槽。

 

Genoa 基于 Zen 4 内核,而 Bergamo 基于 Zen 4c 内核,与 Milan 系列芯片中的 Zen 3 内核相比,每时钟指令 (IPC) 具有相同的改进 – 以及相同的微体系结构,因此没有软件使用它所需的调整 - 但它在频率和电压的优化曲线上有一个不同的点,并且在缓存层次结构中进行了一些优化,使Bergamo更适合在 Epyc 包中拥有更多的计算小芯片或 CCD。与 Zen 3 核心相比,Zen 4 核心 IPC 的提升预计将在 29% 的范围内,因此这将是单线程性能以及Genoa吞吐量性能的重大变化。Begamo 将吞吐量性能提升到更高的极限,但会牺牲一些每线程性能来实现这一目标。

 

Genoa Epyc 7004 将拥有 96 个 Zen 4 内核,跨越四组三个计算块,总共十几个计算块,以及一个支持 DDR5 内存、PCI-Express 5.0 控制器和 CXL 协议的 I/O 和内存集线器最重要的是将加速器、内存和存储连接到计算复合体。Genoa将于 2022 年某个时候启动;我们不太清楚何时,因为 AMD 正在把握时机以领先于英特尔,英特尔一直在改变其“Sapphire Rapids”和“Granite Rapids”至强 SP 的发布日期。

 

有几种方法可以获得Bergamo将提供的 128 个 Zen 4c 内核。Bergamo 芯片可以使用八个 16 核计算块,而不是 Genoa 中的 12 个 8 核计算块。芯片也可以有 12 个 12 核tiles,然后将每个tiles上的一些核心倒回去,将核心数一直拨回到Bergamo封装中的 128 个总核心。后者似乎与前者的可能性相同,但如果两个处理器都有十二个内存控制器,正如传言那样,那么它将是后一种情况。Trento I/O 和内存集线器支持 8 个计算小芯片,而 Genoa I/O 和内存集线器支持 12 个计算小芯片,因此 AMD 可以采用任何一种方式到达Bergamo,但同样,如果它使用 Trento I/O 和内存中心,那么Bergamo将被降级为只有八个内存控制器,这将导致计算内存容量和带宽不平衡。看起来Bergamo将使用Genoa I/O 和内存集线器,因此,并有一些部分失效的内核,因此它最大为 128 个内核而不是 144 个内核。Papermaster 所说的只是,Bergamo 的物理设计和 Chiplet 配置与 Genoa 不同,所以大家在这一点上都在猜测。

 

Bergamo 芯片将插入与Genoa相同的 SP5 插槽,这是超大规模和云构建者关心的。据 Lisa Su称,Bergamo 将在 2023 年上半年上市,但 Norrod 最初表示可能在 2022 年底至 2023 年初推出。目前尚不清楚为什么这需要这么长时间来上市。可能是超大规模和云构建者最近才与 AMD 进行对话,让 AMD 承担风险并承担额外成本来制作 Gemoa 处理器的特殊 SKU。

 

在这之后是Bergamo和Gemoa ,看起来Bergamo实际上是传闻中的256核“Turin”处理器,该处理器是基于最近传言的未来的Zen 5c内核。

 

我们不认为普通用途的Genoa会从96核跃升到256核,但跃升到192核是合理的。这就是我们认为 在我们上面的扩展路线图中,Genoa中会出现标有“???”的内容。(除非另有说明,否则我们将称其为 Florence。)该芯片可能有四个计算块,每个块有 12 个 Zen 5 核心,在每个核心复合体中,并且封装上有四个核心复合体,以达到理论上的 192 个通用核心Epyc 7005。人们说Turin超大规模变体将有 256 个内核和高达 600 瓦的热设计点。此处的计算块可能基于 16 个 Zen 5c 内核,打包成一个四块计算复合体,其中四个在包装上。

 

我们认为将会有带有堆叠 3D V-Cache 的 Genoa-X 和 Florence-X 变体,甚至有可能看到也具有增强的 L3 缓存的 Bergamo-X 和Turin-X 变体。

 

有传言说 Epyc 7005s 将基于台积电的 3 纳米工艺,但我们认为 AMD 将尝试从 5 纳米中获得两代芯片,Genoa的演进版本和Turin基于改进的 5 纳米工艺,就像罗马一样是 7 纳米, Milan是第二次的更新。如果像两个月前传闻的那样,台积电的 3 纳米工艺出现延迟,情况尤其如此。Epyc 7005s 可能是 2024 年末到 2025 年初的产品——同样,这将取决于许多活动部件以及英特尔的表现如何,以及当时服务器领域发生的其他事情。10 exaflops 的超级计算机将需要这些 CPU。

 

我们强烈怀疑 Genoa kicker 和 Turin 处理器将适合与 Genoa 和 Bergamo 相同的 SP5 服务器插槽。如果您每代都更改插槽,会为服务器制造商造成麻烦。

 

*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。







半导体产业纵横 (微信号: ICViews)半导体产业纵横是神州数码数智创新+平台下的自媒体账号,立足产业视角,提供及时、专业、深度的前沿洞见、技术速递、趋势解析,赋能中国半导体产业,我们一直在路上。
评论
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 50浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 109浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 100浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 84浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 71浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦