HotChips2023!英特尔揭秘:144核SierraForest、GraniteRapids架构和至强路线图

原创 EETOP 2023-08-29 11:50

本文由EETOP编译自tomshardware

芯片行业一年一度的盛会Hot Chips正在举行,本届大会为期三天,NVIDIA、高通、英特尔、AMD、谷歌、SK海力士、三星、Arm、IBM等芯片巨头,Meta、微软等科技巨头,晶圆级芯片创企Cerebras、光子AI芯片创企曦智科技、稀疏化计算AI芯片创企墨芯人工智能、RISC-V服务器处理器创企Ventana、RISC-V IP供应商SiFive等具有代表性的创业公司,均发表了展现当前芯片工业界前沿趋势的主题演讲。披露各自的最新进展及未来规划。

今天为大家介绍英特尔刚刚分享的其144 核 Sierra Forest、Granite Rapids 架构和至强路线图。

在 Hot Chips 2023 上,英特尔首次深入展示了其未来 144 核 Xeon Sierra Forest和 Granite Rapids 处理器,前者由英特尔全新 Sierra Glen E 核心组成,后者则采用全新 Redwood Cove P 核心。即将推出的第五代 Xeon 芯片将于明年上半年推出,采用新的基于tile-based架构,该架构在Intel 7工艺上配备双 I/O 小芯片,并与Intel 3制成上制造的不同配置的计算核心搭配使用。这种设计使英特尔能够根据不同类型的内核打造多种产品,同时保持相同的底层配置,从而保留硬件和固件的兼容性。
Sierra Forest 和 Granite Rapids 与 Birch Stream 平台兼容(插槽、内存、固件和 I/O 兼容),提供了简化的硬件验证流程。它们还可以与相同的软件堆栈互操作,因此客户可以根据自己的需要采用其中任何一种芯片。

英特尔声称,与第四代至强芯片相比,第五代至强Sierra Forest基于E-Core的设计将提供高达2.5倍的机架密度和2.4倍的每瓦性能,而采用P-Core的Granite Rapids将在混合人工智能工作负载中提供2至3倍的性能,,部分原因在于内存带宽“高达”2.8 倍的提升。让我们深入了解一下。

Sierra Forest 和 Granite Rapids架构

英特尔最初在其第四代至强 Sapphire Rapids处理器上采用了tile-based(类似于小芯片组)的架构,但 Sierra Forest 和 Granite Rapids 将该方法的分解提升到了一个新的水平。
英特尔在 Sapphire Rapids处理器中采用了四芯片设计,每个芯片包含一部分相关的 I/O 功能,如内存和 PCIe 控制器。新的第五代处理器将一些 I/O 功能完全分解为两个独立的 HSIO 小芯片,这些小芯片蚀刻在 Intel 7 工艺上,这为 I/O 提供了成本、功耗和性能的最佳平衡,同时 CPU 内核和内存控制器驻留在其中在他们自己的专用计算芯片上。
计算模块将采用适用于 Granite Rapids 的 Redwood Cove P 核心(性能核心)或适用于 Sierra Forest 的 Sierra Glen E 核心——英特尔不会提供在同一封装中包含这两种类型核心的型号。这些计算芯片配备了支持 EUV 的 Intel 3 工艺,该工艺具有Intel 4 工艺中未包含的高密度库。由于将设计从“Intel 4”切换为“Intel 3”,英特尔最初将 Granite Rapids Xeons 从 2023 年推迟到 2024 年,但这些芯片仍按计划在 2024 年上半年推出。

Granite Rapids 是我们所理解的传统 Xeon 数据中心处理器 - 这些型号仅配备 P 核,可以提供英特尔最快架构的全部性能。每个 P 核均配有 2MB 的 L2 缓存和 4MB 的 L3。英特尔尚未透露 Granite Rapids 的核心数量,但透露了该平台在单个服务器中支持 1 到 8 个插槽。
与此同时,Sierra Forest 的 E-core(效率核心)系列由仅具有较小效率核心的芯片组成,就像我们在英特尔的 Alder 和 Raptor Lake 芯片中看到的那样,使它们能够很好地与数据中越来越流行的 Arm 处理器竞争中心。E 核心排列成两个或四个核心集群,共享 4MB 二级缓存和 3MB 二级缓存。配备 E-Core 的处理器配备多达 144 个内核,并针对最高的功效、面积效率和性能密度进行了优化。这意味着每个 E 核计算芯片拥有 48 个核心。Sierra Forest 可以接入单插槽和双插槽系统,TDP 低至 200W。
无论核心类型如何,每个计算芯片都包含核心、L2 和 L3 缓存以及结构和缓存归属代理 (CHA)。它们还在芯片的每一端安装了 DDR5-6400 内存控制器,标准 DDR 内存或新的MCR 内存总共具有多达 12 个通道(1DPC 或 2DPC),可提供比标准 DIMM 多 30-40% 的内存带宽。
正如您在上面所看到的,计算小芯片将根据模型有不同的大小,单计算芯片产品配有更大的计算集群。英特尔还将改变每个计算小芯片的内存通道数量——在这里,我们看到具有单个计算小芯片的产品上有三个内存控制器,而具有两个或更多计算小芯片的设计有两个内存控制器。与 AMD 的 EPYC 设计相比,英特尔决定将其内存控制器紧密集成到计算芯片中,这应该会带来卓越的内存性能,AMD 的 EPYC 设计在一个中央 I/O 芯片上采用所有内存控制器,从而增加了延迟。
计算芯片与所有其他内核共享 L3 缓存,英特尔将其称为“逻辑整体网格”,但它们也可以划分为子 NUMA 集群,以优化某些工作负载的延迟。该网格将 L3 缓存切片连接到一个统一的共享缓存中,总容量总计超过 0.5 GB,几乎比 Sapphire Rapids 大 5 倍。每个芯片边界支持芯片之间超过 TB/s 的带宽。
两个 HSIO 裸片放置在芯片封装的顶部和底部,中间有一到三个计算裸片,所有这些裸片均与未指定数量的 EMIB(嵌入式多裸片互连桥)互连连接在一起,这些互连融合在基板内并连接到桥的每一端都有芯片到芯片互连。
两个 HSIO 芯片相结合,支持多达 136 个 PCIe 5.0/ CXL 2.0通道(类型 1、2 和 3 设备)、多达 6 个 UPI 链路(144 个通道),以及类似的压缩、加密和数据流加速器。Sapphire Rapids 加速引擎的时尚。每个 HSIO 芯片还包括管理计算小芯片的电源控制电路,尽管每个计算小芯片也有自己的电源控制,可以在需要时独立运行。英特尔现在已经取消了对芯片组 (PCH) 的要求,从而允许处理器自启动,就像 AMD 的 EPYC 处理器一样。

英特尔 Sierra Glen E-Core 微架构

Sierra Glen 微架构经过优化,可在标量吞吐量工作负载(例如横向扩展、云原生和容器化环境)中实现最佳效率。该架构具有两核或四核集群,使英特尔能够为某些型号提供每核更高的二级缓存容量和每核更高的性能(通过为两核模块提供更高的功率输出)。每个核心集群驻留在相同的时钟和电压域上。E-core集群共享4MB L2缓存片和3MB共享L3缓存。
与前几代一样,每个 E 核心都是单线程。英特尔还将 L1 缓存加倍至 64KB,并采用 6-wide解码器(双 3 宽以改善延迟和功耗)、5-wide分配器、8-wide retire。Sierra Glen 核心不支持 AMX 或 AVX-512,它们将依赖AVX10,但英特尔确实添加了对 BF16、FP16、AVX-IFMA 和 AVX-DOT-PROD-INT8 的支持。  

英特尔 Redwood Cove P 核微架构

P 核的 Redwood Cove 架构现在支持具有 FP16 加速的 AMX,这是一项将提升 AI 推理工作负载性能的关键补充。英特尔还将 L1 指令缓存容量增加了一倍,达到 64 KB,以更好地解决代码繁重的数据中心工作负载。Redwood Cove 还采用软件优化的预取以及增强的分支预测引擎和错误恢复。英特尔还通过将 4 周期和 5 周期 FP 运算改为 3 周期来提高浮点性能,从而提高了 IPC。

英特尔至强路线图

对于英特尔来说,有一个好消息,该公司的数据中心路线图仍然按计划进行。Sierra Forest 将于 2024 年上半年上市,Granite Rapids 也将紧随其后。

在这里我们可以看到英特尔的路线图与AMD 的数据中心路线图的对比 。当前高性能之战在AMD去年推出的EPYC Genoa和英特尔今年年初推出的Sapphire Rapids之间展开。英特尔将于今年第四季度推出新一代Emerald Rapids ,该公司表示,该产品将配备更多内核和更快的时钟速率,并且已经发布了注入 HBM 的 Xeon Max CPU。AMD最近发布了5nm Genoa-X产品。明年,英特尔的下一代 Granite Rapids 将与 AMD 的 Turin 展开对决。
在效率泳道中,AMD 的 Bergamo 采用了与 Sierra Forest 非常相似的重核心方法,利用了 AMD 密集的Zen 4c核心。Bergamo已经上市,而英特尔的 Sierra Forrest 要到 2024 年上半年才会上市。AMD 的第五代 EPYC Turin 芯片将于 2024 年底前推出,但该公司尚未概述其第二代 Zen 4c 型号。英特尔现已将其第二代 E 核驱动的 Clearwater Forest 列入 2025 年路线图。

报名提醒

芯片行业找工作请关注创芯英才网

芯片行业精品课程请关注创芯大讲堂

EETOP EETOP半导体社区-国内知名的半导体行业媒体、半导体论坛、IC论坛、集成电路论坛、电子工程师博客、工程师BBS。
评论
  • 概述 通过前面的研究学习,已经可以在CycloneVGX器件中成功实现完整的TDC(或者说完整的TDL,即延时线),测试结果也比较满足,解决了超大BIN尺寸以及大量0尺寸BIN的问题,但是还是存在一些之前系列器件还未遇到的问题,这些问题将在本文中进行详细描述介绍。 在五代Cyclone器件内部系统时钟受限的情况下,意味着大量逻辑资源将被浪费在于实现较大长度的TDL上面。是否可以找到方法可以对此前TDL的长度进行优化呢?本文还将探讨这个问题。TDC前段BIN颗粒堵塞问题分析 将延时链在逻辑中实现后
    coyoo 2024-12-10 13:28 89浏览
  •         霍尔传感器是根据霍尔效应制作的一种磁场传感器。霍尔效应是磁电效应的一种,这一现象是霍尔(A.H.Hall,1855—1938)于1879年在研究金属的导电机构时发现的。后来发现半导体、导电流体等也有这种效应,而半导体的霍尔效应比金属强得多,利用这现象制成的各种霍尔元件,广泛地应用于工业自动化技术、检测技术及信息处理等方面。霍尔效应是研究半导体材料性能的基本方法。通过霍尔效应实验测定的霍尔系数,能够判断半导体材料的导电类型、载流子浓度及载流子
    锦正茂科技 2024-12-10 11:07 64浏览
  • 我的一台很多年前人家不要了的九十年代SONY台式组合音响,接手时只有CD功能不行了,因为不需要,也就没修,只使用收音机、磁带机和外接信号功能就够了。最近五年在外地,就断电闲置,没使用了。今年9月回到家里,就一个劲儿地忙着收拾家当,忙了一个多月,太多事啦!修了电气,清理了闲置不用了的电器和电子,就是一个劲儿地扔扔扔!几十年的“工匠式”收留收藏,只能断舍离,拆解不过来的了。一天,忽然感觉室内有股臭味,用鼻子的嗅觉功能朝着臭味重的方向寻找,觉得应该就是这台组合音响?怎么会呢?这无机物的东西不会腐臭吧?
    自做自受 2024-12-10 16:34 129浏览
  • 本文介绍Linux系统(Ubuntu/Debian通用)挂载exfat格式U盘的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。修改对应的内核配置文件# 进入sdk目录cdrk3562_linux# 编辑内核配置文件vi./kernel-5.10/arch/arm64/configs/rockchip_linux_defconfig注:不清楚内核使用哪个defc
    Industio_触觉智能 2024-12-10 09:44 89浏览
  • 习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-10 16:13 91浏览
  •         在有电流流过的导线周围会感生出磁场,再用霍尔器件检测由电流感生的磁场,即可测出产生这个磁场的电流的量值。由此就可以构成霍尔电流、电压传感器。因为霍尔器件的输出电压与加在它上面的磁感应强度以及流过其中的工作电流的乘积成比例,是一个具有乘法器功能的器件,并且可与各种逻辑电路直接接口,还可以直接驱动各种性质的负载。因为霍尔器件的应用原理简单,信号处理方便,器件本身又具有一系列的du特优点,所以在变频器中也发挥了非常重要的作用。  &nb
    锦正茂科技 2024-12-10 12:57 69浏览
  • 智能汽车可替换LED前照灯控制运行的原理涉及多个方面,包括自适应前照灯系统(AFS)的工作原理、传感器的应用、步进电机的控制以及模糊控制策略等。当下时代的智能汽车灯光控制系统通过车载网关控制单元集中控制,表现特殊点的有特斯拉,仅通过前车身控制器,整个系统就包括了灯光旋转开关、车灯变光开关、左LED前照灯总成、右LED前照灯总成、转向柱电子控制单元、CAN数据总线接口、组合仪表控制单元、车载网关控制单元等器件。变光开关、转向开关和辅助操作系统一般连为一体,开关之间通过内部线束和转向柱装置连接为多,
    lauguo2013 2024-12-10 15:53 65浏览
  • 全球知名半导体制造商ROHM Co., Ltd.(以下简称“罗姆”)宣布与Taiwan Semiconductor Manufacturing Company Limited(以下简称“台积公司”)就车载氮化镓功率器件的开发和量产事宜建立战略合作伙伴关系。通过该合作关系,双方将致力于将罗姆的氮化镓器件开发技术与台积公司业界先进的GaN-on-Silicon工艺技术优势结合起来,满足市场对高耐压和高频特性优异的功率元器件日益增长的需求。氮化镓功率器件目前主要被用于AC适配器和服务器电源等消费电子和
    电子资讯报 2024-12-10 17:09 78浏览
  • 【萤火工场CEM5826-M11测评】OLED显示雷达数据本文结合之前关于串口打印雷达监测数据的研究,进一步扩展至 OLED 屏幕显示。该项目整体分为两部分: 一、框架显示; 二、数据采集与填充显示。为了减小 MCU 负担,采用 局部刷新 的方案。1. 显示框架所需库函数 Wire.h 、Adafruit_GFX.h 、Adafruit_SSD1306.h . 代码#include #include #include #include "logo_128x64.h"#include "logo_
    无垠的广袤 2024-12-10 14:03 68浏览
  • 在驾驶培训与考试的严谨流程中,EST580驾培驾考系统扮演着至关重要的数据角色。它不仅集成了转速监控、车速管理、转向角度测量、转向灯光控制以及手刹与安全带状态检测等多项功能,还通过高精度的OBD数据采集器实时捕捉车辆运行状态,确保学员在模拟及实际驾驶中的每一步操作都精准无误。EST580驾培驾考转速车速转向角转向灯光手刹安全带OBD数据采集器系统的重要性及其功能:1、提高评判效率:通过原车CAN协议兼容,不同车型通过刷写固件覆盖,不仅提高了考试的数字化、自动化程度,还减少了人为干预的安装需要,从
    lauguo2013 2024-12-09 16:51 101浏览
  • 肖特基具有很多的应用场景, 可以做同步整流,防止电流倒灌和电源反接等,但是随着电源电流的增大,肖特基导通正向压降0.3~0.7v的劣势也越发明显,产生了很多的热,对于工程师的散热设计是个考验,增加了工程师的设计难度和产品成本,目前一种新的理想二极管及其控制器,目前正在得到越来越广泛的应用- BMS,无人机,PLC,安防,家电,电动工具,汽车等都在快速普及理想二极管有三种架构,内置电荷泵的类似无锡明芯微MX5050T这种,驱动能力会弱点,静态功耗200uA,外置电荷泵MX74700T的这种驱动能力
    王萌 2024-12-10 08:51 85浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦