Intel最新发布的至强6处理器分成了P-core和E-core两个版本,而且核心数总算是堆到了领先的288个。所以这次的至强6能应战隔壁Epyc和Neoverse吗?

电子工程专辑此前虽然从未深入分析过至强处理器的架构,但借助酷睿/酷睿Ultra处理器的核心微架构及其先进封装的解读,多少也能看清楚至强的虚实。

实际在过去几年至强Ice Lake和Sapphire Rapids时代,Intel服务器CPU产品是相当被动的,尤其在追求高核心数的应用场景中。所以过去几年Intel数据中心业务的成绩单也的确不够好看——即便Intel在服务器CPU市场仍然是绝对的份额大头,压力来自AMD和Arm阵营两方面。

此前Intel公布至强的路线图之时,我们普遍认为采用Intel 3制造工艺的Sierra Forest和Granite Rapids会成为新的转折点。不仅因为制造工艺跟上了主流,也是P-core(性能核)与E-core(能效核)分开的设计明确了不同的市场需求,性能和能效方面预期实现飞跃。

从去年Intel Innovation活动开始,Intel就陆续公布了不少有关这代至强处理器的信息,包括今年4月Intel Vision活动上宣布至强6处理器的问世。最近,至强6处理器产品正式发布,更多细节信息也浮出水面。

Ryan Tabrah(英特尔数据中心与人工智能事业部副总裁兼至强能效核产品线总经理)展示至强6700E

要知道第五代至强(Emeralds Rapids)是去年12月份同酷睿Ultra(Meteor Lake)一起发布的,转眼半年至强6(Xeon 6)和下一代酷睿Ultra(Lunar Lake)就都准备要来了。可见无论是PC市场还是服务器市场,Intel的应战都非常积极。

借着这篇文章,我们来谈谈可能成为新转折点的至强6处理器究竟如何,以及它的存在逻辑怎样。这也将有助于我们深入理解数据中心处理器市场。

 

至强6分成了两个版本

此前Intel就已经预告过新一代至强6会有仅采用E-core和仅采用P-core的两个不同系列——前者代号Sierra Forest,后者代号Granite Rapids,用以满足不同的市场需求。之前不少外媒认为,Sierra Forest的存在主要是为了与Arm阵营——典型如Ampere Computing的产品和亚马逊自研的Graviton等处理器展开竞争,表现在其大量核心数上。

我们认为至强6的产品规划大约有这方面的成分,但也不是这么简单。梁雅莉(英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理)在发布会上的发言很好地总结了这两类采用不同核心的至强处理器的目标应用场景:

“以云原生微服务为代表的分布式通用计算,交给能效核(E-core)处理器来处理;而以AI和高性能计算等为代表的重度计算任务,则会交给性能核(P-core)进行处理。”

这其中有一个更高层级的逻辑:单一的架构不能解决客户所有的问题,或者完美覆盖所有业务场景。在摩尔定律迟滞的当下,基于应用场景做芯片设计已经是行业共识了。所以“面向不同业务负载”更具“针对性”的架构,是非常符合时代潮流的思路。

而且不单是CPU的不同架构,还包括GPU、ASIC、FPGA之类的加速器。在我们看来,至强6的两种核心版本更像是Intel XPU策略在CPU这类产品上的具体体现。这种思路也符合时下“绿色”“高能效”计算的主流趋势。

陈葆立(英特尔数据中心与人工智能集团副总裁兼中国区总经理)表示过去几年从数据中心客户那里看到的需求增长点,一是AI,一是微服务(microservices)。AI的特点是对核心性能、内存带宽与延迟等有较高要求;

而云上的微服务对单核性能并没有那么敏感,但对“服务的量”有较高要求——对核心密度更敏感——这一点从AWS针对Graviton的应用实例也能看出来。高核心数或核心密度对微服务、容器工作负载而言很重要。

所以Intel为至强6设计了两条产品线,满足不同工作负载对于性能和能效的要求,两个版本共享底层平台和软件栈。具体P-core和E-core分别满足怎样的负载需求,可见下图:

“一些客户两边的业务都需要,就会导入两个产品;还有一些则非常专注某一个领域。”Intel给出了这两种核心的至强6,相较第二代至强在不同负载下的性能(与每瓦性能)提升(基于数据中心技术设施4-5年一换的常规)如下图:

即便E-core被称为所谓的“能效核”,处理器的整体性能表现,在web与微服务、networking、媒体编解码、数据服务等负载方面,相较第二代至强也有3倍左右的每瓦性能提升。

Intel这次也终于大方给出了至强6相较隔壁Epyc在部分维度的性能对比:P-core版至强6在AI推理性能方面强3.7倍,E-core版至强6则在媒体转码的每瓦性能上强1.3倍。虽说这两个数字不算全面,但我们认为这的确扭转了过往两代产品上,至强处理器的不利局面。

 

首次采用E-core:性能可以吗?

虽说在近代的边缘和嵌入市场,我们也见过完全采用E-core的Intel处理器,如Snow Ridge、Parker Ridge。但在服务器CPU上采用E-core还是头一回。这次发布的型号是至强6700E——基于型号后缀可知这是个采用E-core核心的CPU。后续还会有新型号上市,包括下个季度要发布的至强6900P(基于P-core),以及2025年Q1的更多型号:6900E、6700P/6500P/6 SoC/6300P

尺寸明显更大的至强6900P

从数字型号角度出发,6700和6900是两个大的系列,或者从Intel设计芯片的角度来说是两个平台。其中采用E-core的6700最多144个核心,P-core版最多86个核心;采用E-core的6900系列至多288核,P-core版128核。

光看这核心数,也的确是让至强处理器瞬间主流了起来,尤其Sierra Forest这边;即便单看采用P-core的至强,86个核心也已经比第五代至强多了30%的核心数——更何况后续还会有128核版。

包括socket插槽支持、TDP、内存通道、PCIe/CXL、UPI互联的具体配置信息见下图:

6700系列单CPU的TDP为350W,6900系列则为500W。值得一提的是,至强6平台有MCR技术支持,可实现内存频率进一步提升——6700系列支持将内存频率提至8000MT/s,6900系列则可提至8800MT/s——内存总带宽是上代的2.36倍。另外6700P系列在插槽方面支持1路、2路、4路、8路扩展。

产品层面当然还是要具体到SKU型号:如前所述,这次发布的仅为至强6700E系列。不同产品SKU如下图,覆盖64核的6710E,到最高端144核的6780E;此系处理器产品TDP功耗从205W-330W。不同核心版不光是靠binning process划分的,后文封装架构部分会细谈。

“云原生分布式应用,不需要向上扩展的服务器硬件架构,而更倾向于对应用程序不断进行解构,采用微服务、多线程、分布式、横向扩展的方式,来更有效地使用CPU的计算资源。”“平衡的高性能恰恰是英特尔至强6能效核处理器的一个重要特性。”这是梁雅莉针对至强6 E-core处理器的目标场景阐释。

Intel方面给出更细致的数据是,采用E-core的至强6处理器,相较第二代至强在媒体转码负载中的性能高4.2倍,表现效率的每瓦性能高2.6倍。

还有个更加宏观的、在能耗与核心密度方面的对比:基于机架供电限制,按照15kW/机架的标准配置,以第二代至强配200个机架所能达成的性能为基准,采用至强6700E就只需要66个机架——达成了所谓3:1的机架整合率。而且据说后续采用P-core的至强6可以将这个数字再提到6:1。

则对应的至强6实现了显著更高的运算密度——可惜这里Intel没有给出很直观的TCO对比数据。实则基于系统减少及数据中心空间节约,和在能源、散热等方面开销的变化,另外加上算力密度提升在业务上的帮助,一定区间内的TCO应该是有显著降低的。

不过相对直观的数据还是有:上述两代方案,4年用下来后者可节约80k MWh(兆瓦时)能耗,减少3.4万吨二氧化碳排量。

从数据中心基础设施构建逻辑和第二代至强比过以后,还应当看一看至强6700E和上代——即第五代至强CPU(Emerald Rapids)比较的详实数据:

基于Crestmont核心(至强6的E-core)与Raptor Cove(第五代至强的P-core)核心规模上的差异,这个对比结果还是比较令人意外的。这张柱状图的实心柱子比的是性能,点状柱子比的是每瓦性能。在绝对性能有提升的情况下,体现的主要还是在不同类型的负载中,至强6700E在效率方面的显著提升。

基于服务器资源利用率画个能耗曲线会发现,尤其在服务器利用率40-60%区间内,至强6700E(2路)相比第五代至强有着接近40%的功耗下降。Intel表示大部分客户的数据中心日常负载利用率就在40-60%之间,所以这张图是非常能反映效率实际提升水平的:

这部分的最后留一个比较有趣的思考题。Redwood Cove性能核(至强6的P-core)仍然是支持超线程的,所以采用P-core的至强6也支持超线程;而E-core就不支持超线程了,一个核心一个线程。隔壁Arm前两年推广Neoverse就已经在吐槽超线程技术了。

浪潮信息服务器产品线总经理刘涛在发言时说,对云来说超线程在预测性能需求和动态变化时会遭遇挑战。比如负载过半时,物理核占满;再往上加负载,超线程发挥作用,性能提升不再呈线性(或线程与实际性能关系曲线越来越平缓);甚至越往高占有率,负载稍有增加就可能导致可用资源耗尽。

而不带超线程就相对简单和可预期了,E-core减少了资源争抢和性能抖动,“确保业务负载有确定性的线性预期。”而且采用E-core至强6本身也有足够多的核心资源来满足大规模分布式总并发需求。

这可能与P-core、E-core所擅长负载方面的差异仍有关。不过Lunar Lake已经公开的最新一代P-core,即Lion Cove也已经不支持超线程了。或许基于Intel现在的设计方法,做个超线程版的Lion Cove也不是难事,但下一代至强P-core还会以超线程的面貌问世吗?

 

封装与核心架构:最多288个核心

说了这么久P-core和E-core,究竟是什么样的核心架构?前文多少也提到了,具体到核心架构层面,至强6的P-core是指Redwood Cove,而E-core则是指Crestmont。也就是酷睿Ultra 1代(Meteor Lake)处理器上的那两核心——不同平台共用主要的核心架构设计也是半导体行业的传统了。

上面这张图给出了这两种核心的部分配置信息:之前对Meteor Lake了解的读者应该不会陌生,包括指令支持,cache大小,解码宽度、乱序度等...两种核心的指令支持是不对等的,则在完全同构核心的情况下能做到各取所需。

值得一提的是,从Crestmont对于AVX2和矢量操作相比以往的强化来看,用E-core版至强6来做更传统的机器学习和深度学习AI加速应该也是可行的。

不过和PC处理器上的配置仍有些许差异,比如Crestmont能效核同样是每4核心共享L2 cache,但L2 cache容量扩大到了4MB(Meteor Lake上的Crestmont为2MB L2 cache)。基于对Meteor Lake的认知,可想见采用E-core的至强6,在die size上会比采用P-core的至强6低很多。

封装层面,至强6700是长下面这样的——左边的就是本次发布基于E-core的至强6700,右边则是Q3要发布将采用P-core、不同核心数的至强6700。

中间那片是计算die,左右两边的是I/O die——基于chiplet方案的I/O die是高度可复用的设计。I/O die基于Intel 7工艺制造,而计算die基于Intel 3工艺制造。Die与die之间主要借助EMIB硅桥连接,粗粒度的数据是die与die之间“达到1TB/s的速度”。

常规基于先进封装和chiplet的堆核方式,很容易理解后续要采用P-core的至强6700,16核与48核都是单颗计算die,86核就要堆两片计算die了。两侧的I/O die保持不变。

而尚未发布的6900系列也是同理,采用E-core的至强6900总共至多288个核心,也需要用到两片计算die;采用P-core的至强6900要堆128个核心,则需要3片计算die。所以至强6比以前的至强有着更好的灵活性。

Intel解释说,实现这种灵活性主要有3大要素。其一是Fabric技术,将计算die与I/O die有机结合; “每个芯片内部都拥有纵横交错的通路网络,当这些芯片通过集成多个die架构相互连接时,它们的通路不仅得以延续,还能相互融合,相互构建起规模更大、更为强大的通路系统”。

其二是多die架构;其三为多die互联——具体到至强处理器是EMIB硅桥,这种2.5D先进封装方案我们过去也介绍过不止一次了。

计算die内除了核心(core)和cache以外,还包括CHA(cache home agent,一个CHA相关于mesh的一个stop,管理一个LLC切片,并且能够发送请求到内存控制器)、LLC,以及实现核心互联的mesh fabric;另外每颗计算die左右两边都有DDR5/MCR内存控制器。

据说这种设计实现了较低的访存延迟及设计的灵活性。“无论多少个核心做成一个虚机,整体性能可扩展性、一致性都非常好。”技术专家说即便对于3片计算die的方案,相距I/O die更远的中间那片计算die的I/O性能也不会有太大影响。

I/O die内部架构则是上图这样的:和计算die之间也通过I/O Fabric,物理上借助EMIB连接;I/O接口支持包括PCIe, CXL, UPI;有QAT(Quick Assist Technology Accelerator), DSA(Data Streaming Accelerator)等加速单元;还有其他一些功能,如RDT(Resource Director Technology)资源调度等。

这里多提一点有关CXL 2.0支持。CXL本身是一种为高性能数据中心设计,实现高速CPU-to-device和CPU-to-memory连接的开放标准,Intel是这项标准的发起者。此前两代的至强处理器已经开始支持CXL,而至强6则引入了CXL 2.0的功能。

CXL 2.0定义了3种类型的设备。Intel这次主要提到了Type 3 Devices,即内存扩展——主内存之外的CXL内存。CXL内存扩展有3种不同的模式(如下图),Intel特别提到flat memory mode模式(一种类似于将CXL内存作为DRAM下一级存储的机制;另外P-core版至强6似乎是支持CXL Interleaved交织模式的)。

“让CXL和原生DRAM做硬件辅助分层(HW-assisted tiering),在1:1的情况下(CXL与DRAM的near/far memory ratio),尽量把CXL常用数据放在DRAM中;虽然一部分数据放在CXL中,但有硬件分层管理,就非常接近完全(原生仅)DRAM的性能表现。”

一般我们说八成左右的负载中,flat memory mode带来的性能损失不会超过5%;但在跨租户访问方式出现冲突时,内存敏感负载的性能降级还是会比较严重。不过Intel特别就CXL 2.0的这一模式实现做了数据库业务的吞吐性能(IOPS)对比,DRAM+CXL内存相较仅用DRAM方案的性能损失较小——具体数字就不做展示了。不过基于CXL标准做现有DDR4内存的复用,就带来了内存容量扩充,也实现了TCO的进一步节省。

 

系统与生态支持:标准化与产业化

总结上述内容,大致两方面。其一Intel至强6基于“适应多样化算力”同时兼顾通用性需求,将至强6切分成性能核与能效核两条线;其二,这次新发布采用E-core的至强6实现了更高的核心密度、更优的性能、能效与TCO,并且匹配当前可持续、绿色数据中心的理念。

我们非常期望看到这一代至强处理器,与竞争对手的Epyc和Neoverse之间的性能与效率比较。看看Intel的这场翻身仗究竟打得如何。

不过Intel在数据中心领域的一部分优势还是在于生态。从系统生态角度,此前我们曾撰文探讨过Intel的开放生态系统策略,是自下而上、自硬件到软件的开放:对企业客户的一大价值在于显著更优的成本。这部分本文就不再赘述了。

发布会当天,数据中心上下游链条中包括金山云、浪潮、南大通用、记忆科技、Dell、联想等不同角色都为至强6的发布站了台;国际企业宣布部署至强6或者参与早期测试提到至强6实现性能与能效提升的的诸如ebay、SAP、爱立信、Cineca等…

比如金山云第九代高效型云服务器SE9是国内首款基于至强6对外发布的云服务器;基于至强实现更高性能和效率的南大通用数据库解决方案;以及ODM厂商记忆科技还专门推出了类似Green PC那样贯穿整个生命周期的“低碳节能服务器”…

最后值得一提的是,发布会采访环节“液冷”及更多高效系统设计受关注度还是挺高的,毕竟随芯片规模扩大及数据中心能源消耗越来越成为全球负担之时,绿色数据中心、PUE <1.25之类都是当代热门话题。

有关散热方案与系统设计,陈葆立透露说今年Q3官宣至强6900性能核平台之际,“我们也会公布与硬件合作伙伴推出的配套技术支持”。这也凸显了如今这个时代很流行芯片厂商亲自下场做系统设计的趋势,本身也作为生态的一部分。

比如Intel此前在冷板式、浸没式液冷方面都通过合作的方式推出过参考设计方案。浪潮信息服务器产品线总经理赵帅在采访中介绍说,今年冷板价格比三年前降低了70-80%;所以和Intel共同做标准——从团标“推成国标”,最终成为国际标准,以及形成产业化才是有效的解决方案。

规模化是推进一众新设计的关键。这些也正成为芯片之外,数据中心发展的重要组成部分。也是Intel近一年开始反复强调“系统”的关键构成。

没拍到芯片的高清图,将就看官方图吧…

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
“机器狼群”是一种高度智能化的无人作战系统,由多个不同功能的“机器狼”组成,每个“机器狼”在团队中扮演特定角色,形成高效的协同作战单元。
新发布的酷睿Ultra 200S处理器更节能了,但作为台式机处理器,更低的功耗真的有用吗?
今天我又把同事的七彩虹战斧GeForce RTX 4060 8GB GDDR6显卡给拆了。发现它虽然用料不怎么样,但性能却非常地好。
有分析认为,台积电断供7纳米及更先进工艺的芯片,一方面是回应此前的“白手套”事件,配合美国对中国大陆人工智能产业发展进行限制,以避免进一步的法律和政治风险,另一方面则是向新一任总统特朗普“投诚”,毕竟时间点很微妙。
为了进一步挽救英特尔,美国政府的政策制定者们提供了一个选择,将英特尔的芯片设计业务与 AMD 或 Marvell 等竞争对手合并。当前的这些决策与谈判均出于预防的目的,如果英特尔的财务状况出现持续恶化,美国政府的担忧将变成潜在的备用选择.....
由于较早预判了transformer网络架构的发展,爱芯通元AI处理器原生支持transformer,这也保证了其能效比领先于更高端的AI芯片,更加契合边缘大模型的落地应用。基于爱芯智眸AI-ISP和爱芯通元NPU两大核心技术,爱芯元智在智慧城市、智能驾驶和边缘智能等领域不断落地。
为了更直观地了解FinFET到GAAFET架构世代的差异,本文利用高倍率的电子显微镜影像进行深入的探讨与分析,观察其于结构微观层面上的特征...
汽车技术领域正处于关键的转折点,其未来依托于动态且适应性强的系统,并可通过软件不断提升驾驶体验。
连接标准联盟很高兴宣布 Matter 1.4 现已正式发布,可供设备制造商和生态平台开发应用。这次更新是Matter生态系统迈出的重要一步。Matter 1.4带来了一系列增强功能......
根植雄厚研发实力及物联网领域的深耕实践,汇顶科技面向新兴车载互联应用全力进击。旗下首款高可靠性、高性能车规级低功耗蓝牙SoC——GR5405,已成功通过AEC-Q100 Grade 2认证。
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据路透社看到的草案,日本政府计划提出一个耗资 10 万亿日元的计划,在“数年”时间
互联网与科技企业每日重点资讯文 | 苏丁巨头动向歌尔股份被曝成为苹果2026年两款新品供应商天风国际分析师郭明錤爆料称,苹果将首次进军智能家居IP Camera(网络摄像头)市场,计划2026年量产,
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓世界先进11月11日公告,位于桃园的晶圆三厂于下午12:10分因供电系统设备异常,致使厂区电力中断,
11月12日,百度创始人李彦宏在百度世界2024大会上表示,智能体是AI应用最主流的形态,即将迎来爆发点,这里是李彦宏演讲完整视频。●付费专栏文章小白自媒体赚钱,年入十万不是梦:专栏介绍 丨小白自媒体
芯片超人现有1600平米芯片智能仓储基地,现货库存型号1000+,品牌高达100种,5000万颗现货库存芯片,总重量10吨,库存价值高达1亿+。同时,芯片超人在深圳设有独立实验室,每颗物料均安排QC质
随着铜箔行业上市公司2024年度三季报的陆续发布,整体行业呈现出“增收不增利”的局面,财报数据如表1所示。表1 铜箔上市公司2024年前三季度财报数据面对上述现实,中国电子材料行业协会电子铜箔材料分会
国芯网[原:中国半导体论坛] 振兴国产半导体产业!   不拘中国、放眼世界!关注世界半导体论坛↓↓↓11月12日消息,据台媒报道,继台积电宣布对中国大陆AI芯片企业暂停7nm及以下先进制程代工服务后,
艾迈斯欧司朗今日宣布,推出新一代高性能LED——OSCONIQ® C 3030。这款尖端LED系列专为严苛的户外及体育场照明环境而设计,兼具出色的发光强度与卓越的散热效能。其支持高达
11月11日,据路透社消息,华为技术有限公司要求美国法官驳回一项针对其的联邦起诉书的大部分内容。该起诉书指控华为试图窃取美国竞争对手的技术机密,并就其相关业务误导银行。           报道称,华