Intel最新发布的至强6处理器分成了P-core和E-core两个版本,而且核心数总算是堆到了领先的288个。所以这次的至强6能应战隔壁Epyc和Neoverse吗?

电子工程专辑此前虽然从未深入分析过至强处理器的架构,但借助酷睿/酷睿Ultra处理器的核心微架构及其先进封装的解读,多少也能看清楚至强的虚实。

实际在过去几年至强Ice Lake和Sapphire Rapids时代,Intel服务器CPU产品是相当被动的,尤其在追求高核心数的应用场景中。所以过去几年Intel数据中心业务的成绩单也的确不够好看——即便Intel在服务器CPU市场仍然是绝对的份额大头,压力来自AMD和Arm阵营两方面。

此前Intel公布至强的路线图之时,我们普遍认为采用Intel 3制造工艺的Sierra Forest和Granite Rapids会成为新的转折点。不仅因为制造工艺跟上了主流,也是P-core(性能核)与E-core(能效核)分开的设计明确了不同的市场需求,性能和能效方面预期实现飞跃。

从去年Intel Innovation活动开始,Intel就陆续公布了不少有关这代至强处理器的信息,包括今年4月Intel Vision活动上宣布至强6处理器的问世。最近,至强6处理器产品正式发布,更多细节信息也浮出水面。

Ryan Tabrah(英特尔数据中心与人工智能事业部副总裁兼至强能效核产品线总经理)展示至强6700E

要知道第五代至强(Emeralds Rapids)是去年12月份同酷睿Ultra(Meteor Lake)一起发布的,转眼半年至强6(Xeon 6)和下一代酷睿Ultra(Lunar Lake)就都准备要来了。可见无论是PC市场还是服务器市场,Intel的应战都非常积极。

借着这篇文章,我们来谈谈可能成为新转折点的至强6处理器究竟如何,以及它的存在逻辑怎样。这也将有助于我们深入理解数据中心处理器市场。

 

至强6分成了两个版本

此前Intel就已经预告过新一代至强6会有仅采用E-core和仅采用P-core的两个不同系列——前者代号Sierra Forest,后者代号Granite Rapids,用以满足不同的市场需求。之前不少外媒认为,Sierra Forest的存在主要是为了与Arm阵营——典型如Ampere Computing的产品和亚马逊自研的Graviton等处理器展开竞争,表现在其大量核心数上。

我们认为至强6的产品规划大约有这方面的成分,但也不是这么简单。梁雅莉(英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理)在发布会上的发言很好地总结了这两类采用不同核心的至强处理器的目标应用场景:

“以云原生微服务为代表的分布式通用计算,交给能效核(E-core)处理器来处理;而以AI和高性能计算等为代表的重度计算任务,则会交给性能核(P-core)进行处理。”

这其中有一个更高层级的逻辑:单一的架构不能解决客户所有的问题,或者完美覆盖所有业务场景。在摩尔定律迟滞的当下,基于应用场景做芯片设计已经是行业共识了。所以“面向不同业务负载”更具“针对性”的架构,是非常符合时代潮流的思路。

而且不单是CPU的不同架构,还包括GPU、ASIC、FPGA之类的加速器。在我们看来,至强6的两种核心版本更像是Intel XPU策略在CPU这类产品上的具体体现。这种思路也符合时下“绿色”“高能效”计算的主流趋势。

陈葆立(英特尔数据中心与人工智能集团副总裁兼中国区总经理)表示过去几年从数据中心客户那里看到的需求增长点,一是AI,一是微服务(microservices)。AI的特点是对核心性能、内存带宽与延迟等有较高要求;

而云上的微服务对单核性能并没有那么敏感,但对“服务的量”有较高要求——对核心密度更敏感——这一点从AWS针对Graviton的应用实例也能看出来。高核心数或核心密度对微服务、容器工作负载而言很重要。

所以Intel为至强6设计了两条产品线,满足不同工作负载对于性能和能效的要求,两个版本共享底层平台和软件栈。具体P-core和E-core分别满足怎样的负载需求,可见下图:

“一些客户两边的业务都需要,就会导入两个产品;还有一些则非常专注某一个领域。”Intel给出了这两种核心的至强6,相较第二代至强在不同负载下的性能(与每瓦性能)提升(基于数据中心技术设施4-5年一换的常规)如下图:

即便E-core被称为所谓的“能效核”,处理器的整体性能表现,在web与微服务、networking、媒体编解码、数据服务等负载方面,相较第二代至强也有3倍左右的每瓦性能提升。

Intel这次也终于大方给出了至强6相较隔壁Epyc在部分维度的性能对比:P-core版至强6在AI推理性能方面强3.7倍,E-core版至强6则在媒体转码的每瓦性能上强1.3倍。虽说这两个数字不算全面,但我们认为这的确扭转了过往两代产品上,至强处理器的不利局面。

 

首次采用E-core:性能可以吗?

虽说在近代的边缘和嵌入市场,我们也见过完全采用E-core的Intel处理器,如Snow Ridge、Parker Ridge。但在服务器CPU上采用E-core还是头一回。这次发布的型号是至强6700E——基于型号后缀可知这是个采用E-core核心的CPU。后续还会有新型号上市,包括下个季度要发布的至强6900P(基于P-core),以及2025年Q1的更多型号:6900E、6700P/6500P/6 SoC/6300P

尺寸明显更大的至强6900P

从数字型号角度出发,6700和6900是两个大的系列,或者从Intel设计芯片的角度来说是两个平台。其中采用E-core的6700最多144个核心,P-core版最多86个核心;采用E-core的6900系列至多288核,P-core版128核。

光看这核心数,也的确是让至强处理器瞬间主流了起来,尤其Sierra Forest这边;即便单看采用P-core的至强,86个核心也已经比第五代至强多了30%的核心数——更何况后续还会有128核版。

包括socket插槽支持、TDP、内存通道、PCIe/CXL、UPI互联的具体配置信息见下图:

6700系列单CPU的TDP为350W,6900系列则为500W。值得一提的是,至强6平台有MCR技术支持,可实现内存频率进一步提升——6700系列支持将内存频率提至8000MT/s,6900系列则可提至8800MT/s——内存总带宽是上代的2.36倍。另外6700P系列在插槽方面支持1路、2路、4路、8路扩展。

产品层面当然还是要具体到SKU型号:如前所述,这次发布的仅为至强6700E系列。不同产品SKU如下图,覆盖64核的6710E,到最高端144核的6780E;此系处理器产品TDP功耗从205W-330W。不同核心版不光是靠binning process划分的,后文封装架构部分会细谈。

“云原生分布式应用,不需要向上扩展的服务器硬件架构,而更倾向于对应用程序不断进行解构,采用微服务、多线程、分布式、横向扩展的方式,来更有效地使用CPU的计算资源。”“平衡的高性能恰恰是英特尔至强6能效核处理器的一个重要特性。”这是梁雅莉针对至强6 E-core处理器的目标场景阐释。

Intel方面给出更细致的数据是,采用E-core的至强6处理器,相较第二代至强在媒体转码负载中的性能高4.2倍,表现效率的每瓦性能高2.6倍。

还有个更加宏观的、在能耗与核心密度方面的对比:基于机架供电限制,按照15kW/机架的标准配置,以第二代至强配200个机架所能达成的性能为基准,采用至强6700E就只需要66个机架——达成了所谓3:1的机架整合率。而且据说后续采用P-core的至强6可以将这个数字再提到6:1。

则对应的至强6实现了显著更高的运算密度——可惜这里Intel没有给出很直观的TCO对比数据。实则基于系统减少及数据中心空间节约,和在能源、散热等方面开销的变化,另外加上算力密度提升在业务上的帮助,一定区间内的TCO应该是有显著降低的。

不过相对直观的数据还是有:上述两代方案,4年用下来后者可节约80k MWh(兆瓦时)能耗,减少3.4万吨二氧化碳排量。

从数据中心基础设施构建逻辑和第二代至强比过以后,还应当看一看至强6700E和上代——即第五代至强CPU(Emerald Rapids)比较的详实数据:

基于Crestmont核心(至强6的E-core)与Raptor Cove(第五代至强的P-core)核心规模上的差异,这个对比结果还是比较令人意外的。这张柱状图的实心柱子比的是性能,点状柱子比的是每瓦性能。在绝对性能有提升的情况下,体现的主要还是在不同类型的负载中,至强6700E在效率方面的显著提升。

基于服务器资源利用率画个能耗曲线会发现,尤其在服务器利用率40-60%区间内,至强6700E(2路)相比第五代至强有着接近40%的功耗下降。Intel表示大部分客户的数据中心日常负载利用率就在40-60%之间,所以这张图是非常能反映效率实际提升水平的:

这部分的最后留一个比较有趣的思考题。Redwood Cove性能核(至强6的P-core)仍然是支持超线程的,所以采用P-core的至强6也支持超线程;而E-core就不支持超线程了,一个核心一个线程。隔壁Arm前两年推广Neoverse就已经在吐槽超线程技术了。

浪潮信息服务器产品线总经理刘涛在发言时说,对云来说超线程在预测性能需求和动态变化时会遭遇挑战。比如负载过半时,物理核占满;再往上加负载,超线程发挥作用,性能提升不再呈线性(或线程与实际性能关系曲线越来越平缓);甚至越往高占有率,负载稍有增加就可能导致可用资源耗尽。

而不带超线程就相对简单和可预期了,E-core减少了资源争抢和性能抖动,“确保业务负载有确定性的线性预期。”而且采用E-core至强6本身也有足够多的核心资源来满足大规模分布式总并发需求。

这可能与P-core、E-core所擅长负载方面的差异仍有关。不过Lunar Lake已经公开的最新一代P-core,即Lion Cove也已经不支持超线程了。或许基于Intel现在的设计方法,做个超线程版的Lion Cove也不是难事,但下一代至强P-core还会以超线程的面貌问世吗?

 

封装与核心架构:最多288个核心

说了这么久P-core和E-core,究竟是什么样的核心架构?前文多少也提到了,具体到核心架构层面,至强6的P-core是指Redwood Cove,而E-core则是指Crestmont。也就是酷睿Ultra 1代(Meteor Lake)处理器上的那两核心——不同平台共用主要的核心架构设计也是半导体行业的传统了。

上面这张图给出了这两种核心的部分配置信息:之前对Meteor Lake了解的读者应该不会陌生,包括指令支持,cache大小,解码宽度、乱序度等...两种核心的指令支持是不对等的,则在完全同构核心的情况下能做到各取所需。

值得一提的是,从Crestmont对于AVX2和矢量操作相比以往的强化来看,用E-core版至强6来做更传统的机器学习和深度学习AI加速应该也是可行的。

不过和PC处理器上的配置仍有些许差异,比如Crestmont能效核同样是每4核心共享L2 cache,但L2 cache容量扩大到了4MB(Meteor Lake上的Crestmont为2MB L2 cache)。基于对Meteor Lake的认知,可想见采用E-core的至强6,在die size上会比采用P-core的至强6低很多。

封装层面,至强6700是长下面这样的——左边的就是本次发布基于E-core的至强6700,右边则是Q3要发布将采用P-core、不同核心数的至强6700。

中间那片是计算die,左右两边的是I/O die——基于chiplet方案的I/O die是高度可复用的设计。I/O die基于Intel 7工艺制造,而计算die基于Intel 3工艺制造。Die与die之间主要借助EMIB硅桥连接,粗粒度的数据是die与die之间“达到1TB/s的速度”。

常规基于先进封装和chiplet的堆核方式,很容易理解后续要采用P-core的至强6700,16核与48核都是单颗计算die,86核就要堆两片计算die了。两侧的I/O die保持不变。

而尚未发布的6900系列也是同理,采用E-core的至强6900总共至多288个核心,也需要用到两片计算die;采用P-core的至强6900要堆128个核心,则需要3片计算die。所以至强6比以前的至强有着更好的灵活性。

Intel解释说,实现这种灵活性主要有3大要素。其一是Fabric技术,将计算die与I/O die有机结合; “每个芯片内部都拥有纵横交错的通路网络,当这些芯片通过集成多个die架构相互连接时,它们的通路不仅得以延续,还能相互融合,相互构建起规模更大、更为强大的通路系统”。

其二是多die架构;其三为多die互联——具体到至强处理器是EMIB硅桥,这种2.5D先进封装方案我们过去也介绍过不止一次了。

计算die内除了核心(core)和cache以外,还包括CHA(cache home agent,一个CHA相关于mesh的一个stop,管理一个LLC切片,并且能够发送请求到内存控制器)、LLC,以及实现核心互联的mesh fabric;另外每颗计算die左右两边都有DDR5/MCR内存控制器。

据说这种设计实现了较低的访存延迟及设计的灵活性。“无论多少个核心做成一个虚机,整体性能可扩展性、一致性都非常好。”技术专家说即便对于3片计算die的方案,相距I/O die更远的中间那片计算die的I/O性能也不会有太大影响。

I/O die内部架构则是上图这样的:和计算die之间也通过I/O Fabric,物理上借助EMIB连接;I/O接口支持包括PCIe, CXL, UPI;有QAT(Quick Assist Technology Accelerator), DSA(Data Streaming Accelerator)等加速单元;还有其他一些功能,如RDT(Resource Director Technology)资源调度等。

这里多提一点有关CXL 2.0支持。CXL本身是一种为高性能数据中心设计,实现高速CPU-to-device和CPU-to-memory连接的开放标准,Intel是这项标准的发起者。此前两代的至强处理器已经开始支持CXL,而至强6则引入了CXL 2.0的功能。

CXL 2.0定义了3种类型的设备。Intel这次主要提到了Type 3 Devices,即内存扩展——主内存之外的CXL内存。CXL内存扩展有3种不同的模式(如下图),Intel特别提到flat memory mode模式(一种类似于将CXL内存作为DRAM下一级存储的机制;另外P-core版至强6似乎是支持CXL Interleaved交织模式的)。

“让CXL和原生DRAM做硬件辅助分层(HW-assisted tiering),在1:1的情况下(CXL与DRAM的near/far memory ratio),尽量把CXL常用数据放在DRAM中;虽然一部分数据放在CXL中,但有硬件分层管理,就非常接近完全(原生仅)DRAM的性能表现。”

一般我们说八成左右的负载中,flat memory mode带来的性能损失不会超过5%;但在跨租户访问方式出现冲突时,内存敏感负载的性能降级还是会比较严重。不过Intel特别就CXL 2.0的这一模式实现做了数据库业务的吞吐性能(IOPS)对比,DRAM+CXL内存相较仅用DRAM方案的性能损失较小——具体数字就不做展示了。不过基于CXL标准做现有DDR4内存的复用,就带来了内存容量扩充,也实现了TCO的进一步节省。

 

系统与生态支持:标准化与产业化

总结上述内容,大致两方面。其一Intel至强6基于“适应多样化算力”同时兼顾通用性需求,将至强6切分成性能核与能效核两条线;其二,这次新发布采用E-core的至强6实现了更高的核心密度、更优的性能、能效与TCO,并且匹配当前可持续、绿色数据中心的理念。

我们非常期望看到这一代至强处理器,与竞争对手的Epyc和Neoverse之间的性能与效率比较。看看Intel的这场翻身仗究竟打得如何。

不过Intel在数据中心领域的一部分优势还是在于生态。从系统生态角度,此前我们曾撰文探讨过Intel的开放生态系统策略,是自下而上、自硬件到软件的开放:对企业客户的一大价值在于显著更优的成本。这部分本文就不再赘述了。

发布会当天,数据中心上下游链条中包括金山云、浪潮、南大通用、记忆科技、Dell、联想等不同角色都为至强6的发布站了台;国际企业宣布部署至强6或者参与早期测试提到至强6实现性能与能效提升的的诸如ebay、SAP、爱立信、Cineca等…

比如金山云第九代高效型云服务器SE9是国内首款基于至强6对外发布的云服务器;基于至强实现更高性能和效率的南大通用数据库解决方案;以及ODM厂商记忆科技还专门推出了类似Green PC那样贯穿整个生命周期的“低碳节能服务器”…

最后值得一提的是,发布会采访环节“液冷”及更多高效系统设计受关注度还是挺高的,毕竟随芯片规模扩大及数据中心能源消耗越来越成为全球负担之时,绿色数据中心、PUE <1.25之类都是当代热门话题。

有关散热方案与系统设计,陈葆立透露说今年Q3官宣至强6900性能核平台之际,“我们也会公布与硬件合作伙伴推出的配套技术支持”。这也凸显了如今这个时代很流行芯片厂商亲自下场做系统设计的趋势,本身也作为生态的一部分。

比如Intel此前在冷板式、浸没式液冷方面都通过合作的方式推出过参考设计方案。浪潮信息服务器产品线总经理赵帅在采访中介绍说,今年冷板价格比三年前降低了70-80%;所以和Intel共同做标准——从团标“推成国标”,最终成为国际标准,以及形成产业化才是有效的解决方案。

规模化是推进一众新设计的关键。这些也正成为芯片之外,数据中心发展的重要组成部分。也是Intel近一年开始反复强调“系统”的关键构成。

没拍到芯片的高清图,将就看官方图吧…

责编:Illumi
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
Intel刚刚发布了新一代桌面显卡Arc B580和B570,关键是还支持AI帧生成和低延迟...
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
点击蓝字 关注我们安森美(onsemi)在2024年先后推出两款超强功率半导体模块新贵,IGBT模块系列——SPM31 IPM,QDual 3。值得注意的是,背后都提到采用了最新的FS7技术,主要性能
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
阿里资产显示,随着深圳柔宇显示技术有限公司(下称:“柔宇显示”)旗下资产一拍以流拍告终,二拍将于12月24日开拍,起拍价为9.8亿元。拍卖标的包括位于深圳市龙岗区的12套不动产和一批设备类资产,其中不
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
在上海嘉定叶城路1688号的极越办公楼里,最显眼的位置上,写着一句话:“中国智能汽车史上,必将拥有每个极越人的名字。”本以为这句话是公司的企业愿景,未曾想这原来是命运的嘲弄。毕竟,极越用一种极其荒唐的
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情