电子工程专辑此前虽然从未深入分析过至强处理器的架构,但借助酷睿/酷睿Ultra处理器的核心微架构及其先进封装的解读,多少也能看清楚至强的虚实。
实际在过去几年至强Ice Lake和Sapphire Rapids时代,Intel服务器CPU产品是相当被动的,尤其在追求高核心数的应用场景中。所以过去几年Intel数据中心业务的成绩单也的确不够好看——即便Intel在服务器CPU市场仍然是绝对的份额大头,压力来自AMD和Arm阵营两方面。
此前Intel公布至强的路线图之时,我们普遍认为采用Intel 3制造工艺的Sierra Forest和Granite Rapids会成为新的转折点。不仅因为制造工艺跟上了主流,也是P-core(性能核)与E-core(能效核)分开的设计明确了不同的市场需求,性能和能效方面预期实现飞跃。
从去年Intel Innovation活动开始,Intel就陆续公布了不少有关这代至强处理器的信息,包括今年4月Intel Vision活动上宣布至强6处理器的问世。最近,至强6处理器产品正式发布,更多细节信息也浮出水面。
Ryan Tabrah(英特尔数据中心与人工智能事业部副总裁兼至强能效核产品线总经理)展示至强6700E
要知道第五代至强(Emeralds Rapids)是去年12月份同酷睿Ultra(Meteor Lake)一起发布的,转眼半年至强6(Xeon 6)和下一代酷睿Ultra(Lunar Lake)就都准备要来了。可见无论是PC市场还是服务器市场,Intel的应战都非常积极。
借着这篇文章,我们来谈谈可能成为新转折点的至强6处理器究竟如何,以及它的存在逻辑怎样。这也将有助于我们深入理解数据中心处理器市场。
至强6分成了两个版本
此前Intel就已经预告过新一代至强6会有仅采用E-core和仅采用P-core的两个不同系列——前者代号Sierra Forest,后者代号Granite Rapids,用以满足不同的市场需求。之前不少外媒认为,Sierra Forest的存在主要是为了与Arm阵营——典型如Ampere Computing的产品和亚马逊自研的Graviton等处理器展开竞争,表现在其大量核心数上。
我们认为至强6的产品规划大约有这方面的成分,但也不是这么简单。梁雅莉(英特尔市场营销集团副总裁兼中国区行业解决方案和数据中心销售部总经理)在发布会上的发言很好地总结了这两类采用不同核心的至强处理器的目标应用场景:
“以云原生微服务为代表的分布式通用计算,交给能效核(E-core)处理器来处理;而以AI和高性能计算等为代表的重度计算任务,则会交给性能核(P-core)进行处理。”
这其中有一个更高层级的逻辑:单一的架构不能解决客户所有的问题,或者完美覆盖所有业务场景。在摩尔定律迟滞的当下,基于应用场景做芯片设计已经是行业共识了。所以“面向不同业务负载”更具“针对性”的架构,是非常符合时代潮流的思路。
而且不单是CPU的不同架构,还包括GPU、ASIC、FPGA之类的加速器。在我们看来,至强6的两种核心版本更像是Intel XPU策略在CPU这类产品上的具体体现。这种思路也符合时下“绿色”“高能效”计算的主流趋势。
陈葆立(英特尔数据中心与人工智能集团副总裁兼中国区总经理)表示过去几年从数据中心客户那里看到的需求增长点,一是AI,一是微服务(microservices)。AI的特点是对核心性能、内存带宽与延迟等有较高要求;
而云上的微服务对单核性能并没有那么敏感,但对“服务的量”有较高要求——对核心密度更敏感——这一点从AWS针对Graviton的应用实例也能看出来。高核心数或核心密度对微服务、容器工作负载而言很重要。
所以Intel为至强6设计了两条产品线,满足不同工作负载对于性能和能效的要求,两个版本共享底层平台和软件栈。具体P-core和E-core分别满足怎样的负载需求,可见下图:
“一些客户两边的业务都需要,就会导入两个产品;还有一些则非常专注某一个领域。”Intel给出了这两种核心的至强6,相较第二代至强在不同负载下的性能(与每瓦性能)提升(基于数据中心技术设施4-5年一换的常规)如下图:
即便E-core被称为所谓的“能效核”,处理器的整体性能表现,在web与微服务、networking、媒体编解码、数据服务等负载方面,相较第二代至强也有3倍左右的每瓦性能提升。
Intel这次也终于大方给出了至强6相较隔壁Epyc在部分维度的性能对比:P-core版至强6在AI推理性能方面强3.7倍,E-core版至强6则在媒体转码的每瓦性能上强1.3倍。虽说这两个数字不算全面,但我们认为这的确扭转了过往两代产品上,至强处理器的不利局面。
首次采用E-core:性能也可以吗?
虽说在近代的边缘和嵌入市场,我们也见过完全采用E-core的Intel处理器,如Snow Ridge、Parker Ridge。但在服务器CPU上采用E-core还是头一回。这次发布的型号是至强6700E——基于型号后缀可知这是个采用E-core核心的CPU。后续还会有新型号上市,包括下个季度要发布的至强6900P(基于P-core),以及2025年Q1的更多型号:6900E、6700P/6500P/6 SoC/6300P。
尺寸明显更大的至强6900P
从数字型号角度出发,6700和6900是两个大的系列,或者从Intel设计芯片的角度来说是两个平台。其中采用E-core的6700最多144个核心,P-core版最多86个核心;采用E-core的6900系列至多288核,P-core版128核。
光看这核心数,也的确是让至强处理器瞬间主流了起来,尤其Sierra Forest这边;即便单看采用P-core的至强,86个核心也已经比第五代至强多了30%的核心数——更何况后续还会有128核版。
包括socket插槽支持、TDP、内存通道、PCIe/CXL、UPI互联的具体配置信息见下图:
6700系列单CPU的TDP为350W,6900系列则为500W。值得一提的是,至强6平台有MCR技术支持,可实现内存频率进一步提升——6700系列支持将内存频率提至8000MT/s,6900系列则可提至8800MT/s——内存总带宽是上代的2.36倍。另外6700P系列在插槽方面支持1路、2路、4路、8路扩展。
产品层面当然还是要具体到SKU型号:如前所述,这次发布的仅为至强6700E系列。不同产品SKU如下图,覆盖64核的6710E,到最高端144核的6780E;此系处理器产品TDP功耗从205W-330W。不同核心版不光是靠binning process划分的,后文封装架构部分会细谈。
“云原生分布式应用,不需要向上扩展的服务器硬件架构,而更倾向于对应用程序不断进行解构,采用微服务、多线程、分布式、横向扩展的方式,来更有效地使用CPU的计算资源。”“平衡的高性能恰恰是英特尔至强6能效核处理器的一个重要特性。”这是梁雅莉针对至强6 E-core处理器的目标场景阐释。
Intel方面给出更细致的数据是,采用E-core的至强6处理器,相较第二代至强在媒体转码负载中的性能高4.2倍,表现效率的每瓦性能高2.6倍。
还有个更加宏观的、在能耗与核心密度方面的对比:基于机架供电限制,按照15kW/机架的标准配置,以第二代至强配200个机架所能达成的性能为基准,采用至强6700E就只需要66个机架——达成了所谓3:1的机架整合率。而且据说后续采用P-core的至强6可以将这个数字再提到6:1。
则对应的至强6实现了显著更高的运算密度——可惜这里Intel没有给出很直观的TCO对比数据。实则基于系统减少及数据中心空间节约,和在能源、散热等方面开销的变化,另外加上算力密度提升在业务上的帮助,一定区间内的TCO应该是有显著降低的。
不过相对直观的数据还是有:上述两代方案,4年用下来后者可节约80k MWh(兆瓦时)能耗,减少3.4万吨二氧化碳排量。
从数据中心基础设施构建逻辑和第二代至强比过以后,还应当看一看至强6700E和上代——即第五代至强CPU(Emerald Rapids)比较的详实数据:
基于Crestmont核心(至强6的E-core)与Raptor Cove(第五代至强的P-core)核心规模上的差异,这个对比结果还是比较令人意外的。这张柱状图的实心柱子比的是性能,点状柱子比的是每瓦性能。在绝对性能有提升的情况下,体现的主要还是在不同类型的负载中,至强6700E在效率方面的显著提升。
基于服务器资源利用率画个能耗曲线会发现,尤其在服务器利用率40-60%区间内,至强6700E(2路)相比第五代至强有着接近40%的功耗下降。Intel表示大部分客户的数据中心日常负载利用率就在40-60%之间,所以这张图是非常能反映效率实际提升水平的:
这部分的最后留一个比较有趣的思考题。Redwood Cove性能核(至强6的P-core)仍然是支持超线程的,所以采用P-core的至强6也支持超线程;而E-core就不支持超线程了,一个核心一个线程。隔壁Arm前两年推广Neoverse就已经在吐槽超线程技术了。
浪潮信息服务器产品线总经理刘涛在发言时说,对云来说超线程在预测性能需求和动态变化时会遭遇挑战。比如负载过半时,物理核占满;再往上加负载,超线程发挥作用,性能提升不再呈线性(或线程与实际性能关系曲线越来越平缓);甚至越往高占有率,负载稍有增加就可能导致可用资源耗尽。
而不带超线程就相对简单和可预期了,E-core减少了资源争抢和性能抖动,“确保业务负载有确定性的线性预期。”而且采用E-core至强6本身也有足够多的核心资源来满足大规模分布式总并发需求。
这可能与P-core、E-core所擅长负载方面的差异仍有关。不过Lunar Lake已经公开的最新一代P-core,即Lion Cove也已经不支持超线程了。或许基于Intel现在的设计方法,做个超线程版的Lion Cove也不是难事,但下一代至强P-core还会以超线程的面貌问世吗?
封装与核心架构:最多288个核心
说了这么久P-core和E-core,究竟是什么样的核心架构?前文多少也提到了,具体到核心架构层面,至强6的P-core是指Redwood Cove,而E-core则是指Crestmont。也就是酷睿Ultra 1代(Meteor Lake)处理器上的那两个核心——不同平台共用主要的核心架构设计也是半导体行业的传统了。
上面这张图给出了这两种核心的部分配置信息:之前对Meteor Lake了解的读者应该不会陌生,包括指令支持,cache大小,解码宽度、乱序度等...两种核心的指令支持是不对等的,则在完全同构核心的情况下能做到各取所需。
值得一提的是,从Crestmont对于AVX2和矢量操作相比以往的强化来看,用E-core版至强6来做更传统的机器学习和深度学习AI加速应该也是可行的。
不过和PC处理器上的配置仍有些许差异,比如Crestmont能效核同样是每4核心共享L2 cache,但L2 cache容量扩大到了4MB(Meteor Lake上的Crestmont为2MB L2 cache)。基于对Meteor Lake的认知,可想见采用E-core的至强6,在die size上会比采用P-core的至强6低很多。
封装层面,至强6700是长下面这样的——左边的就是本次发布基于E-core的至强6700,右边则是Q3要发布将采用P-core、不同核心数的至强6700。
中间那片是计算die,左右两边的是I/O die——基于chiplet方案的I/O die是高度可复用的设计。I/O die基于Intel 7工艺制造,而计算die基于Intel 3工艺制造。Die与die之间主要借助EMIB硅桥连接,粗粒度的数据是die与die之间“达到1TB/s的速度”。
常规基于先进封装和chiplet的堆核方式,很容易理解后续要采用P-core的至强6700,16核与48核都是单颗计算die,86核就要堆两片计算die了。两侧的I/O die保持不变。
而尚未发布的6900系列也是同理,采用E-core的至强6900总共至多288个核心,也需要用到两片计算die;采用P-core的至强6900要堆128个核心,则需要3片计算die。所以至强6比以前的至强有着更好的灵活性。
Intel解释说,实现这种灵活性主要有3大要素。其一是Fabric技术,将计算die与I/O die有机结合; “每个芯片内部都拥有纵横交错的通路网络,当这些芯片通过集成多个die架构相互连接时,它们的通路不仅得以延续,还能相互融合,相互构建起规模更大、更为强大的通路系统”。
其二是多die架构;其三为多die互联——具体到至强处理器是EMIB硅桥,这种2.5D先进封装方案我们过去也介绍过不止一次了。
计算die内除了核心(core)和cache以外,还包括CHA(cache home agent,一个CHA相关于mesh的一个stop,管理一个LLC切片,并且能够发送请求到内存控制器)、LLC,以及实现核心互联的mesh fabric;另外每颗计算die左右两边都有DDR5/MCR内存控制器。
据说这种设计实现了较低的访存延迟及设计的灵活性。“无论多少个核心做成一个虚机,整体性能可扩展性、一致性都非常好。”技术专家说即便对于3片计算die的方案,相距I/O die更远的中间那片计算die的I/O性能也不会有太大影响。
I/O die内部架构则是上图这样的:和计算die之间也通过I/O Fabric,物理上借助EMIB连接;I/O接口支持包括PCIe, CXL, UPI;有QAT(Quick Assist Technology Accelerator), DSA(Data Streaming Accelerator)等加速单元;还有其他一些功能,如RDT(Resource Director Technology)资源调度等。
这里多提一点有关CXL 2.0支持。CXL本身是一种为高性能数据中心设计,实现高速CPU-to-device和CPU-to-memory连接的开放标准,Intel是这项标准的发起者。此前两代的至强处理器已经开始支持CXL,而至强6则引入了CXL 2.0的功能。
CXL 2.0定义了3种类型的设备。Intel这次主要提到了Type 3 Devices,即内存扩展——主内存之外的CXL内存。CXL内存扩展有3种不同的模式(如下图),Intel特别提到flat memory mode模式(一种类似于将CXL内存作为DRAM下一级存储的机制;另外P-core版至强6似乎是支持CXL Interleaved交织模式的)。
“让CXL和原生DRAM做硬件辅助分层(HW-assisted tiering),在1:1的情况下(CXL与DRAM的near/far memory ratio),尽量把CXL常用数据放在DRAM中;虽然一部分数据放在CXL中,但有硬件分层管理,就非常接近完全(原生仅)DRAM的性能表现。”
一般我们说八成左右的负载中,flat memory mode带来的性能损失不会超过5%;但在跨租户访问方式出现冲突时,内存敏感负载的性能降级还是会比较严重。不过Intel特别就CXL 2.0的这一模式实现做了数据库业务的吞吐性能(IOPS)对比,DRAM+CXL内存相较仅用DRAM方案的性能损失较小——具体数字就不做展示了。不过基于CXL标准做现有DDR4内存的复用,就带来了内存容量扩充,也实现了TCO的进一步节省。
系统与生态支持:标准化与产业化
总结上述内容,大致两方面。其一Intel至强6基于“适应多样化算力”同时兼顾通用性需求,将至强6切分成性能核与能效核两条线;其二,这次新发布采用E-core的至强6实现了更高的核心密度、更优的性能、能效与TCO,并且匹配当前可持续、绿色数据中心的理念。
我们非常期望看到这一代至强处理器,与竞争对手的Epyc和Neoverse之间的性能与效率比较。看看Intel的这场翻身仗究竟打得如何。
不过Intel在数据中心领域的一部分优势还是在于生态。从系统生态角度,此前我们曾撰文探讨过Intel的开放生态系统策略,是自下而上、自硬件到软件的开放:对企业客户的一大价值在于显著更优的成本。这部分本文就不再赘述了。
发布会当天,数据中心上下游链条中包括金山云、浪潮、南大通用、记忆科技、Dell、联想等不同角色都为至强6的发布站了台;国际企业宣布部署至强6或者参与早期测试提到至强6实现性能与能效提升的的诸如ebay、SAP、爱立信、Cineca等…
比如金山云第九代高效型云服务器SE9是国内首款基于至强6对外发布的云服务器;基于至强实现更高性能和效率的南大通用数据库解决方案;以及ODM厂商记忆科技还专门推出了类似Green PC那样贯穿整个生命周期的“低碳节能服务器”…
最后值得一提的是,发布会采访环节“液冷”及更多高效系统设计受关注度还是挺高的,毕竟随芯片规模扩大及数据中心能源消耗越来越成为全球负担之时,绿色数据中心、PUE <1.25之类都是当代热门话题。
有关散热方案与系统设计,陈葆立透露说今年Q3官宣至强6900性能核平台之际,“我们也会公布与硬件合作伙伴推出的配套技术支持”。这也凸显了如今这个时代很流行芯片厂商亲自下场做系统设计的趋势,本身也作为生态的一部分。
比如Intel此前在冷板式、浸没式液冷方面都通过合作的方式推出过参考设计方案。浪潮信息服务器产品线总经理赵帅在采访中介绍说,今年冷板价格比三年前降低了70-80%;所以和Intel共同做标准——从团标“推成国标”,最终成为国际标准,以及形成产业化才是有效的解决方案。
规模化是推进一众新设计的关键。这些也正成为芯片之外,数据中心发展的重要组成部分。也是Intel近一年开始反复强调“系统”的关键构成。
没拍到芯片的高清图,将就看官方图吧…