2021年,Intel在当时的Architecture Day活动上预告了GPU显卡产品规划。在Xe-HPG,也就是桌面游戏显卡产品上,一代Alchemist之后,还会有Battlemage, Celestial, Druid。过去一年电子工程专辑也体验了多款Alchemist显卡——像是Arc A750, A770等。
今天Intel正式发布了Battlemage新卡:Arc B580和Arc B570。这两款显卡的正式上市时间分别是2024年12月13日和2025年1月16日;标称的起售价分别为249美元(约合人民币1820元)和219美元(约合人民币1600元)。
我们也已经拿到了Arc B580公版卡,预计会在不久后撰写体验和试用文章。因为最近工作安排实在有些爆炸,本文不会对Battlemage新卡做太过深入的介绍——更多内容留待后续的体验文章再行补充。
Xe2核心架构更新,和Lunar Lake同步
谈Arc B580/B570显卡前,先来简单说说这代GPU架构的变化。对Intel处理器产品熟悉的读者应该知道,新一代Xe2核心已经出现在了面向轻薄本的Lunar Lake处理器(酷睿Ultra 200V系列)iGPU核显之中。所以Lunar Lake轻薄本用户也算是吃上新图形技术螃蟹的最早一批人了。
而且我们也向Tom Petersen(Intel Fellow)做了确认,单纯从Xe核心架构的角度来看,Battlemage显卡和Lunar Lake处理器核显上所用的Xe核心基本一致;虽然考虑当代先进制造工艺对设计的影响,Xe2在两个采用不同制造工艺产品上的形态应当还是会有较大差异。当然,基于Xe核心做架构扩展时,前者的规模必然是要比后者大上许多的。
所以就Xe核心层面,本文不再多做阐述。有兴趣的读者可以前往阅读Lunar Lake架构解析文章。简单来说,Xe2架构实现了图形性能至少50%的提升;XMX矩阵扩展仍然是其中亮点——AI性能提升的同时,数据精度支持更广、适配更多AI模型,所以AI性能理论上也会相当不错;配套的RTU光线追踪单元也更新了,吞吐量显著变大......
这次标称的性能变化为相比一代Xe,每个Xe核心性能提升70%,每瓦性能提升50%。Microbenchmark对比数据,和Lunar Lake发布之时给出的也是一致的,包括计算任务分发、像素blend速率、mesh shader分发、光线追踪加速等工作负载下的显著提升...
着重来看看这次更新的显卡,堆砌的单元规模。本次Intel发布的GPU die名为BMG-G21:它总共包含有5个render slice渲染切片(Lunar Lake iGPU为2片render slice,不过两者不能直接比较,因为核心频率、存储和通信资源都存在差异);每片render slice内有4个Xe2核心,所以BMG-G21总共有20个Xe2核心。
基于Xe2核心规模,BMG-G21总共就有160个矢量引擎(也就是很多人习惯说的EU)、160个XMX引擎、20个光线追踪单元、20个纹理取样器(texture sampler)、10x Pixel Backends;总共共享18MB L2 cache;外接支持192bit位宽的GDDR6显存等...
后文会给出Arc B580/B570实际游戏性能水平。不过就新架构带来的变化,这次Tom有特别提到1440p《堡垒之夜》游戏下,应该是渲染单个帧不同阶段的执行时间差异(如下图)——曲线表达的是累计执行时间。
Intel在其中特别标注了几个典型渲染阶段,Arc B580和Arc A750之间的执行时间差异,相对微观、粗粒度地阐释了前者更出色的性能。
帧生成版的XeSS2也来了
特别值得一提的,是图形或AI特性方面,这代显卡在XeSS技术上的升级。
XeSS原本是一种超分(Super Resolution)技术,也就是借助AI将低分辨率的画面,超分为高分辨率——比如从720p超分为1080p。如此一来,显卡也就能够以更低的原始渲染分辨率,最终呈现出更高分辨率的画面,降低了图形渲染负载需求,或者说有效提升了帧率。这本质上是一种藉由后期AI CV,给图形渲染做加成的机制。
在XeSS-SR超分的加持下,Intel给出的数据为:选择XeSS性能档,1440p分辨率Ultra画质下,Arc B580在游戏中能够达成平均47%的帧率提升。尤其在支持光线追踪特性的游戏下,XeSS-SR能够大幅提升游戏帧率:比如《赛博朋克2077》,开启光追+XeSS,帧率相比不开XeSS之时据说能够提升170%。
XeSS超分生态目前的成果:已经得到超过150款游戏的支持。而且这次Intel似乎对XeSS-SR SDK做了更新:从PPT来看,应该是在图形API上对DirectX 11, DirectX 12和Vulkan都提供了支持;我们认为,尤其是对Vulkan的支持,于其图形生态完善可以说价值巨大,也有了更多跨平台的可能性(瞧瞧人SteamOS玩得多溜),符合这个时代的图形技术趋势。
遥想XeSS最初发布时,仅面向DX12,而且还一度锁死XMX加速(而不支持DP4a)被人颇多诟病,现在的这个生态健全度已经不是1年多以前可比的了。
不过这回的XeSS2升级点不止这些。和隔壁DLSS 3在宣传策略上一致,Intel定调XeSS2包含三部分技术:XeSS-SR,传统的超分方案;XeSS-FG,帧生成可算是来了;以及为了解决上述两个环节可能带来高延迟的问题,一起来的Xe Low Latency(XeLL)低延迟技术。
XeSS-SR超分就不再多谈了。第二项帧生成或者说插帧,也就是在原本渲染出来的动态画面基础上,基于CV再插入一些帧,来提升游戏帧率。
从Intel给出的示意图来看,Optical Flow Reprojection流程基于深度学习实现,加上运动矢量进行blend(似乎又应用了一个神经网络),来生成帧。Tom在问答环节提到,XeSS-FG和DLSS 3的帧生成还是有很大区别的,包括没有像DLSS那样采用Optical Flow Engine这样的专用加速器,而着眼于AI。后续有机会,我们会尝试对该技术做深挖。
在实际表现方面,用Arc B580玩《F1 24》游戏,开启XeSS2——也就是同时包含XeSS-SR超分、XeSS-FG帧生成的情况下,在不同超分画质档位,相比单纯靠图形渲染,其帧率提升在2.8-3.9倍不等;看起来相比仅有超分的XeSS,也有60%以上的提升。
最后还有个XeLL,也就是配套XeSS-SR、XeSS-FG的低延迟解决方案,毕竟XeSS-FG理论上会带来可观的延迟增加(这里的系统延迟,可具体理解为从游戏输入设备给出输入信号开始,到屏幕响应的第一帧之间的时间)。
从下面的示意图来看,XeLL降低延迟的方案和NVIDIA Reflex思路上还是比较相似:一般CPU的工作诸如生成一大堆draw call告诉GPU如何绘制场景,进入到渲染队列(render queue);GPU从队列中取出draw call,渲染完画面后发给显示器。渲染队列可能带来几十毫秒的延迟。
虽然媒体会上,我们没能听得特别清楚;但XeLL示意消除延迟的核心也是在CPU Render Queue环节。这就要求XeLL去协调GPU与CPU的工作,也要求它非常了解游戏引擎在某个特定点的工作状况。换句话说需要游戏开发者做出支持,让CPU, GPU保持高效同步,以期降低延迟。
同样是《F1 24》游戏,原生渲染场景相较于开启XeSS2,低了大约50%的延迟。不过实际上更有价值的数据,还是相比单纯开启XeSS-SR,以及并开XeSS-SR/XeSS-FR/XeLL,系统延迟是同一水平。当然,XeLL这类技术的宣传点理论上还应当在于某些对延迟有高要求的竞技类游戏,即与超分或帧生成无关、纯粹是超低延迟需求的场景。
后续有更多信息时,我们会尝试补全有关XeLL技术的相关细节。猜测理论上,XeLL应当会成为XeSS2的一个必选项存在,因为帧生成带来的延迟增加会是比较可观的。
首批支持XeSS2的游戏如下图所示,包含《F1 24》、《漫威暗夜之子》、《刺客信条:幻景》等。
Arc B580/B570显卡,有点样子了
从Intel Arc显卡的命名规则来看,型号中的首字母代表的就是显卡产品代数:A是初代(Alchemist),B就是新一代(Battlemage),后续还有C、D系列。这风格倒是跟Imagination不谋而合。
而数字部分,第一个数字用于划分大方向不同定位。就像酷睿i3/i5/i7表征入门、中端、高端型号一样,B后面“5”这个数字表示的是中端定位;后面的70、80也表示了同等定位下,堆料方面的差异——理论上就是半导体binning process后的差异化SKU。
Arc B580/B570具体用料与规格如下图:
这两张卡所用的核心die理论上应该都是BMG-G21:B580用料全开,除了Xe核心堆料、192bit显存位宽外,核心频率也更高(2670MHz);B570减配了2个Xe核心,所以对应的RTU也少2个,XMX引擎少16个——显存位宽为160bit,频率为2.5GHz...
两张卡标称TBP分别为190W和150W,以及统一8Pin接口,的确还是比上代Arc A770/A750环保了不少的;多少也能体现出新架构的高能效优势。
功耗、位宽、10GB/12GB GDDR6显存,加上PCIe 4.0 x8,以及显示IO支持,Battlemage这一代的5系卡才真正有了中端定位的样子。不像Alchemist时代的7系旗舰,总有一种堆料充沛、制作精良,却大力气使不上劲儿而且价格还卖不贵的违和感。
而且更重要的是,这一代的中端定位卡,系统性能层面也明显比上代旗舰更好。Intel的实测数据是,1440p Ultra画质下玩游戏,Arc B580的游戏帧率比Arc A750平均高出24%——测试样本量似乎有近百款。
那么我们基本可以推测,Arc B580在性能上应当会近似GeForce RTX 4060,属于“甜品卡”范畴。所以Intel也给出了Arc B580相较RTX 4060的游戏实测数据:平均高出10%的帧率。Intel Arc显卡此刻也总算是在同代产品上,真正于同档产品的性能层面扬眉吐气了一番;即便隔壁的50系很可能马上也要来了。
而且此处Intel再次宣传了传统艺能:Arc B580售价249美元,相比RTX 4060 299美元的价格,看原生渲染能力的话性价比高出32%(Perf/$),看光追能力的话性价比高出25%;而且甚至在性价比上相比同档的Radeon RX 7600都还要好。
另外Tom也特别谈到,10GB+的显存容量是比RTX 4060更良心的:尤其考虑2k分辨率及更高画质选项,乃至光追对于显存占用的更高要求,这多出的2GB+显存,就能令《极限竞速》游戏性能最多提升64%。何况多的显存于AI推理就是进益。
所以Intel于Arc B580的宣传口号除了XeSS2这一现代游戏特性和XMX AI加速能力提升,就在于最高的性价比(best-in-class Perf/$)——这堆砌晶体管的艺术,还是值回票价了;即便似乎就Intel的角度,多少还是能看出新产品的利润空间可能和隔壁仍然不能比。
这和10个月前Intel发布Q1 23更新之时强调Arc A750的性价比,还真的不大一样。我们认为,虽然Intel这次并未就图形生态做过多介绍;但XeSS队伍壮大、对Vulkan的支持、驱动真正走向高效、还有本文未曾花笔墨的LLM与大模型生态支持等,唯有将这些都做到位,才谈得上硬件层面的“性价比”。
无论如何,我们都希望Intel能够将Arc产品线坚持下去:Battlemage起手不就已经比Alchemist好出太多了吗?更不必说接下来说不定还有B770之类的产品,有机会真正挑战隔壁的高端线。