Intel面向PC的独立显卡发布也有一段时间了,高层级的体验内容看多了,或许我们应该关注一下Intel Arc显卡微观层面的细节表现。上个月,Chips and Cheese对Arc A770做了个microbenchmarking,我们援引其中的部分数据,来更具体地看看Intel的Arc初代独显,究竟做得怎么样。

Intel面向PC的独立显卡发布也有一段时间了,Arc两个定位的3、7系列都已经有产品上市。Intel这次推独显的决心还是相当大的,对于Arc显卡各方面的宣传都显得不遗余力,从技术到市场。

不过桌面显卡市场发展了这么多年,双寡头局面形成已经有些年份——就桌面端的主流图形应用来看,这个市场已经高度成熟。后来者要想在这样的市场上分一杯羹,通常需要付出相当于现有市场参与者数倍的努力,才可能真正有所斩获。

而且这种努力绝不仅是市场宣传上的成倍投入,因为GPU这种形态的处理器发展到现在,生态建设和软件相关的工作早就是重中之重。这就涉及到技术与生态积累的考验,也进一步加大了步入这个赛道并混出一片天的难度。

目前已有的Arc A380、A770/A750相关评测内容也已经不少,Arc GPU的先期口碑并不能说有多好。前不久在13代酷处理器的体验文章中,我也顺带谈到了入门级Arc A380显卡。其实际表现算是符合我们对于新入市者的初代产品预期的:存在问题,但未来可期。

高层级的体验内容看多了,或许我们应该关注一下Intel Arc显卡微观层面的细节表现。上个月,Chips and Cheese对Arc A770做了个microbenchmarking,我们援引其中的部分数据,来更具体地看看Intel的Arc初代独显,究竟做得怎么样。

 

前期好像在走性价比路线

虽说按照Arc 3、5、7数字划分低中高端,理论上A750/A770应该算作高端定位。不过市场似乎将Intel Arc A770定位在英伟达GeForce RTX 3060相似的水平上。这两款显卡目前的市场零售价也差不多,后者比前者稍高一些。

而GeForce RTX 3060其实只是英伟达PC游戏显卡家族中的“甜品卡”;则至少就Intel对于Arc GPU的现有布局来看,PC市场上,Intel还没有真正的游戏旗舰GPU。

但值得一提的是,Arc A770/A750显卡之上的那颗ACM-G10 die,尺寸达到了406mm²,基于台积电N6工艺,晶体管数量217亿个。单就晶体管堆料参数来看,它相比于英伟达GA104,无论工艺先进程度、晶体管密度还是die size,都要更甚。而GA104这片die的完全体其实是GeForce RTX 3070/3070 Ti在用的。

用着高于3070的料,却卖着比3060还便宜的价格,Intel对此应该也是比较无奈的,毕竟其性能表现好像没有达到堆了217亿晶体管所应当达到的水平。

来源:Linus Tech Tips

其实作为一张DirectX 12/Vulkan显卡,Arc A770对于最新的DirectX 12游戏支持情况还不错,在1080p分辨率、高画质下的游戏性能与GeForce RTX 3060差不多;2k分辨率下还能做到反超。当然,即便是这样,基于Arc A770的硬件堆料,猜想其图形渲染性能也并未达到Intel的预期。

而更悲剧的是,Arc对老游戏(或更早DirectX版本游戏)的支持一言难尽。在《古墓丽影:暗影》的DirectX 11模式下,画面帧率立刻腰斩。像《CS:GO》这种更老DX版本的游戏,Arc A770连RTX 3050都打不过...原因在于Arc跑DirectX 9游戏,是用DirectX 12→DirectX 9的中间转义层来实现兼容的。加上没有专门优化,以及CPU需要额外开销做转义工作,老游戏的效率是可想而知的。

但如果说性价比,其实Arc A750/A770这种卡又不大可能把价格降到太低的程度,毕竟die size和晶体管数量就是实打实的成本。而且这些die size不光是用在了传统的图形计算单元上,Arc A770还在AI单元、解码器、图形光线追踪方面堆了不少料,这就令其在某些方面显得很偏科;其光追、AI超分和视频编解码性能都还是挺不错的。

 

为什么更高分辨率下,性能会更好?

高层级、应用层面的体验内容,网上已经有不少分享了,上面这个段落也算做个总结。有关初代Arc显卡Xe-HPG的架构,此前我们也详细撰文谈过,这里也不多费笔墨。

Arc A770的纸面数字配置主要包括有32个Xe核心,8个render slices,32个RTU(光追单元),512个XMX引擎(AI加速单元),512个矢量引擎,PCIe 4.0 x16连接,256bit 16GB GDDR6显存,TBP 225W。我们主要来看看Chips and Cheese做的相关存储与计算方面的一些“microbenchmarking”核心数据。

首先是存储,在GPU核心上Intel也采用了两个层级的cache存储方案,英伟达也是如此。Intel在架构策略上,选择了比竞品更大容量的cache(Chips and Cheese测试结果是每个Xe核心192KB)。更大的cache也会带来更高的延迟,不过在GPU高利用率的情况下,小幅延迟增加是可以被隐藏的;而且更高的L1命中率本身也能够一定程度提高平均访问延迟。

Arc A770的L2 cache也比较大,达到了16MB,至少比英伟达Ampere和AMD RDNA 2大。从测试结果来看,Arc A770的L2 cache虽然容量更大,但延迟表现很不错,比RTX 3060 Ti还略快,介于AMD RDNA 2的L2 cache和Infinity Cache之间(如下图)。对比中英伟达和AMD显卡的L2 cache容量要小得多。

显存访问延迟方面,Intel会比AMD和英伟达高不少:而且用Chips and Cheese的话来说,这个延迟数字达到了10年前显卡的水平。不过在GPU高占用率(线程数尽可能填满)的情况下,显存延迟的影响并不会太大。

存储带宽测试,首先是dispatch一个workgroup,则GPU的一个模块或者说一个核心就会开始工作——所谓的GPU基础模块构成,对于Intel而言是Xe核心,对英伟达而言是SM、对AMD而言是WGP(RDNA)/CU(GCN)。

从测试结果来看,一个Xe核心在不同存储层级——包括cache和显存上都无法获得很高的带宽。尤其当数据深入到显存部分的时候,情况相当不乐观:AMD一个WGP从显存拿到的带宽就能有63GB/s,而英伟达一个SM则有34.4GB/s,Intel的一个Xe核心只有8GB/s的带宽。片内cache的情况也没好到哪里去,就这个结果来看,Intel的Xe核心的存储级并行能力(MLP)不大行。

一般GPU能够执行的workgroup size是256线程,而Arc支持的workgroup size最多有512线程,这对于隐藏延迟是有帮助的。所以基于这个size做测试,测试结果会有显著提升(蓝色虚线,Local Size = 512):L2 cache带宽将近能够达到英伟达Ampere的水平,但显存带宽仍然比较悲惨。

Chips and Cheese评价说,Arc A770单个workgroup执行的存储带宽表现和古老的AMD Radeon HD 5850差不多....

不过一般GPU跑真实负载的时候,不会只用上GPU的一个核心。上面这样的测试也就作为某种参考。随测试增加workgroup或者说并行度,存储带宽利用会增加 - 当然更低并行度下达成越高的带宽一般也更理想。

即便增加workgroup,无论是共享cache(包括L2 cache),还是显存,Arc A770的情况看来和其他竞品都完全不在一个水平线上。AMD和英伟达这边都能快速达成带宽利用增长或满载。

就共享cache来看,AMD这边的Infinity Cache容量还更大,情况都比Arc A770的L2 cache好。而在显存方面,即便Arc A770的所有32个Xe核心都处在工作状态,显存带宽似乎都没有填满。看起来Intel在Arc显卡存储系统的带宽利用率方面还有很多工作要做。

值得一提的是,Chips and Cheese的测试流程也可能存在问题,抑或测试用的这一版Intel驱动存在问题,尤其在测试反复分配、释放存储资源的过程里,Chips and Cheese提到OpenCL runtime还会报错。

这几个月Intel应当有在频繁做驱动的bug修正工作,这也是新入市者前期会遭遇的问题——我在A380的体验中也提到过,即现在的每次驱动更新都能发现不少问题被解决。

上面这个测试是跑512个workgroup,以期达成全部GPU单元模块的满载。在GPU资源高占用的情况下,Arc A770的存储性能表现就会比较理想,在不同存储层级全周期内,都能表现出很不错的带宽吞吐,包括cache和显存。

不过配合真实测试来看,Arc A770真的需要高占用、高并行度才能表现出比较理想的存储性能——某些游戏由于各种原因无法做到GPU的高利用率,不管是游戏类型需要、CPU瓶颈还是软件优化,则实际表现可能会比竞争对手的GPU显著更差。Arc因此有更大概率在游戏的高分辨率设定下,有不错的帧率表现。

这可能就解释了,为什么在实际游戏测试的2k分辨率下,Arc A770相比竞品的优势会更大,或者差距会更小。

另外有关local memory延迟的情况,也就是一个workgroup内的所有线程共享的存储部分,Chips and Cheese也做了测试。Intel Arc A770(27.57ns)在这方面稍落后于英伟达Ampere(16.71ns)和AMD RDNA 2(19ns左右),和Maxwell(26.33ns)差不多——不能说出色,但也不算差。

 

计算吞吐与延迟

存储系统测试之外,另外比较重要的当然就是连接和计算了。Chips and Cheese倒是有做PCIe带宽测试,以及计算相关的测试。不过连接测试内容,因为设定的关系,个人认为可能并不具有太高的参考价值——大抵上基于测试PCIe 3.0和Resizable BAR设定,Arc A770的数据复制带宽水平都不理想,至少和目前在售的AMD和英伟达当代架构竞品比是如此。

要说GPU计算性能,FP32吞吐应该是一个重要指标,因为图形渲染包含了大量的FP32操作。从测试结果来看,Arc A770的Xe核心在FP32加法操作上表现不错,但FP32 FMA(融合乘加运算)不理想,原因不明。

整数(INT32)操作吞吐部分,Arc A770的表现不差,但似乎和当代竞品相比有一定差距。不过这部分测试结果也仅供参考,Chips and Cheese的测试工具还在做完善。之所以只给了单个GPU核心跑测试的结果,也在于如果看整个GPU的吞吐数据,A770的情况更为异常。这部分后续仍有商榷的余地。

在FP32执行延迟(单位:周期)方面,近代英伟达和AMD的GPU表现都相当不错,就周期数来看和CPU差不多——当然CPU的频率还是显著高于GPU的。Arc A770在运算单元的执行延迟会明显更高,尤其是FP32 FMA操作。

INT32整数执行延迟情况也类似,但比旧架构的显卡会稍好,包括比Kepler和Maxwell都好些,但显著弱于Ampere和RDNA 2。整数执行延迟数据对比图就不放了。

Chips and Cheese认为,像FP32执行延迟达到11-12个周期,在最终更系统层面并不会表现出多大的差异——这些延迟完全可能被其他因素隐藏。而且像AMD Terascale 2架构的FP32延迟也很高,但并不妨碍其计算性能的发挥。不过如果要在最终应用里有效隐藏较高的执行延迟,则同样需要较高的GPU资源占用度才行,这可能也是Arc A770在高分辨率图形渲染时,表现会更好的原因之一。

比较有趣的是,因为现在时常在Intel活动上出现的执行副总裁Raja Koduri此前来自AMD图形业务,所以Intel这次在推Arc显卡时,就有很多网友开玩笑说Intel的Arc,本质上就是AMD的Vega。当然其实从内部架构来看就知道,这纯粹是个玩笑。

不过Chips and Cheese还真的特别对比了Intel Arc A770和AMD Radeon VII(GCN),感觉对Intel足以产生一万点暴击...主要测试的还是cache和显存的带宽和延迟,有兴趣的同学可以去看看:上述弱项中,在低资源占用的情况下(较少workgroup数),Arc 770的存储性能表现仍然不乐观(Radeon VII在显存方面还很豪气地用了HBM2)。

Radeon VII其实也算是在应用资源高占用时,才能发挥实力的典型代表,但似乎仍然没有Arc A770那么依赖高占用。不过达到GPU高占用时,Arc A770作为今年发布的显卡,综合存储性能表现还是能够把Radeon VII甩在身后的。

这一代Arc显卡架构这种资源高占用、才可发挥出实力的特性,可能与Xe-HPG架构构成有很大关系,尤其是每个Xe核心L1 cache需要在8个Send端口(一个Xe核心包含8对EU/矢量引擎)之间做仲裁,每个端口还需要在2个矢量引擎间做决策。而且load/store系统以轮询的方式来服务EU/矢量引擎,这可能能够解释GPU低资源占用、低并行度时存在的带宽问题。

最后值得一提的是,最近Intel为Arc A770/A750发布了新版驱动,据说在游戏中达成了8%的性能提升——其实从驱动更新角度,8%也不是什么大数字,尤其在Intel目前驱动程序可能仍然效率不高的大前提下。不过这也表明,驱动更新仍有持续优化Arc显卡性能的余地。

而且我们都始终觉得,Intel这类参赛选手对于GPU市场的介入是个好事,尤其初代独显产品能有这样的表现,虽然仍然存在诸多不成熟,但已经是个非常出色的开端。难怪Linus Tech Tips要呼吁大家都去买Arc显卡,英伟达和AMD也是积累了十几、几十年才有了现在这番作为的:而Intel显卡的成熟也会持续盘活GPU市场,带动技术发展。

责编:Illumi
您可能感兴趣
最近收到一款Jetson Orin Nano Super开发套装,我打算拿它来做个简单的AI应用开发...在没有任何AI应用和嵌入式应用开发经验的基础上...主打传说中的零代码开发~
这一新指导政策不仅反映了中国在芯片产业中减少对外依赖的战略意图,也体现了RISC-V架构在中国芯片产业中的重要地位和发展潜力。
“祖冲之三号” 具备105个可读取比特和182个耦合比特,处理量子随机线路采样问题的速度比目前最快的超级计算机快15个数量级,超过谷歌2024年10月公开发表的最新成果6个数量级。
目前英特尔采取了“产能匹配”策略,即需确保“投资节奏与市场需求一致”,避免过度投入导致产能闲置。这番说辞或意味着英特尔面对巨大财务压力作出了不得已的战略调整。
微软还强调,拜登政府的《人工智能扩散出口管制框架》限制了美国向许多快速增长且具有战略意义的市场出口关键AI组件,破坏了特朗普政府的两项优先事项:加强美国的AI领导地位以及减少美国近万亿美元的贸易逆差。
Ocelot是AWS与加州理工学院合作开发的,集成了两个堆叠在一起的小型硅微芯片。 AWS表示,该芯片的设计可将与纠错相关的成本降低多达90%。
TEL宣布自2025年3月1日起,现任TEL中国区地区总部——东电电子(上海)有限公司高级执行副总经理赤池昌二正式升任为集团副总裁,同时兼任东电电子(上海)有限公司总裁和东电光电半导体设备(昆山)有限公司总裁。
预计在2025年,以下七大关键趋势将塑造物联网的格局。
领域新成果领域新成果4月必逛电子展!AI、人形机器人、低空飞行、汽车、新能源、半导体六大热门新赛道,来NEPCON China 2025一展全看,速登记!
本次股东大会将采取线上和线下相结合的混合形式召开,股东们可选择现场出席或线上参会。
点击上方蓝字谈思实验室获取更多汽车网络安全资讯3 月 5 日,据中国经济网报道,近日有传言毛京波即将卸任莲花中国总裁,调整至海外市场。莲花汽车内部人士证实了此事:“毛总(毛京波)已经有几天没有出现在办
DeepSeek的崛起不仅是技术革新,更是一场从“机器语言”到“人类语言”的范式革命,推动了AGI时代到来。各个行业的应用场景不断拓展,为企业数字化发展带来了新机遇,同时也面临诸多挑战。不同企业在落地
回顾2024年,碳化硅和氮化镓行业在多个领域取得了显著进步,并经历了重要的变化。展望2025年,行业也将面临新的机遇和挑战。为了更好地解读产业格局,探索未来的前进方向,行家说三代半与行家极光奖联合策划
国际电子商情讯,昨日(3月3日)晚间,TCL科技发布公告称,拟以115.62亿元收购深圳市华星光电半导体显示技术有限公司(以下简称深圳华星半导体)21.5311%股权。A股市场又一起百亿并购2025年
从上表可知,2024年前三季度全球40强PCB企业总营收约416.7亿美元,同比增长7.6%。其中,营收排名第一位的是臻鼎科技(36.05亿美元),排名第2~5位的分别是欣兴电子(26.85亿美元)、
插播:历时数月深度调研,9大系统性章节、超百组核心数据,行家说储能联合天合光能参编,发布工商业储能产业首份调研级报告,为行业提供从战略决策到产品方向、项目资源的全维参考!点击下方“阅读原文”订阅刚开年
据报道,小米集团总裁卢伟冰在西班牙巴塞隆纳的全球发表会上表示,小米汽车计划于2027年进军海外市场。小米的立足之本在于深耕本土市场,作为一家中国车企,唯有在国内市场站稳脚跟,方能谈及海外扩张。因此,小
高通又放大招了!3月3日,也就是MWC世界移动通信大会的第一天,高通正式宣布,推出自家的最新5G调制解调器及射频解决方案——高通X85。高通X85对于高通X85的发布,行业早有关注。因为高通的手机So
今日光电     有人说,20世纪是电的世纪,21世纪是光的世纪;知光解电,再小的个体都可以被赋能。追光逐电,光引未来...欢迎来到今日光电!----追光逐电 光引未来---- 来源:时光沉淀申明:感
在3月4日北京市政府新闻办公室举行的发布会上,北京经济技术开发区(北京亦庄)发布消息称,将于4月13日举行北京亦庄半程马拉松赛,全球首个人形机器人半程马拉松赛将同期举行。会上表示,人形机器人将与运动员