Intel面向PC的独立显卡发布也有一段时间了,高层级的体验内容看多了,或许我们应该关注一下Intel Arc显卡微观层面的细节表现。上个月,Chips and Cheese对Arc A770做了个microbenchmarking,我们援引其中的部分数据,来更具体地看看Intel的Arc初代独显,究竟做得怎么样。

Intel面向PC的独立显卡发布也有一段时间了,Arc两个定位的3、7系列都已经有产品上市。Intel这次推独显的决心还是相当大的,对于Arc显卡各方面的宣传都显得不遗余力,从技术到市场。

不过桌面显卡市场发展了这么多年,双寡头局面形成已经有些年份——就桌面端的主流图形应用来看,这个市场已经高度成熟。后来者要想在这样的市场上分一杯羹,通常需要付出相当于现有市场参与者数倍的努力,才可能真正有所斩获。

而且这种努力绝不仅是市场宣传上的成倍投入,因为GPU这种形态的处理器发展到现在,生态建设和软件相关的工作早就是重中之重。这就涉及到技术与生态积累的考验,也进一步加大了步入这个赛道并混出一片天的难度。

目前已有的Arc A380、A770/A750相关评测内容也已经不少,Arc GPU的先期口碑并不能说有多好。前不久在13代酷处理器的体验文章中,我也顺带谈到了入门级Arc A380显卡。其实际表现算是符合我们对于新入市者的初代产品预期的:存在问题,但未来可期。

高层级的体验内容看多了,或许我们应该关注一下Intel Arc显卡微观层面的细节表现。上个月,Chips and Cheese对Arc A770做了个microbenchmarking,我们援引其中的部分数据,来更具体地看看Intel的Arc初代独显,究竟做得怎么样。

 

前期好像在走性价比路线

虽说按照Arc 3、5、7数字划分低中高端,理论上A750/A770应该算作高端定位。不过市场似乎将Intel Arc A770定位在英伟达GeForce RTX 3060相似的水平上。这两款显卡目前的市场零售价也差不多,后者比前者稍高一些。

而GeForce RTX 3060其实只是英伟达PC游戏显卡家族中的“甜品卡”;则至少就Intel对于Arc GPU的现有布局来看,PC市场上,Intel还没有真正的游戏旗舰GPU。

但值得一提的是,Arc A770/A750显卡之上的那颗ACM-G10 die,尺寸达到了406mm²,基于台积电N6工艺,晶体管数量217亿个。单就晶体管堆料参数来看,它相比于英伟达GA104,无论工艺先进程度、晶体管密度还是die size,都要更甚。而GA104这片die的完全体其实是GeForce RTX 3070/3070 Ti在用的。

用着高于3070的料,却卖着比3060还便宜的价格,Intel对此应该也是比较无奈的,毕竟其性能表现好像没有达到堆了217亿晶体管所应当达到的水平。

来源:Linus Tech Tips

其实作为一张DirectX 12/Vulkan显卡,Arc A770对于最新的DirectX 12游戏支持情况还不错,在1080p分辨率、高画质下的游戏性能与GeForce RTX 3060差不多;2k分辨率下还能做到反超。当然,即便是这样,基于Arc A770的硬件堆料,猜想其图形渲染性能也并未达到Intel的预期。

而更悲剧的是,Arc对老游戏(或更早DirectX版本游戏)的支持一言难尽。在《古墓丽影:暗影》的DirectX 11模式下,画面帧率立刻腰斩。像《CS:GO》这种更老DX版本的游戏,Arc A770连RTX 3050都打不过...原因在于Arc跑DirectX 9游戏,是用DirectX 12→DirectX 9的中间转义层来实现兼容的。加上没有专门优化,以及CPU需要额外开销做转义工作,老游戏的效率是可想而知的。

但如果说性价比,其实Arc A750/A770这种卡又不大可能把价格降到太低的程度,毕竟die size和晶体管数量就是实打实的成本。而且这些die size不光是用在了传统的图形计算单元上,Arc A770还在AI单元、解码器、图形光线追踪方面堆了不少料,这就令其在某些方面显得很偏科;其光追、AI超分和视频编解码性能都还是挺不错的。

 

为什么更高分辨率下,性能会更好?

高层级、应用层面的体验内容,网上已经有不少分享了,上面这个段落也算做个总结。有关初代Arc显卡Xe-HPG的架构,此前我们也详细撰文谈过,这里也不多费笔墨。

Arc A770的纸面数字配置主要包括有32个Xe核心,8个render slices,32个RTU(光追单元),512个XMX引擎(AI加速单元),512个矢量引擎,PCIe 4.0 x16连接,256bit 16GB GDDR6显存,TBP 225W。我们主要来看看Chips and Cheese做的相关存储与计算方面的一些“microbenchmarking”核心数据。

首先是存储,在GPU核心上Intel也采用了两个层级的cache存储方案,英伟达也是如此。Intel在架构策略上,选择了比竞品更大容量的cache(Chips and Cheese测试结果是每个Xe核心192KB)。更大的cache也会带来更高的延迟,不过在GPU高利用率的情况下,小幅延迟增加是可以被隐藏的;而且更高的L1命中率本身也能够一定程度提高平均访问延迟。

Arc A770的L2 cache也比较大,达到了16MB,至少比英伟达Ampere和AMD RDNA 2大。从测试结果来看,Arc A770的L2 cache虽然容量更大,但延迟表现很不错,比RTX 3060 Ti还略快,介于AMD RDNA 2的L2 cache和Infinity Cache之间(如下图)。对比中英伟达和AMD显卡的L2 cache容量要小得多。

显存访问延迟方面,Intel会比AMD和英伟达高不少:而且用Chips and Cheese的话来说,这个延迟数字达到了10年前显卡的水平。不过在GPU高占用率(线程数尽可能填满)的情况下,显存延迟的影响并不会太大。

存储带宽测试,首先是dispatch一个workgroup,则GPU的一个模块或者说一个核心就会开始工作——所谓的GPU基础模块构成,对于Intel而言是Xe核心,对英伟达而言是SM、对AMD而言是WGP(RDNA)/CU(GCN)。

从测试结果来看,一个Xe核心在不同存储层级——包括cache和显存上都无法获得很高的带宽。尤其当数据深入到显存部分的时候,情况相当不乐观:AMD一个WGP从显存拿到的带宽就能有63GB/s,而英伟达一个SM则有34.4GB/s,Intel的一个Xe核心只有8GB/s的带宽。片内cache的情况也没好到哪里去,就这个结果来看,Intel的Xe核心的存储级并行能力(MLP)不大行。

一般GPU能够执行的workgroup size是256线程,而Arc支持的workgroup size最多有512线程,这对于隐藏延迟是有帮助的。所以基于这个size做测试,测试结果会有显著提升(蓝色虚线,Local Size = 512):L2 cache带宽将近能够达到英伟达Ampere的水平,但显存带宽仍然比较悲惨。

Chips and Cheese评价说,Arc A770单个workgroup执行的存储带宽表现和古老的AMD Radeon HD 5850差不多....

不过一般GPU跑真实负载的时候,不会只用上GPU的一个核心。上面这样的测试也就作为某种参考。随测试增加workgroup或者说并行度,存储带宽利用会增加 - 当然更低并行度下达成越高的带宽一般也更理想。

即便增加workgroup,无论是共享cache(包括L2 cache),还是显存,Arc A770的情况看来和其他竞品都完全不在一个水平线上。AMD和英伟达这边都能快速达成带宽利用增长或满载。

就共享cache来看,AMD这边的Infinity Cache容量还更大,情况都比Arc A770的L2 cache好。而在显存方面,即便Arc A770的所有32个Xe核心都处在工作状态,显存带宽似乎都没有填满。看起来Intel在Arc显卡存储系统的带宽利用率方面还有很多工作要做。

值得一提的是,Chips and Cheese的测试流程也可能存在问题,抑或测试用的这一版Intel驱动存在问题,尤其在测试反复分配、释放存储资源的过程里,Chips and Cheese提到OpenCL runtime还会报错。

这几个月Intel应当有在频繁做驱动的bug修正工作,这也是新入市者前期会遭遇的问题——我在A380的体验中也提到过,即现在的每次驱动更新都能发现不少问题被解决。

上面这个测试是跑512个workgroup,以期达成全部GPU单元模块的满载。在GPU资源高占用的情况下,Arc A770的存储性能表现就会比较理想,在不同存储层级全周期内,都能表现出很不错的带宽吞吐,包括cache和显存。

不过配合真实测试来看,Arc A770真的需要高占用、高并行度才能表现出比较理想的存储性能——某些游戏由于各种原因无法做到GPU的高利用率,不管是游戏类型需要、CPU瓶颈还是软件优化,则实际表现可能会比竞争对手的GPU显著更差。Arc因此有更大概率在游戏的高分辨率设定下,有不错的帧率表现。

这可能就解释了,为什么在实际游戏测试的2k分辨率下,Arc A770相比竞品的优势会更大,或者差距会更小。

另外有关local memory延迟的情况,也就是一个workgroup内的所有线程共享的存储部分,Chips and Cheese也做了测试。Intel Arc A770(27.57ns)在这方面稍落后于英伟达Ampere(16.71ns)和AMD RDNA 2(19ns左右),和Maxwell(26.33ns)差不多——不能说出色,但也不算差。

 

计算吞吐与延迟

存储系统测试之外,另外比较重要的当然就是连接和计算了。Chips and Cheese倒是有做PCIe带宽测试,以及计算相关的测试。不过连接测试内容,因为设定的关系,个人认为可能并不具有太高的参考价值——大抵上基于测试PCIe 3.0和Resizable BAR设定,Arc A770的数据复制带宽水平都不理想,至少和目前在售的AMD和英伟达当代架构竞品比是如此。

要说GPU计算性能,FP32吞吐应该是一个重要指标,因为图形渲染包含了大量的FP32操作。从测试结果来看,Arc A770的Xe核心在FP32加法操作上表现不错,但FP32 FMA(融合乘加运算)不理想,原因不明。

整数(INT32)操作吞吐部分,Arc A770的表现不差,但似乎和当代竞品相比有一定差距。不过这部分测试结果也仅供参考,Chips and Cheese的测试工具还在做完善。之所以只给了单个GPU核心跑测试的结果,也在于如果看整个GPU的吞吐数据,A770的情况更为异常。这部分后续仍有商榷的余地。

在FP32执行延迟(单位:周期)方面,近代英伟达和AMD的GPU表现都相当不错,就周期数来看和CPU差不多——当然CPU的频率还是显著高于GPU的。Arc A770在运算单元的执行延迟会明显更高,尤其是FP32 FMA操作。

INT32整数执行延迟情况也类似,但比旧架构的显卡会稍好,包括比Kepler和Maxwell都好些,但显著弱于Ampere和RDNA 2。整数执行延迟数据对比图就不放了。

Chips and Cheese认为,像FP32执行延迟达到11-12个周期,在最终更系统层面并不会表现出多大的差异——这些延迟完全可能被其他因素隐藏。而且像AMD Terascale 2架构的FP32延迟也很高,但并不妨碍其计算性能的发挥。不过如果要在最终应用里有效隐藏较高的执行延迟,则同样需要较高的GPU资源占用度才行,这可能也是Arc A770在高分辨率图形渲染时,表现会更好的原因之一。

比较有趣的是,因为现在时常在Intel活动上出现的执行副总裁Raja Koduri此前来自AMD图形业务,所以Intel这次在推Arc显卡时,就有很多网友开玩笑说Intel的Arc,本质上就是AMD的Vega。当然其实从内部架构来看就知道,这纯粹是个玩笑。

不过Chips and Cheese还真的特别对比了Intel Arc A770和AMD Radeon VII(GCN),感觉对Intel足以产生一万点暴击...主要测试的还是cache和显存的带宽和延迟,有兴趣的同学可以去看看:上述弱项中,在低资源占用的情况下(较少workgroup数),Arc 770的存储性能表现仍然不乐观(Radeon VII在显存方面还很豪气地用了HBM2)。

Radeon VII其实也算是在应用资源高占用时,才能发挥实力的典型代表,但似乎仍然没有Arc A770那么依赖高占用。不过达到GPU高占用时,Arc A770作为今年发布的显卡,综合存储性能表现还是能够把Radeon VII甩在身后的。

这一代Arc显卡架构这种资源高占用、才可发挥出实力的特性,可能与Xe-HPG架构构成有很大关系,尤其是每个Xe核心L1 cache需要在8个Send端口(一个Xe核心包含8对EU/矢量引擎)之间做仲裁,每个端口还需要在2个矢量引擎间做决策。而且load/store系统以轮询的方式来服务EU/矢量引擎,这可能能够解释GPU低资源占用、低并行度时存在的带宽问题。

最后值得一提的是,最近Intel为Arc A770/A750发布了新版驱动,据说在游戏中达成了8%的性能提升——其实从驱动更新角度,8%也不是什么大数字,尤其在Intel目前驱动程序可能仍然效率不高的大前提下。不过这也表明,驱动更新仍有持续优化Arc显卡性能的余地。

而且我们都始终觉得,Intel这类参赛选手对于GPU市场的介入是个好事,尤其初代独显产品能有这样的表现,虽然仍然存在诸多不成熟,但已经是个非常出色的开端。难怪Linus Tech Tips要呼吁大家都去买Arc显卡,英伟达和AMD也是积累了十几、几十年才有了现在这番作为的:而Intel显卡的成熟也会持续盘活GPU市场,带动技术发展。

责编:Illumi
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
虽然英特尔CEO基辛格突然退休的消息令市场感到意外,但投资者似乎将其解读为利好信号,英特尔甚至股价一度上涨。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情
上个月,亿万富翁埃隆·马斯克谈到了年轻一代的生育问题。他强调生育的紧迫性,认为无论面临何种困难,生育后代都是必要的,否则人类可能会在无声中走向消亡。他认为人们对于生育的担忧有些过头,担心经济压力等问题