今天Intel正式发布了Intel Arc A系列移动端独立显卡,面向笔记本设备。配置有Arc 3、Arc 5、Arc 7之分——这样的数字标识也算是Intel的老传统了。其中搭载Arc 3 GPU的笔记本已经准备好推向市场,更高性能的Arc 5/7则会在初夏上市。

Intel要发布独立显卡已经不是什么新鲜事了,毕竟Intel不仅做了这么多年的核显/集显,2020年也有试水性质的Xe DG1独立显卡问世。去年的Intel Architecture Day之上,Intel就宣布了面向PC的独立GPU发布计划,GPU产品名为Arc——中文名“锐炫”。初代Arc GPU产品代号Alchemist。

当时我们就知道了这是将采用台积电N6工艺、基于Intel Xe-HPG架构的GPU产品——这还不是11代、12代酷睿处理器Xe-LP核显简单的规模化扩展;与此同时我们也撰文剖析了Xe-HPG架构本身

今天Intel正式发布了Intel Arc A系列移动端独立显,面向笔记本设备。配置有Arc 3、Arc 5、Arc 7之分——这样的数字标识也算是Intel的老传统了。其中搭载Arc 3 GPU的笔记本已经准备好推向市场,更高性能的Arc 5/7则会在初夏上市。首款采用Arc 3的三星Galaxy Book 2 Pro已经上市,不过并不面向中国市场。预计从今年第二季度开始,国内会看到采用Arc独显的笔记本产品。

值得一提的是面向笔记本的Arc不会适配12代酷睿的U系列处理器(而仅搭配更高TDP的Alder Lake-H与Alder Lake-P),Intel对此的解释是搭载U系列低压处理器的轻薄本的功耗余量有限,故不会有搭配Arc独显的笔记本问世。这可能和低压处理器的I/O限制也有一定的关系。

另外Intel也确认了,Arc GPU可以在其他平台使用——也就是和别家CPU搭配。只不过考虑到后文将提到的Deep Link技术让Intel GPU和CPU配合致性能和效率最大化,以及操作上的可行性问题,我们认为笔记本平台恐怕很难会看到AMD CPU+Intel GPU的奇怪组合。

未来面向桌面PC的板卡产品自由搭配,倒是有这种可能性。但Intel Fellow Tom Peterson在评价这一问题时则说:“这个问题更多取决于OEM和ODM的规划,从技术角度来说并不难实现。随着Intel推出独立显卡产品,我们很期待接下来在市面上看到更多可能性。”

Arc 3先到,Arc 5/7等到夏天

先来看看这次新发布的GPU产品。Intel自己对于Arc 3/5/7的定位分别是:Arc 3面向“主流游戏”,Arc 5可应用于“性能游戏”,而Arc 7则针对“硬核性能游戏”。

这次发布的Arc “A系列”移动独立GPU产品包含了上面这几款:A350M、A370M、A550M、A730M、A770M。不同型号在Xe内核数量、频率、光追单元数量、显存容量与位宽,以及显卡功耗上均有差异。

按照英伟达的常规,他们还会列个tensor core数量。对Intel Alchemist而言,每个Xe核心都配16个矢量引擎+16个矩阵引擎(XMX),所以看Xe核心数大致也就知道了矩阵引擎数量。Alchemist在AI单元方面的堆料,看起来比Ampere要猛一点。

举例说,其中A370M有8个Xe内核与光追单元,GDDR6显存64bit位宽、4GB容量,功耗设计35-50W。Intel并未给出与竞品之间的比较。单纯从显存容量、位宽以及功耗来看,Arc 3比较可能的对标对象是GeForce RTX 2050 Mobile和MX570(但后者并没有光追、超分这些特性,显存容量也低很多)。

不过现在的GPU,在光追、AI专用单元之类的配比上都比较“个性化”,很难有综合的性能评定与比较;加上不同GPU厂商与架构对于“核心”定义差别甚大;而且Arc独显率先用上N6工艺也会有功耗和效率方面的优势;最终还是要看不同应用的实际性能比较。

而A550M则在各方面的用料上,都比A370M翻了一番。目前最高配的A770M则有32个Xe核心,256bit位宽、16GB GDDR6显存,以及最多150W的参考功耗。Arc 5和Arc 7应该会以GeForce RTX 3060及以上定位的GPU为竞争目标。

Intel展示了两种尺寸和规格的die(ACM-G10/G11),对应于不同的规格。有可能其中的ACM-G11是专门用于Arc 3的,而ACM-G10则通过binning process做成Arc 5/7更多的SKU。

值得一提的是,Intel特别提到了显卡时钟频率的定义问题。Intel强调GPU在间歇性的轻度负载状态,可以跑在比较高的频率下;而游戏这类负载很重的场景,在大量运算单元发挥作用时,频率就会比较低;于是GPU的时钟频率在一个动态范围内;接近中间的频率出现的概率会更高。

Intel表示:“考虑到这种分布情况,我们制定独立显卡参数配置时,先标定一个有代表性的负载,然后在该负载运行时,全程测量并统计时钟频率分布。最终将平均时钟频率作为参数配置中的定义。”于是前面我们看到的频率,应该并不是指其最高频率。另外OEM厂商的不同功耗设定下,频率的分布范围可能也会有变化。

以上是Arc 3 A370M相比12代酷睿的Xe核显(96EU)在部分游戏中的性能比较。包括《杀手3》《F1 2021》《最终幻想14》等游戏,都有不同程度的帧率提升。尤其《毁灭战士:永恒》《巫师》之类的游戏,理想情况下最高有2倍帧率提升。注意其中的画质设定是有差异的,不过都是以1080p分辨率去测试的。

《堡垒之夜》《GTA5》之类的竞技类游戏,在1080p中等画质下也能越过90fps的帧率。这两组对比的样本量感觉还是太小,也没有非常近代的3A大作,毕竟Arc 3在定位上还是偏向于入门的。另外就是这些测试也没有发挥XeSS、光线追踪特性。与隔壁N厂和A厂笔记本独立GPU对比可能还需要等更多的实测数据。

除了游戏之外,Intel也给出了内容创作应用的性能对比,包括用Handbrake和达芬奇进行4K H.264→4K H.265转码测试,还有用Premiere执行两个特定功能操作——这里的Auto Reframe和Scene Edit Detect应该都是需要用到AI加速的——Arc GPU的XMX矩阵引擎就能发挥作用了。

这几个场景下,A370M相比12代酷睿的Xe核显有不同程度的性能优势,虽然感觉这几个场景都好具体,并非很综合的系统性能测试。

另外值得一提的是,这两者的对比并不单纯是Arc 3与核显之间的较量。后文将会提到Intel的酷睿处理器和Arc GPU有一些特别的协作特性(Deep Link),所以Arc独显可以和Xe核显一起对某些工作负载做加速。

Intel这次并未给出Arc 5和Arc 7的性能比较数据。

光追、超Smooth Sync等特性

Alchemist全系GPU都支持DirectX 12 Ultimate的那些知名新特性,包括光线追踪、VRS(可变速率着色)Tier 2、mesh shading(网格着色)、sampler feedback(采样器反馈)等。这些我们在此前的架构解析文章里也都已经提到过。

尤其其中的光线追踪实现,Intel也为Arc GPU加入了专门的光线追踪硬件单元——用于光线遍历(ray traversal)与包围盒相交(bounding box intersection)与三角形相交运算。

光线追踪之外的另一个重要特性就是超分(或超级采样)技术了,即通过计算将低分辨率画面升格到高分辨率的过程,GPU只需要渲染低分辨率的画面,最终也能获得近似于原生高分辨率画面的观感,节约资源的同时提升了帧率。

Intel的XeSS即是应用了AI的超分技术:XeSS原理是藉由画面中的临近像素,以及过去帧进行运动补偿,来重建像素细节,该过程也需要通过神经网络进行,和英伟达的二代DLSS比较类似。此时,Xe核心内的XMX矩阵引擎(或也可以是DP4a指令)就能发挥作用了。

当然我们很难搞清楚Intel XeSS在实现细节和效果上与DLSS的区别。Tom Peterson在接受采访时说:“我们利用AI和深度学习技术已经训练过各种不同的游戏了,相信我们的网络模型能够很好地适配不同类型的游戏。”至于与别家比较,基于AI做超分“将来会成为激烈竞争的领域”…“这对对比、评估、基准测试来说,其实都是个全新的领域”,“很难去直接比较我们的AI网络和别家的同类技术。”

从Intel的演示来看,效果还是相当不错的。具体表现如何,其实还有待对游戏的更多复杂场景做测试。毕竟我们知道DLSS一代在某些动态场景下也是会翻车。而且这项技术要以最高效率跑起来,也依托于Intel的GPU生态构建能力,作为一个新的入局者,Intel有待市场考验。

Intel在会上宣布了首批支持XeSS的14款游戏,如下图所示。“预计未来几个月还会有更多游戏加入。”

另外值得一提的一项特性,是为解决帧率与刷新率不一致导致的画面撕裂问题相关的同步技术。Intel独显除了支持VESA标准的Adaptive Sync(调整显示器刷新率,令其与GPU输出帧率吻合的技术),另外有个Speed Sync。

Speed Sync是Intel自家的技术,其目标也是解决垂直同步导致更高响应延迟的问题。“Speed Sync通过关闭V-Sync来改善这一点-减少排队-我们将始终显示最后一个渲染帧的整体,而不是撕裂。”不过在媒体沟通会上,Intel并未详述是如何“改善”的。

除了Speed Sync以外,还有个“与锐炫一起推出的一项全新的Intel技术”Smooth Sync。这种技术的方案是对两个撕裂帧之间的边界做模糊化处理,降低画面撕裂带来的体验影响。思路还是相当新奇…静态画面看起来基本可接受,不知道画面动起来体验效果会是怎样:

CPU与GPU应该搭配干活

AMD这两年正努力发挥同时造CPU、GPU的优势,推一些专属于自家平台的优势技术,比如说SAM(Smart Access Memory)。不难想见Intel开始造面向PC的独显,也必然全力发挥这方面的优势——尤其在CPU还另有核显的情况下,不能让真金白银的die白白浪费了。

如前文提到的,Arc独显可与12代酷睿及其核显搭配,优化效率或协同完成某些工作。这类技术统称为Deep Link。Intel主要列举了Deep Link的动态功率共享、超级编码、超级算力三项特性。

其中动态功率共享是个类似于英伟达Dynamic Boost的技术。Intel说当年的Kaby Lake G(就是传说中加上了隔壁Vega die的处理器)之上,就已经在用自家的“第一版动态功率共享”技术了;后续Tiger Lake(11代酷睿)、Alder Lake(12代酷睿)一直在做技术改进。这类技术的本质都是在CPU或GPU任何一方更需要功率的情况下,有个动态分配机制。

另外在系统处于高负载状态下,如游戏场景,为加快响应负载变化,系统会以100毫秒为最小间隔来动态调控功率配比;而在轻载场景下,不需要快速响应时,为实现节能则该时间窗口会变大。这也更符合笔记本这类形态设备的需求。

而超级编码技术,在Alder Lake-H处理器报道文章里曾谈到过。这项技术是把媒体编码工作交给Arc独显和酷睿处理器的Xe核显去协同完成。我们知道以苹果为代表的处理器SoC,越来越看重媒体引擎的性能。11代酷睿之后,Intel就在刻意加强酷睿处理器某些格式的媒体编解码能力。

所以核显与独显的配合工作就显得顺其自然了。不过该特性要求开发者去调用oneVPL的API。原始帧通过API交给oneVPL,把工作按组分配给独显与核显;oneVPL最后完成打包工作,把编码后的帧拼接成最终视频并输出。

Deep Link技术中还有一项具代表性的特性是“超级算力”,在某些应用中同时结合核显与独显的算力。比如说对一段视频做去噪、超分之类的处理,则由MLS(机器学习服务,OpenVINO中的一个框架)获得视频每一帧切分成的tile以后,将这些tile智能地分配给不同的算力模块——这个过程会考量负载的延迟敏感度、吞吐量、性能要求、功率消耗等因素进行分配。

似乎“超级编码”“超级算力”这类特性本质上都属于Intel XPU生态的组成部分和在PC平台上的延续。这种不同算力模块的协同、配合方式,就Intel的介绍来看,性能和效率的提升幅度都还挺大。

具体到Deep Link技术生态的扩展上,Intel表示会跟不同的ISV合作,实现这些技术在不同系统上的支持。“我们现在已经在达芬奇、Handbrake这些软件上做了赋能。未来会在更多的软件里看到这些功能的实现。”所以说前文对比达芬奇和Handbrake的转码能力是有原因的。我们认为,Deep Link只是整个Intel大生态的一个组成部分罢了;而这部分的成功与否其实能够很大程度窥见Intel现如今的号召力,我们也拭目以待。

与此同时,Deep Link技术在我们看来可能会成为Intel在PC独显市场竞争成功与否很重要的一个组成部分。毕竟英伟达的GPU生态已非一日两日,而AMD则有游戏主机这一天然优势市场。Deep Link则属于Intel这名新入局者的优势项。

Alchemist GPU的其他能力

其实Intel本次媒体分享会的一个重点,也在于花比较大的篇幅去谈了Xe-HPG架构。不过相关Xe核心、L1 cache/共享存储、内部的XMX、及Xe核心构成的render slice、光追单元等大部分内容,我们都已经在《Intel GPU的野望:从游戏到数据中心》一文做过解析,本文不再多做赘述。

不过去年的Intel Architecture Day上,Intel并未谈到配套的Xe媒体和显示引擎。Intel在本次的产品发布中,强调Xe媒体引擎是“业界首个为AV1构建硬件编码支持的GPU供应商”,强调比软件编码“快50倍”。FFMPEG、Handbrake、Premiere Pro、达芬奇、Xsplit都已经对Arc的硬件级AV1加速做出支持。

而在Xe显示引擎方面,Arc独显当前主要支持HDMI 2.0b、DP1.4a规格,“游戏玩家能够享受1080p@360Hz,或4台具有4k@120Hz HDR的显示器。”

除此之外值得一提的是,Intel当前已经发布了Arc Control锐炫控制面板app,提供各种相关Arc GPU的设定、性能调整、驱动升级等特性,有性能监测、虚拟摄像头、直播设置等功能。

这一阶段发布的独显主要针对的是笔记本市场,而且首先以Arc 3为主。如果笔记本如期上市,则最应感到压力的应该是英伟达目前应用于入门市场的一众独显产品——虽然最终还是要看带Arc独显的笔记本产品售价。

不过在更高端的市场上能否抢占先机,还要看Intel的动作是否足够快,尤其是在如今RTX 4000系列尚未问世的利好时期。无论如何,PC GPU市场多出一个市场参与者对消费者而言终归是好事,像Tom说的“接下来,大家可能需要更加习惯听到关于‘I+I’的故事了”,更何况这还将有利于显卡价格的进一步平稳

责编:Lefeng.shao
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
欧洲在1nm和光芯片技术上的试验线启动,将有助于缩小研究与制造之间的差距,并推动整个半导体生态系统的发展。
过去四年里,美国电子制造业的投资额已经超过此前三十年的总和,整体规划投资约达4500亿美元,堪称美国史上规模最大的半导体制造扩张。
面对未来道路的挑战,新一代汽车的OEM正在积极探索创新之路,努力实现既符合日益严格的法规要求的乘客安全功能,又配备出色音频性能的沉浸式车内娱乐系统,以满足市场和消费者的需求。在这一过程中,OEM可以充分借助TI全新推出芯片产品,重塑车内体验,开启汽车驾乘的新纪元。
尽管市场上有传言称英伟达大幅削减了对台积电CoWoS-S封装的需求,甚至有报告指出砍单幅度高达80%,但台积电和英伟达均对此进行了否认......
很多人以为,今年CES上老黄演讲的主角是GeForce显卡,但其实是他手里握有的机器人相关的“时间宝石”...
英特尔前首席架构师赛莱什·科塔帕利在英特尔担任过多款 Xeon 服务器处理器的首席工程师以及数据中心流程架构的平台工程组总监,近年来高通也一直在寻求进军服务器市场,这预示着高通有望在服务器市场上的进一步发展......
对于未来行业发展的增长趋势、行业特征和渠道特点等方面,IDC 总结并给出了2025年中国PC 显示器市场十大洞察……
该存内计算芯片采用全数字设计,能够保证不同位宽配置下的精确计算。为实现不同位宽配置下的高利用率和高能效,团队提出了一种……
西门子数字化工业软件在IDC MarketScape发布的《2024 – 2025全球制造执行系统供应商报告》中被评为MES领导厂商,该报告针对制造业的MES软件厂商进行了综合性评估。
Arm宣布其芯粒系统架构 (CSA) 正式推出首个公开规范,进一步推动芯粒技术的标准化,并减少行业的碎片化。
互联网与科技企业每日重点资讯文 | 苏丁巨头动向字节跳动调整员工福利字节跳动发布内部邮件,对员工福利政策进行微调。包括:2026年将停止发放春节红包(今年发放);2025年度不再发放端午、中秋节礼品;
1月23日,艾森股份发布公告称,公司正筹划以发行股份及支付现金的方式购买棓诺(苏州)新材料有限公司(以下简称“棓诺新材”)控股权并募集配套资金。该公司相关股票自2025年1月24日起停牌,预计停牌时间
据央视新闻报道,北京汽车集团有限公司党委书记、董事长张建勇 1 月 23 日介绍,2024 年中国新能源汽车产销量超过了 1000 万辆,连续 10 年保持了全球第一的位置。在自动驾驶方面,北汽集团今
1月23日,HTC宣布与谷歌(Google LLC)签署协议,谷歌将斥资2.5亿美元与HTC达成一项重要交易,部分HTC的XR研发团队成员将加入谷歌。根据协议条款,谷歌将获得HTC非专属的XR知识产权
宇树机器狗今年的 CES 展上,机器人无疑是一大焦点。清洁机器人、工业机器人、医疗机器人、陪伴机器人等引人注目,各大科技公司纷纷展示了机器人在不同场景下的巨大应用潜力。然而,尽管过去几年在大语言模型和
1月23日,总部位于福州的昊盛科技集团旗下新美材料收购韩国LGC光学功能膜业务交割仪式,在福州长乐数字中国会展中心顺利举行,标志着我国新型显示产业正在摆脱偏光片上游材料受制于人的局面。交割仪式现场仪式
据晚点 Auto消息,近日,比亚迪汽车新技术研究院院长、比亚迪智驾总负责人杨冬生在技术院内部,谈了他对于技术研发、管理、制度等话题的看法,并提出了新的工作要求或者方向。他表示:“一个产品的先进和成功是
近日,维信诺在显示技术领域取得重大突破,在业界率先采用固态激光退火(SLA)技术,成功实现非晶硅薄膜向多晶硅薄膜的转化,并实现量产品成功点亮,预计在今年2月底将实现SLA技术的大规模量产。这一创举标志
随着深度学习和复杂模型的不断涌现,对算力的需求持续上涨。企业正加大对高性能计算资源的投入,特别是GPU和TPU等专用硬件的使用。而如何降低模型部署成本是各家公司一直考虑的关键点。今天特邀AI基础设施领
我是芯片超人花姐,入行20年,有40W+芯片行业粉丝。有很多不方便公开发公众号的,关于芯片买卖、关于资源链接等,我会分享在朋友圈。扫码加我本人微信👇TI(德州仪器)于1月23日(当地时间)公布了 20