Intel自去年发布Arc独显至今,驱动程序已经更新了21个版本;有些时候更新驱动带来的性能提升,约等于买了块新显卡;这是怎么做到的?

绝大部分关注Intel Arc独显的同学应该都知道,现在Intel针对Arc独显在做的,就是马不停蹄地更新驱动、完善图形与GPU相关生态。最近的Intel Arc显卡媒体分享会上,Intel就提到自去年Arc独显上市至今,Intel已经累计发布了21个版本的驱动。

好像近两次我们参加Intel显卡相关活动,多少都跟驱动更新有关系——上次是Q1'23 Arc Update大版本驱动更新带来老游戏帧率大幅提升的消息,我们也做了Arc A750显卡的体验,某些游戏的性能提升幅度可以达到1.5倍以上——更新驱动约等于买新卡…

不过这也不奇怪,像GPU这种和生态强相关的硬件,自市场走向成熟以后,软件投入就必然是巨大的:一方面得提升驱动效率、发挥硬件性能,另一方面得让开发者都来用相关技术。这些工作的开展都不容易。

这次,我们在位于上海紫竹的英特尔亚太研发有限公司再度感受了,驱动更新带来的体验升级。以往Intel Arc显卡驱动更新的重点,主要是放在了图形渲染这边的;这次媒体引擎相关的部分所占篇幅也很大;另外Intel相对罕见地演示了自家图形卡的AI能力。

XeSS现在的生态情况是这样

相关游戏的部分,这次Intel主要谈的就是XeSS——也就是Intel的AI超分技术,此前我们也特别XeSS技术的细节做过介绍。这类技术是利用机器学习,将低分辨率的画面超分成高分辨率——比如GPU渲染1080p分辨率的画面,藉由XeSS就能升格为4k,且画质与原生4k渲染的画面还非常接近。

这种AI超分技术应该说是现在的大热门,不仅是Intel、英伟达这样的桌面GPU市场参与者,移动市场也正跃跃欲试。因为AI超分能够让GPU以更少的图形渲染资源,来获取更好的流畅度体验。也是Arc A770能够以2k分辨率畅玩诸多3A游戏的技术依据之一,比如《杀手3》,2k全高画质,开启XeSS性能档能够将帧率从33.6fps提升到68.1fps。

不过这类技术在得到硬件、驱动、图形API和图形引擎的支持以后,还需要开发者做代码层面的改动。于是这就涉及到生态问题了:对游戏玩家和图形应用的用户来说,那就是究竟有多少游戏和应用支持了XeSS。当然,各类中间件的支持情况也是生态发展的体现。

先来聊下XeSS技术本身的进化。Intel在今年Q1后期就将XeSS更新到了1.1版本,AI模型本身有了更新。似乎主要是加入了更多训练数据集,尤其是某些“罕见场景”,则可覆盖更多游戏画面场景的超分,减少此前1.0版本在极个别场景下的画面闪烁或摩尔纹现象;

另外XeSS内核做了优化,“DP4a和XMX路径都得到了性能提升”。上面这张图给出的是单就内核runtime,1.0和1.1两个版本的变化情况。既对比了带XMX单元的Arc A770,也对比了Intel CPU的Xe核显(基于DP4a)。内核优化造成的XeSS性能提升大约在5-10%之间,且目前还在做进一步的优化。

比较值得一提的是,有关XeSS技术更新方向的,Intel透露现在正在研究用XeSS去实现3倍放大——因为一般我们说的AI超分,普遍是2倍的分辨率upscale;如果3倍能够达到理想效果,无疑对入门级GPU而言更是福音——游戏玩家可以期待一下。

实际上就我们的观察来看,Q1'23 Arc Update驱动大版本更新过后,驱动能够为Alchemist这代GPU带来的图形渲染性能最大飞跃已经达成,后续很难再有如此惊艳的大跨步。那么在XeSS下功夫显然是个很明智的选择。

此外,我们知道XeSS在渲染管线上所处的位置,基本是替换TAA。Intel方面表示,正在研究是否可将某些post-processing的部分前移,换句话说,更多流程不需要以高分辨率渲染,则XeSS可达成更高的性能。

生态方面,XeSS最初发布之时,Intel宣布已支持的游戏有20+款;而目前支持XeSS的游戏已经达到了50+,一些知名的大作如上图所示,包括《霍格沃茨之遗》《赛博朋克2077》《巫师3重制版》等。XeSS的前行速度应该是比当年的DLSS刚推出时,生态扩展更快的。

活动现场,Intel给我们演示了《如龙:维新!极》《幽灵线东京》《HiFi RUSH》,包括还没上线的DirectX 12版本的《永劫无间》等几款游戏应用XeSS的帧率提升情况,大部分都有约50%的帧率提升。

中间件相关的,Intel这次特别提到了XeSS以插件的形式对Unreal Engine虚幻引擎提供支持。目前支持的版本主要包括Unreal Engine 4.26以上和Unreal 5(也通过代码补丁的方式支持了Unreal Engine 4.25)。而且在Unreal Engine本月更新5.2版后,Intel也率先宣布XeSS对此版本提供支持,早于竞争对手,可见Intel对于Arc生态的扩展还是相当积极的。

还有个补充信息和XeSS关系不大,是Intel目前正在重构DirectX 11的驱动,虽然本次媒体会上Intel只提了一句——实际去年8月份,Intel也在官方发布的Arc Graphics Q&A上确认了DX11相关工作在进行中。那么未来的驱动更新我们可能有机会再看到DX11游戏的性能飞跃,如同Q1'23那次主要针对DX9游戏那样。

 

驱动升级后,内容创作的性能变化

如前所述,本次媒体会上Intel把比较多的介绍篇幅放在了内容创作、媒体引擎上。此前我们两次体验Intel显卡始终没有去谈媒体引擎部分。实际上,国外媒体先期评论里,普遍在夸的是Intel Arc显卡的媒体引擎彪悍;Linus Tech Tips甚至建议过,如果已经有英伟达GeForce显卡玩游戏的话,那么还可以考虑花较少成本买张Arc A380,专门用来搞媒体编解码——这个部分应当也是过去Intel核显技术积累的结果。

这代Arc显卡标注Xe媒体引擎的配置是“视频编解码器 x2”和“视频后处理器 x2”,虽然硅层面的微架构我们不甚了解,但绝大部分关注Arc显卡的同学应该都知道,Arc是最早实现AV1格式硬编解码的GPU,包括入门定位的Arc A380。

为了体现A380媒体内容创作的实力,Intel这次演示在一台设备上同时进行6路4k 60fps视频的编码与播放,外加2路4k 60fps的AV1视频转码。也就是说总共8路4k 60fps解码,2路4k 60fps编码。这个负载在Arc A380上跑,编解码引擎的硬件资源利用率大约在80%左右,还有余量。这还是体现了Arc显卡在codec堆料方面很充沛。

不过这次Intel主要谈的是驱动更新过后,内容创作的性能变化,对比的是2022年12月8日的驱动版本31.0.101.3959和目前最新的31.0.101.4369驱动。对比了下面这4个项目:

这项对比的是Pugetbench Davinci Resolve——视频编辑软件达芬奇的一个基准测试,测试的是Arc A750在新旧两版驱动下,不同测试项目的性能变化情况。从结果来看,新驱动比旧驱动的性能总体提升了33%:各分项有差异——PugetBench测试的分项涵盖了4K视频不同格式转码,包括镜头光晕、模糊、降噪等在内需要用到GPU通用加速的特效,以及3D字幕等合成工作。

这部分提升是通过OpenCL驱动优化达成的。3959→4369驱动变化过程里,Intel提到主要包括3个优化项目:(1)集中式缓存池。即驱动会维护一个缓存池,“这些缓存是准备好的”,“当应用要求小buffer时,可以直接从缓存池返回需求”,也就“减少了驱动开销”;(2)主存/显存拷贝,“应用经常会需要拷贝一些buffer到显存里”,如果拷贝小尺寸数据,“驱动准备GPU拷贝命令的时间,可能比真正执行拷贝的时间都要久。”“我们通过CPU map的方式来拷贝,极大降低了小尺寸buffer的显存拷贝开销。”

(3)资源延迟销毁。一般应用处理完一帧画面后,会将创建的资源销毁——通常这是个同步操作,即需要等GPU上次workload结束,才能执行销毁操作,“这就相当于把CPU阻塞了,CPU与GPU并行度降低”。所以这个优化方案是实现资源销毁的异步化,即在应用提交资源销毁请求时,驱动并不真正立即销毁资源,而是cache销毁请求——待“对应的GPU命令执行完以后,通知驱动真正销毁资源”,这也就提高了CPU与GPU的并行度。

这三点是在Pugetbench测试中,跑分提高的主要原因。

缩减驱动开销的另一个例子是通过“优化3D驱动”,来提升视频导出性能。这部分是基于复杂视频后期的导出,往往是需要编解码、3D引擎等一起工作的。驱动层面若能优化不同引擎之间的依赖管理,减少引擎间的“空等问题”,也就提升了视频导出效率。Intel表示,这部分的驱动优化,能够让视频导出时间减少10%。

上面的例子是以剪映来做对比的。实际Intel针对包括剪映专业版在内的不同应用,也特别做了一些优化。上图这个对比项目是给视频加大量特效以后去做导出,对比导出时间。值得一提的是,剪映作为最初应用于移动平台的app,选择的是OpenGL ES,在迁往桌面平台时技术栈也没换。但PC端没有原生的OpenGL ES驱动,所以剪映是基于Android框架将OpenGL ES转到D3D11。

“针对这样一个特别的软件,我们和剪映进行了密切合作。”将Arc GPU的内存压缩技术带到剪映的软件栈里面。“像剪映重特效的视频编辑,尤其是4k,访问显存的带宽压力还是非常大的。”所以在加入内存压缩特性之后,特效shader显存带宽压力就减小了,“shader性能提升了1倍左右”,“节省近40%的视频导出时间”。尤其Arc A380带来的性能收益更为显著。

还有个驱动优化的例子,在视频编辑方面带来的体验加成更大:藉由Arc GPU的视频后处理引擎,去加速达芬奇中的视频预览性能。Intel表示Arc GPU配备的2个专用视频后处理引擎,“天然适合视频预览加速”。

在达芬奇软件中进行8k视频预览时,新驱动就能用视频后处理器来加速。这张图对比了新旧驱动,8k 60fps两路8bit和一路10bit视频的实时预览帧数情况。较早的3959驱动是没有做加速的,而新版充分利用视频后处理引擎以后,预览明显变得流畅。现场演示看到两者的差别的确还是相当大。

其实从这个例子还是能够体现,驱动对于发挥芯片原有算力资源的价值的。而驱动更新,也的确是在一步步解锁Arc GPU原有的硬件属性。增加视频后处理引擎的视频回放预览加速,感觉其体验提升幅度无疑和图形渲染那边重构DX9驱动是类似的分量——不过这可能也反映了Arc早期驱动的发布,多少还是比较匆忙的。

 

未来还可以再期待一下

最后值得一提的是,Intel这次也演示了Arc GPU的AI推理能力,用Arc A770藉由OpenVINO插件在GIMP中跑Stable Diffusion——且不说Stable Diffusion作为可自己部署的text-to-image的生成式AI,由于众所周知的原因受到玩家追捧;生成式AI原本就是如今的大热门。不过这次的演示比较简单,主要就是基于文字提示,5秒左右生成图片——没有横向对比。

有兴趣用Arc跑AI的同学,可以看一看Intel的官方指引。这大概算是个开始吧,毕竟Intel在XPU策略上的AI布局也是相当重要的环节,于图形卡的下放是必然。

而上面这些实则都是基于现有硬件基础,做软件和生态完善的结果。Intel现在似乎也挺热衷于生态发展的阶段性汇报,就像隔壁每届GTC的重点都在生态汇报及软件、库、中间件发展情况一样。

近未来,除了前文提到XeSS可能会有3倍超分,XeSS效率还会再做提升,以及DirectX 11 API相关的驱动部分在重构,我们应该有机会再次看到Arc显卡在驱动更新后的性能显著提升。Intel表示,像本次提到视频创作上取得的进展,“只是我们迈出的一小步,我们每个季度都会给大家带来一次惊喜”。看来软件和生态的威力,于GPU而言实在是不亚于芯片或板卡本身的存在。

责编:Illumi
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
‍‍12月18日,深圳雷曼光电科技股份有限公司(下称“雷曼光电”)与成都辰显光电有限公司(下称“辰显光电”)在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势,共同推进Mi
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ:AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益