10核GPU真的够用吗？全面解析天玑9000的游戏水平-电子工程专辑



 0

 收藏

 分享

扫码分享到微信好友

 海报

 扫一扫

扫码查看更多文章

此前我们写过一篇文章综合评价联发科天玑9000芯片，提到这颗芯片作为明年要大举推向市场的旗舰SoC，有许多令人期待之处。最近一波天玑9000和骁龙8 Gen 1的抢跑成绩，也进一步验证了天玑9000明年定位旗舰的实力——已公开的这波结果也是此前我们没想到的。这其中比较令人惊喜的，是天玑9000的游戏表现……

此前我们写过一篇文章综合评价联发科天玑9000芯片，提到这颗芯片作为明年要大举推向市场的旗舰SoC，有许多令人期待之处。最近一波天玑9000和骁龙8 Gen 1的抢跑成绩，也进一步验证了天玑9000明年定位旗舰的实力——已公开的这波结果也是此前我们没想到的。

这其中比较令人惊喜的，是天玑9000的游戏表现。极客湾最近发布针对天玑9000工程机的测试表明，这颗芯片在《原神》这类高负载游戏中的持续性能和能效相当亮眼，在某些维度能够对隔壁竞品造成相当的压力。以天玑9000选配Arm Mali-G710 MC10规格，整体结果还是让我们十分意外的。

前不久我们刚刚汇总了一篇有关近两年手机GPU图形计算与游戏性能的文章：虽说抛开芯片的面积效益不谈，高通Adreno失去昔日优势地位已成定局，但今年10核心Mali-G710能有如此优秀的表现，实在是让人感叹技术竞争之无常。

当然，游戏作为抽象层级比较高的一类应用，性能、功耗、综合体验考验的并不单是GPU，而是整个系统层面的能力，包括CPU、操作系统、驱动和各种中间件。本文我们单纯从天玑9000芯片的角度，来尝试分析一下，天玑9000芯片是如何达成旗舰级的游戏体验的。这对我们理解当代移动平台的图形计算技术也有帮助。

先从总体来看天玑9000

首先还是看看有关天玑9000芯片的主要配置：

制造工艺：TSMC 4nm；
CPU：1x Cortex-X2 3.05GHz + 3x Cortex-A710 2.85GHz + 4x Cortex-A510 1.8GHz；
GPU：Mali-G710 MC10；
APU：APU 590，4x 性能核 + 2x 通用核
ISP：Imagiq 790，最高支持90亿像素/秒吞吐，3.2亿像素摄像头；3个18bit HDR Fusion ISP；更先进的AI video架构；
媒体与显示：MiraVision 790，支持8K AV1视频播放；显示输出支持最高WQHD+ @144Hz/FHD+ @180Hz；支持全球HDR新标准；
Modem：M80，5G Rel.16；支持下行载波聚合3CC最高300MHz频宽（3x100MHz）、7Gbps速率；上行R16 UL增强；UltraSave 2.0节电特性支持；
其他连接：WiFi 6E（6GHz）；蓝牙5.3；完整的GNSS支持；
内存支持：LPDDR5x-7500Mbps；

CPU部分不再细说：是首个Armv9指令集方案，1+3+4的三簇设计算是常规，频率整体比隔壁竞品高，实则能够一定程度表现台积电N4工艺相比三星4LPE/4LPP的高频能力。

比较值得一提、相关天玑9000 的一大亮点在于存储子系统，CPU部分的L3 cache拉满到了8MB——这也是Arm此前发布Cortex-X2时推荐的L3 cache大小；以及System Level Cache增大至6MB。这两个值对于存储敏感型应用是很有价值的，比如说游戏。联发科在发布会上提到这两级cache的增大，能够帮助减少25%的带宽消耗。尤其对于移动GPU这类TBR基于tile延迟渲染的图形加速器而言，对性能、功耗都会有帮助。

天玑9000的10核GPU够用吗？

既然主要谈游戏性能，那么GPU自然就非常重要了。天玑9000选配的是10核Arm Mali-G710。有关这颗GPU的架构改进，此前我们也已经撰文探讨过。从大方向来看，Mali-G710和G77、G78一样，都属于Valhall架构。Valhall架构的前两代，G78相比G77的改进的确比较小。

不过G710在shader核心、纹理单元方面都有规模上的显著扩大。比较大的变化在于每个shader核心的执行引擎（Execution Engine）数增至2个。而且执行引擎内部也有变化，在warp size和整体吞吐不变的情况下，处理单元分成了4组4-wide处理元素。如此一来，每核每周期FMA吞吐翻翻，而且能耗也有显著下降。

配套TMU纹理单元在吞吐上也翻倍了，且面积效益（性能密度）有了相当大的提升。当然并不能就此简单地说，Mali-G710的一个shader核心就相当于G78的两个shader核心；但规模扩大依然是显著的。

另外G710把job manager换成了所谓的CSF（Command Stream Frontend），处理调度和draw call。这个模块中，尤其固件层的引入能够针对一些较复杂的图形负载，提供更具弹性的性能表现，减少驱动开销、提升效率。另外还有指令模拟等新特性。

Arm官方给出Mali-G710的shader核心数可选配范围在7-16个，整体性能相较上代提升为20%。此前Mali-G78的满配核心数是24个。其实从纸面上来看，天玑9000的Mali-G710 MC10，在核心规格上堆得还是颇为保守的——当然此处我们并未加入shader核心频率的考量。

但有一点不要忘记，下图我们总结了近两年移动GPU性能的时候也发现，核心数有时候并不靠谱。比如说谷歌Tensor芯片，规格为20核心的Mali-G78，但其持续性能还不及只配了14个Mali-G78核心的三星Exynos 2100。

这是多方面原因造成的，包括工艺、峰值功耗，还有OEM厂商的系统设计与调度策略。Android平台的图形算力峰值性能价值其实并不是很大，且游戏总是更追求持续性能。毕竟玩游戏可不是每次都只玩1分钟。这两年Android阵营的旗舰芯片普遍陷入了峰值性能与持续性能严重不对等的怪圈，这种风气相当不好。

我们也拿到了天玑9000的GFXBench Aztec Ruins高画质离屏渲染测试（Vulkan）与Manhattan 3.1离屏渲染测试的性能成绩（持续性能暂缺）。这个结果还是相当出乎我们的意料。这表明Mali-G710的核心与配套加料还挺充分。或者说天玑9000 GPU的频率可能会定得比较高。

当然，如前文所述，这与CPU和整颗芯片的cache容量也有着莫大关联。至少就峰值性能水平来看，还是相当有潜力的。这就让人非常期待来年天玑9000手机的实际游戏表现。毕竟持续性能考验的还是OEM厂商的系统设计能力。

不过我们没有天玑9000在这两项测试中的平均功耗成绩。如此前撰文提到的，近两年的手机旗舰SoC在进行这两项GFXBench图形性能测试时，在某些点的瞬时功耗都能拉到10W以上，首轮跑分平均功耗也有8-9W。这对手机而言是相当惊悚的功耗水平，也是不可持续的。希望天玑9000不要延续这样的“传统”。后文还将就此做更多的介绍。

联发科针对天玑9000的GPU项目宣传数字，给出的都是实际游戏帧数。基于GFXBench测试成绩，以上列出的大部分主流手机游戏达成“满帧”就在意料之中了。

针对更多人关心的持续游戏性能，联发科此前也给出了《原神》这个高负载游戏的24分钟帧率曲线。通过网上目前可以看到的测试来看，天玑9000在功耗和发热方面当有相当出色的表现。

另外插个题外话，《原神》是个对CPU资源需求也比较大的游戏。影响游戏帧率的主要因素包括GPU性能、驱动程序效率、API效率、CPU性能、draw call、带宽等。对于《原神》这种包含大量对象的游戏来说，draw call数量庞大。Draw call是指CPU调用API，指挥GPU去工作的过程。CPU的性能对《原神》这样的游戏而言也格外重要。

天玑9000的Geekbench 5单核与多核性能成绩似乎是秒杀Android阵营全场的。

GPU这部分的最后，我们再花点笔墨聊聊 “动态光照”和“光线追踪”。此前《手机游戏与 AI 将走向哪儿？谈谈联发科眼中的未来技术趋势》一文中曾谈到过联发科对于全局光照和光线追踪的布局。

联发科在这次发布会上说：“天玑9000也支持最新的动态光照游戏技术。随着游戏的运行，支持更多动态光源，让光影更能真实表现，让手机也能运行3A品质的手游大作。”记得联发科在前不久的媒体沟通会上提到过，开放世界游戏的全局光照实现是颇具挑战性的。因为开放世界游戏的游戏场景动态变化频繁，场景对象和面数都可能很多。

上图中提到动态光照优化技术，实现带宽降低，也是基于移动GPU的延迟渲染特点达成的。主要是通过片内cache/buffer来减少数据搬运和光照计算。此前联发科说这样的优化能够“支持10倍数量的动态光源交互，节省20%带宽。”当然除了硬件微架构上的变动，也有计算机图形学方面的演进。这个例子应当算是比较典型的、移动平台节能提效方案了；也是此前联发科技术积累在天玑9000芯片上的一个重要体现。

此外在此前的沟通中，联发科提到已经在和Arm就光线追踪进行分阶段合作，以前的芯片产品就已经在为光追做准备，包括“渲染指令计算、缓存机制，现在是融入在了IP里面的”。

而且这次发布会上，腾讯游戏发言人也提到天玑系列5G芯片对于移动光追技术的布局，与腾讯之间的合作。联发科和腾讯共同开发的游戏光追“双引擎”（包括“光追引擎”和“降噪后处理引擎”）现在应该是能够为开发者所用的。这显然也是将来光追游戏布局的重要组成部分。

谈谈备受关注的游戏能效表现

如前文所述，光有图形计算的峰值性能对日常游戏体验而言，是没有参考意义的。此时天玑9000的功耗、发热，应该是更多用户关心的话题。

有关功耗，虽然我们暂时没有具体的数字。不过联发科在发布会上特别提到了“全局能效优化技术”。这个词估计是整颗SoC芯片，各种节电设计方案的叠加，不仅限于某一个IP，包括前文提到GPU微架构上的不少节电方案（以及后文还将提到的部分方案）。

联发科在天玑9000发布会上提到，天玑9000在轻载应用上（比如朋友圈、淘宝购物、浏览新闻等）相比竞品可省38%的功耗；中载的视频录像方面，节省功耗9%-12%；重载的游戏表现方面，“MOBA沙盒类游戏下，连续玩10分钟，可以比竞品省25%的功耗。而且手机表面温度更低”，“连续玩60分钟，较竞品在表面温度上可以降低5-9℃”。

虽说手机表面温度这种东西很大程度与OEM厂商的系统设计相关，但能够实现这一点，理论上应当是芯片层面微架构、工艺升级共同达成的。一方面说明Mali-G710升级比较靠谱，另一方面也说明联发科在做PPA权衡时，选择10个核心的配置（以及其他设计上的调整：比如说有可能联发科选择了GPU不同步时钟域的方案）、外加其他IP组成部分（包括CPU）都比较合理。

如果以上数据都可信，那么对于游戏综合体验，以及游戏高负载续航而言，天玑9000显然是个不错的选择。

有关“全局能效优化技术”，联发科说得还是比较抽象，未曾明言具体有哪些技术。猜想我们前面列举的包括采用台积电N4、图形计算的动态光照、GPU微架构设计上的调整，乃至并非本文重点的ISP、APU、modem（典型如UltraSave 2.0）等都涵盖其中。

有关游戏的节能，这里还能列举的一个典型技术就是超分（Super Resolution/Super Sampling）了。在普通用户市场上，英伟达DLSS开始宣传超分技术，让此类技术在游戏用户中家喻户晓。所谓的超分，也就是将低分辨率的画面upscale为高分辨率——如此一来，GPU只需更低的渲染开销，就能获得接近原生高分辨率的画质，起到提升游戏帧率、同时降低功耗的作用。

联发科的游戏超分技术也是此前就开始做布局的。具体方案是以GPU+APU来达成AI超分。技术思路和英伟达、Intel应当是比较类似的。这项技术的达成，与天玑9000上的APU 590自然是分不开的。此前我们撰文谈到过，联发科这次的APU在性能和能效方面，达成了对几乎所有手机芯片的碾压。当然这并非本文要谈的重点。

这项技术如果能够得到游戏开发者的积极响应，并在未来普及，那么以更省电的方式来游戏，甚至对于光线追踪的尽早普及，都将是十分有意义的。

低功耗是联发科在近两次发布会上反复提到的，强调低功耗是联发科技术上的特色和优势。“功耗”一词在整场发布会上被提到了大约25次。“在我们设计天玑9000初期，就考虑到功耗和发热的问题。我们的设计团队开始的时候，坚持采用功耗表现最好的台积电最新4nm制程。天玑9000在芯片架构上做了全面的架构优化，不管CPU、GPU、APU、ISP、modem等等的IP模块上做了最好的能效曲线。”而且也特别强调了“打游戏不发烫”。

因为篇幅原因，我们只能列出游戏相关的一部分低功耗技术。实际上像M80 5G modem，采用联发科的UltraSave 2.0省电技术，结合R16新标准的一些5G节能技术，“进一步降低27%的功耗”；再比如Imagiq 790 ISP，据说在4K HDR全功能录制视频时，功耗能做到“比竞品低30%”……

还有个HyperEngine游戏引擎

在现代图形计算技术上，其实还有很多低功耗相关的方案，比如说VRS。不过这类技术被联发科归类到了所谓的HyperEngine中的智能调控引擎方案里。VRS也就是可变速率着色，是指对于画面中没那么重要的对象（比如不怎么影响视觉体验的背景），可以不必做很精细的渲染，也就能够起到降低功耗的效果。

这张图给出了联发科AI-VRS（可变渲染技术）在开启和关闭之间，GPU资源占用情况。除此之外，还有资源调度优化方案，都能够不同程度地对游戏降低功耗起到帮助作用。

对联发科产品和技术熟悉的读者应该很清楚HyperEngine技术。这是联发科的“游戏引擎”。天玑9000将HyperEngine升级到了5.0版本。HyperEngine总共包括4个主要的组成部分，除了前面提到的智能调控引擎以外，还有网络引擎、操控引擎和画质引擎。

这几大引擎的提升除了画质引擎的光追支持，前文已经提过，这里网络引擎、操控引擎都是对游戏体验的加成。比如网络引擎强调优化极端场景下的时延问题。这类技术在2年多以前刚刚发布的时候，还是相当惊艳的，包括当时的WiFi不同频段，甚至加上LTE的并发；以及抗握姿干扰、复杂网络环境适应性等。

天玑9000的网络引擎在联发科的宣传中是“MediaTek FastPath专有协议快速通道+WiFi/蓝牙双连抗干扰2.0+智能天线2.0”，能够在遭遇弱网、握姿屏蔽和存在干扰的时候，以期尽可能维持在<100ms的网络延迟下。

操控引擎本次更新的是“智能屏显同步技术”。这项技术的本质是从触控到显示这个周期内，降低延迟的技术。其实这类技术和桌面PC平台游戏技术进化的思路是一致的，英伟达有个Reflex技术，是让PC和显示器更快地响应鼠标与键盘输入。这类细微体验差异，对电竞和高阶玩家是很有帮助的。

低延迟对游戏体验加成的另一个技术点，还在于天玑9000对蓝牙5.3的支持，加上蓝牙LE Audio以后，联发科表示蓝牙连接的音效延迟可以降低32%。这对用蓝牙耳机玩游戏的用户而言，应当是相当有价值的了。

关键的2022年

本文主要谈的就是天玑9000在游戏方面的一些技术与努力。有关这颗芯片能谈的其实还有很多，比如说APU、ISP。这次发布会上，联发科还特别谈到了APU 590配套的开发环境与开发工具，及生态发展情况，是此前联发科不曾公开谈论过的（如下图）。

因为篇幅的关系，本文对天玑9000芯片相关游戏特性之外的其他构成不再多做介绍。

许多普通消费用户更关心的应该还是搭载天玑9000的终端产品。天玑9000手机应当会在明年一季度末上市。发布会上我们听到有关终端产品的信息主要包括

“OPPO下一代Find X旗舰系列，将首发天玑9000”；
“vivo将成为率先采用天玑9000旗舰芯片的终端厂商”；
“Redmi下一代旗舰K50也正蓄势待发”…“天玑9000是K50宇宙不可或缺的关键性能拼图”;
“未来将跟荣耀的新产品进一步深入合作”。

与此同时，京东也和联发科合作开启了“京东天玑旗舰店”。天玑9000的产品造势不可谓不盛。就如此前评论文章谈到的，联发科显然是要抓住天玑9000的机会，大肆开拓旗舰手机市场。所以这款产品的重要性是不言而喻的。

事实上，联发科当前已经是智能手机应用处理器出货量份额最高的品牌。在旗舰与高端市场上有所作为，将成为新的一年里，联发科实现营收增长、明确品牌地位的重要一役。天玑9000的存在有可能会成为旗舰手机市场洗牌的关键。在Nuvia成果问世以前，高通明年的日子会更不好过。

责编：Luffy Liu

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

处理器/DSP 人工智能业界新闻

10核GPU真的够用吗？全面解析天玑9000的游戏水平

先从总体来看天玑9000

天玑9000的10核GPU够用吗？

谈谈备受关注的游戏能效表现

还有个HyperEngine游戏引擎

关键的2022年

杂志声明