应对下一代移动图形处理的挑战-电子工程专辑

 2006年，图形处理器（GPU）总出货量约为1.35亿，广泛用于智能手机、DTV和平板电脑等多种设备。同年，ARM完成对挪威Falanx公司的收购，并获得其移动GPU技术，完成对原有IP技术的扩展。10年后的今天，仅智能手机的全球出货量就已达到15亿台（据ARM内部数据和Gartner数据显示）；短短10年时间，ARM Mali技术也已成为全球出货量第一的GPU，2015年总计出货量超过7.5亿。

本文将重点讨论GPU市场、技术、应用案例，以及GPU爆炸式发展背后的深层原因。同时，文章还将简述ARM Mali GPU及其架构在过去10年的演进，并介绍搭载全新Bifrost架构的Mali-G71。

ARM17011901

API与制程节点开发

对图形领域而言，2015年振奋人心——全新应用程序接口（API）的出现允许开发商将基础图形硬件发挥至技术允许的最高水平。

同年，Khronos团队的工作引发有关Vulkan的热烈讨论。Vulkan是新一代OpenGL API，为新一代图形API设计量身打造。Vulkan足以满足全部需求，并彻底终结了OpenGL ES和OpenGL作为API各自为政的时代。

Vulkan于2016年2月正式发布，是首款按照开发商需求设计的Khronos API。它由游戏引擎开发商、芯片提供商、IP公司和操作系统供应商共同开发，以期打造兼顾各相关方需求的最佳解决方案。Vulkan API应运而生，采用全新异构系统，不仅内置多线程支持，而且可以最大程度发挥硬件一致性的优势。Vulkan属于底层API，允许开发商自主决定硬件交互方式，并通过底层接入以找到最佳平衡点。

上述特性对虚拟现实（VR）等新兴应用尤为重要，帮助开放商减少延迟，优化图形流水线。

ARM17011902

对聚焦GPU运算应用的开发商来说，OpenCL 2的发布是一个重要节点，多项全新理念进一步简化了高性能GPGPU应用的开发流程。虚拟存储共享概念的提出可以说最为关键，允许CPU和GPU之间的虚拟地址共享。与硬件一致性结合后，细粒度缓冲器共享成为现实。该技术简化了实现CPU和GPU工作负载共享所需的开发工作，因为两者间的数据双向传输不再是必要条件。

半导体制造工艺也经历了巨大革新。2014年，台积电与三星推出20纳米工艺节点，标志着平面工艺节点的10年历史终于落幕。2015年，三星在Exynos 7420上使用全新14纳米FinFet技术，台积电紧随其后，推出16纳米FinFet工艺，并搭载于苹果A9芯片。2016年，工艺节点获得进一步完善，成本降低，产量增加。步入2017年， 10纳米工艺节点也不再是梦想。

从GPU的角度看，工艺节点技术的进步对整个行业意义非凡。首先，工艺节点越先进，单位区域（或功耗）的晶体管密度就越大。GPU属于并行处理器，只要架构扩展，性能就会随之提升。然而，先进工艺节点对布线的扩展效果不如晶体管。恰恰相反，Ergo 工艺制程从28纳米优化至14纳米，SoC设计师得以实现更高的晶体管密度，但却不如布线的扩展。这意味着，如果设计10纳米GPU时采用与28纳米同样的方法，设计结果必然会打折扣，因为晶体管和布线各有权衡，不尽相同。设计师常常需要妥协，使IP适应某个节点，这种权衡随着先进工艺节点数量的增加变得愈加重要。

深入探讨高端移动GPU的性能如何继续提高之前，我们需要特别指出GPU性能从2011年到2016年提升了20倍这个有趣的事实。由于手机同时变得更加轻薄，因此该数字并不能代表技术进步的全景，但现代移动设备开发商对性能提升的渴求已经可见一斑。

ARM17011903

移动设备开发商不断完善现有用例，开发颠覆性的新用例，以保持创新节奏，并从新一轮的性能升级中获益。

案例开发

随着移动平台的发展，各类传感器层出不穷。凭借飞速提升的系统性能、不断改善的屏幕精度和日益增加的电池寿命，移动设备开发商已经坐拥创新的最佳平台。

增强现实（AR）可以充分挖掘并展现智能手机的强劲性能。AR的原理并不复杂，利用高级摄像头捕捉图像，经过CPU、GPU、ISP、VPU和DPU，最后显示在高清屏幕上。这个过程中，增强内容将覆盖实际影像。根据应用目标的不同，物体识别、方位补偿（使用电子罗盘和／或加速度计）或高级渲染技术都将各有用武之地。

一些人气移动应用让AR不再远在天边，并一举进军大众市场，比如将滤镜叠加在用户脸部，然后生成图片和视频用于分享的Snapchat；以及让用户在真实地点看到动画人物的Pokemon Go。无独有偶，还有一些应用采取了更高级的AR技术，比如将摄像头捕捉与3D物体相结合。这些创新用例层出不穷，并可以用于包括零售和高端游戏在内的各行各业。举个例子，用户可以使用移动设备查看家具是否与硬装搭配，家具巨头宜家就打算在2017年发布AR产品目录。

虚拟现实已经不算新理念了，但其核心技术却仍在经历巨变。硬件设备已经万事俱备，拥有足够强大的性能运行炫目的VR内容；一个适合创新的大规模开发商生态系统也已经形成。这一点在移动平台的体现格外深刻，因为人人都能用，且其移动性自身便是重要优势。与台式机和游戏机不同，移动设备无拘无束。当然，实现这一点需要在设备上安装各类传感器。实际上，VR领域的许多重大突破都是在移动设备上实现的——利用VR技术增强用户体验的云霄飞车就是高性能移动应用的一个典型案例。

尽管推陈出新的颠覆式应用不断刷新智能手机的使用方式，但我们经常会忘记一点现实，最普遍的移动应用情景依然是网页浏览和游戏。近几年，屏幕分辨率和刷新率都得到提升，用户界面（UI）的视觉效果和使用体验也越来越自然。这些优化对GPU提出了更高要求，成为成本导向型市场不小的挑战。

移动设备已经成为最主要的游戏平台，由于移动游戏的便捷性，玩家人数持续增加，并进一步推动游戏数量的上升。从免费的独立游戏到数百万美元投资的工作室游戏，现代玩家有丰富的游戏类型、价格和质量等级可供选择。随着可选游戏数量的上升，视觉效果也得到显著改善。GPU刚刚引入移动设备时，3D游戏简单粗暴，不堪入目。而现在呢？游戏画面丰富多彩，景色怡人，动态感十足，在上一代的手柄游戏机时代都是前所未闻的。

ARM17011904

上图是ARM演示团队制作的三张示意图。我们先来看看相对简单（以今天的标准）的3D内容，演示游戏为2010年推出的True Force，运行于2011年款的Galaxy S2。每帧图元16k，片段处理每像素时钟周期3.7次，基于OpenGL ES 2.0。

3年后的2013年，OpenGL ES 3.0正式推出，改善了GPU 对GPU运算的支持（并不是OpenGL ES 3.0 API的主打特色，而随OpenGL ES 3.1正式推出）；允许开发商使用更多高级渲染技术。结合基础硬件后，视觉质量显著提升。将Trollheim演示与TrueForce比较一下便可一目了然，前者的复杂性比后者高了不少。TrueForce的每帧图元为16k，而Trollheim为150k，TrueForce的片段处理每像素时钟周期为3.7次，而Trollheim则为16次。

2016年，Vulkan正式推出，API效率大幅提高，与OpenGL ES相比能够以更低的开销帮助开发商更好地发挥硬件性能。当然，硬件本身也快速发展，比较一下Lofoten和Trollheim演示，我们即可清楚地看到复杂度的提升：每帧图元提高了300%，片段复杂度提高了150%。

智能手机设计的挑战与趋势

使用场景的变化仅是一个方面，移动设备本身也经历大幅升级。智能手机市场最初主打旗舰机型，随着智能化程度的不断提高，很多 PC特性已经可以实现，但通讯依旧是其主要功能。然而，过去短短几年间，智能手机用途不断扩展，打电话已不再是智能手机的主要功能，图像显示成为了关注焦点。

过去，手机电池寿命一般用单次充电支持的通话时长来衡量，而现在的标准则是网络浏览或高端游戏的续航时间。GPU与显示性能一起备受关注。用户希望体验更高质量的视觉效果，到目前为止，这一目标都是经由智能手机设计改善，以及显示内容的美感和流畅性来实现，一个证据就是屏幕边框变得越来越窄。市场的大致趋势是朝着屏幕包裹设备的方向发展，设计美感更多由UI而非硬件来实现。下图中，我们可以看出屏幕占整个设备的比例不断增加。这一趋势在三星Galaxy S7 Edge等机型上体现得尤为明显，已经实现屏幕对设备的全包裹。

ARM17011905

除了打电话，现代智能手机还能提供极为丰富的功能，如邮件、社交媒体、导航定位、支付、浏览网页、游戏、拍照和视频等等。用户在期待功能升级的同时，也希望电池寿命不断延长。但是，即便使用当前所有最先进的技术，智能手机的电池容量还是要不断增大，具体变化趋势见下图。

ARM17011906

除了电池容量变大，智能手机还变得越来越薄。一些机型的厚度甚至已经达到了7毫米以下，考虑到现代智能手机的技术含量，如此纤薄实在令人惊讶。

这样的发展方向并非完全没有弊端。屏幕增大导致电池尺寸变大，机身变薄，设备散热能力下降，因为屏幕的散热效率不如金属机身。此外，机身变薄后，用以散热的表面积也会减少。现代高端智能手机的性能上限很大程度上被散热能力牵制，如何保证机身内部元器件不因为高温而受损则因此成为另一大挑战。

现代智能手机装有多种耗电发热的核心元件，如摄像头子系统、屏幕、调制解调器、Wi-Fi、非易失性存储器、DRAM和主芯片本身（包括CPU、GPU和其他处理器）。因为总功耗一致，所以其中任何一个元件功耗的减少，都可以增加其他元件可以使用的配额，这也是系统功耗配比由用例决定的原因。

现代GPU非常复杂，严重依赖CPU运行驱动程序，以实现基于软件与应用程序进行交互。多亏了Vulkan这样的现代API，驱动程序的开销下降了，但是CPU依然需要运行驱动程序，所以不能完全避免耗电。由于所有元件功耗预算共享，因此在CPU中使用的、用于GPU交互的功耗就是不能应用于GPU本身的功耗。基于上述原因，降低CPU功耗势在必行，不仅是为GPU发展扫清瓶颈，更是要为尽可能的提高GPU可用功耗铺平道路。

与之类似，在运行复杂3D游戏的现代系统中，GPU会消耗大量DRAM带宽。由于要处理大量数据（上述提及的Lofoten每帧处理600,000个三角），消耗带宽责无旁贷，但DRAM的读写本身就是耗电的过程，也需要占用系统的总功耗预算。减少DRAM带宽可以降低其功耗，并用于其他元件。

现代智能手机的设计和日益复杂的用例对GPU提出了前所未有的挑战。下一章，我们将介绍ARM新一代GPU和GPU架构是如何应对这些挑战的。

为下一代设备打造的Mali-G71

Mali-G71是ARM最新推出的高性能GPU，也是首款基于全新Bifrost架构的GPU，性能和效率都获得显著提升。

ARM17011907

Mali-G71是迄今为止ARM性能最高的GPU。为满足现代用例所需性能，着色器核心数量从1扩展至32，帮助芯片制造商根据目标市场自主权衡性能和功耗。出于这个原因，我们认为Mali-G71将在各类应用中将大展拳脚。

ARM17011908

如前文所述，智能手机的很多性能都受到散热的限制，还有一些手机的限制因素则是成本，或者说是芯片尺寸。为了实现更高性，Mali-G71和Bifrost架构同时升级了能源效率（单位瓦特性能）和性能密度（单位芯片面积性能），帮助功耗与散热性能遭遇挑战的芯片制造商实现更高的GPU性能。相似条件下，Mali-G71的能源效率相较Mali-T880最多可提高20%，性能密度最多可提高40%。此外，外部存储消耗的总带宽降低20%，进一步减少整体系统功耗。

ARM17011909

Bifrost架构发展

为了进一步说明Mali-G71为何具备远超历代ARM GPU的性能，我们首先来探讨一下GPU架构本身，以及实现这些性能的设计方法。

Bifrost是ARM的第三代可编程的GPU架构，其研发知识与经验传承自Utgard和Midgard GPU架构。

ARM17011910

ARM的前两代GPU架构——Utgard和Midgard都取得了巨大成功。它们专为新兴的移动GPU市场打造，无论出货量还是内部科技的运用都可圈可点。Utgard是ARM首款可编程GPU，支持GLES 2.x，片段着色器与顶点着色器相互独立。Midgard则引入了统一着色器，支持GLES 3.x，并可与OpenCL 1.x Full Profile协同实现GPGPU运算。Midgard是一款前瞻性的GPU架构，甚至包括了一些可以支持Vulkan的功能特性。考虑到这是5年前设计的架构，就足以成为了不起的成就。

然而，随着内容和用例的改变，架构本身也必须进行根本性的升级，以适应各类下一代用例。

ARM17011911

从顶层设计看，与Midgard架构相比，Bifrost的GPU内核没有明显变化。表面上依然包括多个可扩展的着色器核心、一个负责与驱动程序交互的任务管理器、一个负责处理内存页表的MMU以及一个tiler（Bifrost 仍然是一个 Tile based 渲染架构），但全部模块都获得了显著提升。

通过AMBA ACE或AXI-Lite与外界交互的L2子系统为支持AMBA 4 ACE专门设计，帮助Mali-G71彻底实现硬件一致性，并在GPU和CPU等其他单元之间实现了基于硬件的细粒数据透明共享。

我们对tiler做了重新设计，以支持一种全新的渲染流，即索引驱动的位置渲染。该技术的理念是将顶点着色分为两部分以节省带宽，因为无需读写屏幕上看不见的变化参数（varying）1；而且由于无需写回不可见位置，带宽可以得到进一步节省。

ARM17011912

ARM17011913

着色器核心本身的变化更为巨大。ARM在Bifrost中引入全新指令集，根据大量的内容和趋势分析以及长年的行业经验开发。现代GPU的总体趋势是执行越来越多的复杂可编程着色器，通常通过算法完成并采用大量标量代码。作为全新引擎的一部分，Bifrost采用全新的算法单元，以极高的效率执行高级着色器核心。它们更容易扩展，如果未来需求有增加，该架构也可以轻松应对。

Bifrost的属性（attribute）单元和变化参数单元相互独立，这些操作在图形处理中极为普遍，使用独立的高度优化硬件模块更为合理。全新的指令集引入高效的四线程组以节省控制逻辑，并通过四线程组管理器将线程组切换至执行引擎。我们还加入了一个控制架构以提高物理利用率。如上文所述，此特性对现代工艺节点非常重要。

Bifrost引入了名为子句着色器的概念，专门用于处理执行引擎内部的布线密度问题。你可以将子句想象成一组连续自动执行的指令，也就是说，一个子句的执行不能被中断，无论是分支（如分支只发生在子句边界上）还是其他任何事件都无法中断。这意味着子句是可以预测的，数据路径周围的控制逻辑变得更容易。比如说，你无需在子句内部更新程序计数器，因为GPU知道它会在执行前（或执行后）根据子句内部的指令数量向前推进。

对CPU而言，这一行为并不可取，因为CPU必须迅速处理分支，而且分支的出现并不偶然。但恰恰相反，对GPU而言，该技术又可以进一步优化设计。请想象一组指令集正在经过。连续的指令经常使用上一条指令作为输入（见下方一排中的多个ADD正在积累数据）。如果你经常观察到这一现象，而且你知道访问暂存器组的代价非常高昂（因为这是一个巨大的存储模块），有一种方法来缓解这个问题，那就是巧妙地使用临时寄存器来减少寄存器组的访问量。由于寄存器是临时的，数据只会在一个时钟周期中保留，所以要想实现，子句必须确保在子句内部原子执行。

ARM17011914

ARM17011915

请参考下图的简单着色器程序，从指令集的角度了解子句着色器的工作原理。需要指出的是，这是开发者所看不到的，由编译器完成的。

ARM17011916

总结

通过对Bifrost架构如何提高效率和性能的详细解读，我们可以清楚地了解Mali-G71具备哪些根本性的创新技术，以实现万众期待的GPU性能升级。通过支持全新的现代API（如Vulkan和OpenCL 2.0），Mali-G71有助于实现出色的新兴应用场景体验。ARM将继续研发Bifrost架构，满足下一代内容的需求并超越行业期待。2016年，更多新技术将现身ARM Mali 多媒体组件。

EETC wechat barcode

关注最前沿的电子设计资讯，请关注“电子工程专辑微信公众号”。

阅读全文，请先

本文为EET电子工程专辑原创文章，禁止转载。请尊重知识产权，违者本司保留追究责任的权利。

处理器/DSP 智能硬件智能手机接口/总线/驱动技术文章控制/MCU

返回列表

上一篇： 讨厌乱飞的无人机？用“反无人机技术”搞定它吧 下一篇： 逼走希捷苏州的是低迷的机械硬盘，还是14亿补税？

【ICCAD2024】AI时代，先进数字芯片设计下的国产EDA新路径面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战，国产EDA仍需不断探索和创新。
美国最高法院驳回英伟达上诉请求，被控诉涉嫌误导投资者股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动，而非游戏销售，导致投资者对公司的盈利来源和风险敞口产生错误认知。
为什么说机器人的“ChatGPT时刻”将至？从ROSCon看当代机器人开发… 今年初的GTC上，黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
华为Mate 70系列实现芯片100%国产化近日，华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示，华为Mate 70系列每一颗芯片都有国产的能力。此外，日前在深圳宝安中学的一场讲座中，华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70 RS拆解：麒麟9020芯片现身华为Mate 70系列中的Mate 70搭载了麒麟9010芯片，而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日，百万粉丝的网红博主@杨长顺维修家对华为Mate 70 RS进行了拆解……
英特尔开始从外部寻找新CEO：陈立武等在候选名单上常情况下，英特尔的CEO在65岁时退休，而现年63岁的基辛格突然被退休，让市场感到意外。为了确保平稳过渡，英特尔董事会立即着手寻找新的CEO人选……
“一碰交互，共触未来”ITMA峰会盛大目前，智能终端NFC功能的使用频率越来越高，面对新场景新需求，ITMA多家成员单位一起联合推动iTAP（智能无感接近式协议）标准化项目，预计25年上半年发布1.0标准，通过功能测试、兼容性测试，确保新技术产业应用。
中科院微电子所在忆阻神经-模糊硬中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案，首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
直角照明轻触开关为复杂电子应用提 C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置，为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行，英韧科技再获投身国产浪潮向上而行，英韧科技再获“中国芯”认可

投资20亿！路芯半导体掩膜版生产项目首批工艺设备机台入厂来源：苏州工业园区12月17日，江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来，专注于半导体掩膜版的研发与生产，掌握130nm至28n
雷曼光电与辰显光电签约，推进MicroLED商业化 ‍‍12月18日，深圳雷曼光电科技股份有限公司（下称“雷曼光电”）与成都辰显光电有限公司（下称“辰显光电”）在成都正式签署战略合作协议。双方将充分发挥各自在技术创新、产品研发等方面的优势，共同推进Mi
94岁巴菲特公布后事安排！1500亿美元遗产，只留0.5%给子女？投资界传奇人物沃伦·巴菲特，一位94岁的亿万富翁，最近公开了他的遗嘱。其中透露了一个惊人的决定：他计划将自己99.5%的巨额财富捐赠给慈善机构，而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
华为Pura80细节曝光：麒麟9020跑分能上130万分对于华为来说，今年的重磅机型都已经发完了，而明年的机型已经在研发中，Pura 80就是期待很高的一款。有博主爆料称，华为Pura 80将会用上了豪威OV50K传感器，同时电池容量达到5600毫安时。至
撒贝宁走进维信诺，探寻“非凡中国屏”诞生背后的科技传奇之旅万物互联的时代浪潮中，以OLED为代表的新型显示技术，已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者，凭借自主创新，实现了我国OLED技术的自立自强，成为中国新型显示产
JNTC宣布在印度开发和量产车载盖板玻璃 12月18 日，据报道，JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录（MOU）。资料显示，JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
超60GW！飙升12倍，储能机会来了? 又一地，新型储能机会来了？■ 印度：2032储能增长12倍，超60GW据印度国家银行SBI报告，印度准备大幅提升能源存储容量，预计到2032财年将增长12 倍，超60GW左右。这也将超过可再生能源本身
高科视像、新视通等持续扩大COB产能近期，高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播：加入LED显示行业群，请加VX：hangjia188■ 高科视像：MLED新型显示面板生产项目（二期）招标12月18日，山西高科
自动驾驶业务增长6倍，Uber被市场明显错杀，即将迎来50%上涨空间！ “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务，Uber ( NYSE: UBER ) 的股价在短短几周内从 202
还有38%的上涨空间！亚马逊AI战略大爆发 “ AWS 的收入增长应该会继续加速。 ”作者 | RichardSaintvilus编译 | 华尔街大事件亚马逊公司( NASDAQ：AMZN ) 在当前水平上还有 38% 的上涨空间。这主要得益

热门评论
最新评论

换一换

应对下一代移动图形处理的挑战

API与制程节点开发

案例开发

智能手机设计的挑战与趋势

为下一代设备打造的Mali-G71

Bifrost架构发展

总结

杂志声明