前两天,ARM在Computex 2019大会上宣布推出新一代Cortex-A77 CPU新架构,随之而来的还有Mali-G77 GPU。ARM Mali GPU一直以来相较高通Adreno和苹果A系GPU,都属短板,这让三星和华为始终在图形计算能力,尤其是游戏表现上比较尴尬。

前两天,ARM在Computex 2019大会上宣布推出新一代Cortex-A77 CPU新架构,随之而来的还有Mali-G77 GPU。ARM Mali GPU一直以来相较高通Adreno和苹果A系GPU,都属短板,这让三星和华为始终在图形计算能力,尤其是游戏表现上比较尴尬。甚至前两年就有传言说华为的自研GPU很快会上线,对Mali的嫌弃并不是一天两天了。

不过今年的Mali-G77换了新的Valhall架构,执行核心和ISA都发生了较大的变化——考虑到去年G76已经很大程度拉进了Mali与Adreno在性能和能效方面的距离,今年的G77就格外受人关注了。三星和华为手机终于要摆脱GPU孱弱的帽子了吗?


 

 

预期:靠近苹果,赶超高通?

由于Mali-G77尚无成品上市,现在只能看ARM给定的纸面数据,并参考去年G76的成绩,以此来看G77当前的水平层级。ARM宣称,G77相比G76在每mm²的性能方面提升1.2-1.4倍,或者说“性能密度”提升30%,以及能效提升30%(每瓦性能提升1.20-1.39倍),还有机器学习性能提升60%。

20190530-031.jpg

 

不同的厂商对于具体的GPU实施方案会存在差别,比如频率、核心数等,所以ARM提供了性能密度提升数据作为参考。Mali-G77 GPU预期在未来的制程工艺方面并不会有多大提升,不过性能密度和能效提升自然也就意味着GPU还可以做得更小,或者说可以塞进更多核心。

考虑到整个系统未来更多的提升,如LPDDR5,ARM认为未来采用Mali-G77的设备将在峰值图形性能方面提升40%。这里提升的40%,理应对应于G76,那么我们就可以来看一看G76是什么水平。

一般来说,历代Mali GPU在具体实施时,抛开GPU Turbo不谈,三星Exynos在硬件层面的绝对性能和能效方面是优于海思Kirin的。所以我们看看应用了Mali-G76的Exynos 9820当年的表现如何。

参考外媒AnandTech针对三星Galaxy S10的测试成绩——这款手机恰好有骁龙855和Exynos 9820两个版本。从GFXBench测试子项的曼哈顿3.1和霸王龙2.7测试中,Mali-G76和Adreno 640在峰值性能、持续性能,以及能效(每瓦帧率)方面都比较接近,虽然前者相较后者略有不及。

20190530-032.jpg

20190530-033.jpg
来源:AnandTech,其中A12分成Warm和Cold,其中Warm是指持续跑测试项目至少3分钟后,在性能下降后测得的成绩,这个状态下的功耗成绩会相对合理

Mali-G76实际上相比G72就已经完成了一次能效和性能飞跃,而且G76终于换掉了Midgard时代的texture单元,让Mali在游戏画质上终于达到与Adreno同一水准。那么如果G77的确像ARM宣称的那样,性能和能效都提升20%-40%,这对高通而言就是个大麻烦。要知道在G72时代以前,高通可是远远将Mali甩在身后的。或者说,在未来的G77手机设备中,三星和华为可能将彻底摆脱GPU孱弱的噩梦,只要芯片制造商能够按照ARM的实施方案去做。

不过按照40%的上限来看,大致上也就是刚刚达到苹果A12的水平,包括性能和能效。所以G77赶超高通是没问题的,但要赶超苹果,恐怕还得加把劲儿。

Valhall架构:改了什么?

做到这个程度的性能和能效飞跃,可以从Valhall执行核心,以及Mali-G77微架构层面的调整说起,尤其是前者。ARM官方提到,Valhall包含了这些特性:

- 新的超标量引擎,这是能效和性能密度提升的关键;
- 简化的标量ISA,新的指令组对compiler(编译器)更友好;
- 新的指令动态调度;
- 配合如Vulkan之类的当代API,采用新的数据结构。

实际上,Valhall架构的本质在新的执行核心。前代Bifrost架构是4-wide和8-wide设计,G72核心部分的执行模块就包含4-wide标量SIMD单元,warp size为4;G76则增加到两个4-wide单元,warp size为8。warp是GPU的最基本可调度单元,SIMD过程中数据处理的最小单位;在所有线程中,同时执行同一指令。

20190530-034.jpg

 

这种比较窄的warp设计,致使工作无法有效填充足够的线程。而Valhall则将warp执行模型增加到了16-wide,这样一来,ALU单元的利用率会提升。这是在向桌面级GPU靠拢的节奏。这也是ARM在PPT中反反复复宣传的核心所在,我们认为这也是G77完成性能提升和多场景应用的关键。

20190530-035.jpg

 

另外就是执行引擎从早前的3个,合并为更大的一个。不过实际ALU管线仍然由两部分构成,每部分有各自的16-wide FMA相应单元。类似Bifrost这样的三引擎设计,每个执行引擎都有各自的数据路径控制逻辑、scheduler、指令缓存等,这已经是比较老的设计方案了,相对也更浪费资源,节省空间。

除此之外,就新的ISA,Bifrost以往调度(fixed issuing)是依托于compiler的,而Valhall则降低了compiler的负荷;新版的ISA还对texture指令做了优化;针对AFBC(ARM帧缓冲压缩)的优化等。

20190530-036.jpg

 

深入到执行引擎微架构内部,其中共有四个模块,前端包括warp scheduler和16KB的指令缓存,两个处理单元,还有连接加载/存储单元和一些固定功能模块的Message Block。前端支持最多64 warp/1024个线程;执行单元中有三个ALU,分别是FMA、CVT(转换单元,用于基本的整数操作和类型转换)和SFU(特定功能单元,这个单元的warp为4-wide,因为相对比较少用),这种“超标量”发射的核心变化也就相应实现了compiler的简单化。

20190530-037.jpg

 

在执行引擎之外,shader核心在微架构层面的变动其实是不大的,其中尤为值得一提的是shader核心内部的TMU(纹理贴图单元),其吞吐能力相较Mali-G76翻番(命中路径吞吐翻番、未命中路径吞吐也翻番)。Texture缓存增加到32KB,也就能够达到16纹素/周期的吞吐。过滤单元吞吐也增加了,达到了G76的两倍。

不过这样一来,ALU相较texture过滤也就不是均衡分配的关系了,ARM认为当代的图形工作任务负载是需要这种变化的。ARM宣称,G77在texture重度游戏中的表现会很好。


 

 

再从shader核心之外来看,就不同芯片厂商可以为Mali-G77 GPU配备7-16个shader核心(每个核心一个执行引擎);L2缓存最多可以切分成4块,总体最多4MB大小。这些就要看不同厂商的设计了。

20190530-039.jpg

 

强化的更多应用场景:AR、ML

GPU执行神经网络引擎的推测(inference)其实并不稀罕,不过ARM这回专门拿出来谈了谈。ARM在社区文章中反复宣传其16-wide warp和一个执行引擎内的两簇设计,每个核心每个执行引擎都有16-wide FMA单元。如前文所述,这大概是本次计算性能相较G76提升的根本所在。另外加载/存储缓存(LSC)也有加强设计,这些带宽方面的加强对于推动本地推测执行性能都有益处,本身也迎合edge AI的趋势。

在此基础上,将Mali-G77应用于更为复杂的显示增强和机器学习场景——这都是对并行计算要求更高的场景,也就有了依据。不过在这些应用场景上,G77乃至Vallhall都可能只是个开始。

这么看来,今年的手机市场可能会更有意思,尤其华为在补齐GPU短板后,高通到底还能不能使出什么杀手锏呢?

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
  • 传说中那个降画质的?
  • 纯nt,今年虽然没打过苹果,但已经超了骁龙

  • 3年前不就是高通吓尿,苹果怂了最强国产
阅读全文,请先
您可能感兴趣
面对AI时代带来的差异化趋势、软件应用及开发时间长、软硬件协同难、高复杂度高成本等挑战,国产EDA仍需不断探索和创新。
股东诉讼指控英伟达的首席执行官黄仁勋隐藏了公司记录性收入增长主要由其旗舰产品GeForce GPU的挖矿销售驱动,而非游戏销售,导致投资者对公司的盈利来源和风险敞口产生错误认知。
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
近日,华为终端BG CEO何刚在和紫牛基金创始合伙人张泉灵的对话中表示,华为Mate 70系列每一颗芯片都有国产的能力。此外,日前在深圳宝安中学的一场讲座中,华为终端BG 董事长余承东也自豪地宣布Mate70实现了芯片的100%国产化。
华为Mate 70系列中的Mate 70搭载了麒麟9010芯片,而Mate 70 Pro/Pro+/RS则首发了麒麟9020芯片。近日,百万粉丝的网红博主@杨长顺维修家 对华为Mate 70 RS进行了拆解……
常情况下,英特尔的CEO在65岁时退休,而现年63岁的基辛格突然被退休,让市场感到意外。为了确保平稳过渡,英特尔董事会立即着手寻找新的CEO人选……
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
今日,长飞先进武汉基地建设再次迎来新进展——项目首批设备搬入仪式于光谷科学岛成功举办,长飞先进总裁陈重国及公司主要领导、嘉宾共同出席见证。对于半导体行业而言,厂房建设一般主要分为四个阶段:设备选型、设
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
投资界传奇人物沃伦·巴菲特,一位94岁的亿万富翁,最近公开了他的遗嘱。其中透露了一个惊人的决定:他计划将自己99.5%的巨额财富捐赠给慈善机构,而只将0.5%留给自己的子女。这引起了大众对于巴菲特家庭
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
来源:IT之家12 月 18 日消息,LG Display 韩国当地时间今日宣布,已将自行开发的“AI 生产系统”投入到 OLED 生产线的日常运行之中,该系统可提升 LG Display 的 OLE
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身
LG Display  12月18日表示,为加强OLED制造竞争力,自主开发并引进了“AI(人工智能)生产体系”。“AI生产体系”是AI实时收集并分析OLED工艺制造数据的系统。LG Display表
点击蓝字 关注我们电网和可再生能源系统向着更智能、更高效的方向发展助力优化能源分配构建更加绿色和可靠的能源未来12 月 24 日 上午 9:30 - 11:302024 德州仪器新能源基础设施技术直播