​​​​​​​作为移动领域普及范围最广最强的架构,Arm的每一代升级都备受关注,特别是其性能和功耗。最近,Arm发布了下一代GPU架构,上市时间将在2022年,速度性能提升一倍。文后附ARM Mali GPU四大微架构介绍。

作为移动领域普及范围最广最强的架构,Arm的每一代升级都备受关注,特别是其性能和功耗。最近,Arm发布了下一代GPU架构,上市时间将在2022年,速度性能提升一倍。文后附ARM Mali GPU四大微架构介绍。

本周,在为股东及开发者在线举办的Arm Limited Dev Summit上,Arm公司透露了他们预计将于2022年发布的下一代图形处理硬件,以及与目前FP32中的Arm Mali-G710相比,它是如何将性能提高2倍的。不仅如此,与2018年的Arm技术相比,最新的Arm GPU在相同工作负载下实现的速度几乎前者的五倍。

Arm公司ML业务部高级技术总监Ian Bratt首次展示了使用Arm最新技术的机器学习性能的速度。在提到每核性能提升时,2022年的Arm GPU架构现在将产生比Mali-G76快4.7倍的FP32 ML运算。

目前还不知道FP32 ML的新性能规格如何影响功耗和一般游戏的整体性能。Arm Mali G-710提供"与Mali-G78的实现相比,在ISO进程节点GPU配置中,ML性能提高35%,图形性能提高20%。

ML的性能对Arm的未来是不可或缺的,制造商将需要给开发者提供工具来利用其最新的下一代技术,这可能说起来容易做起来难。"这不仅仅是增加指令和改进硬件IP,我们还必须提供软件、工具和库,以实现ML的性能。"

随着Arm最近被科技巨头NVIDIA收购,考虑到在过去几年中,Arm从一个半停滞不前的公司到为公司的GPU架构发展增加开发和供应,Arm的技术演变目前并没有一个很准确的估算方法。

Arm是世界上最大的独立GPU以及用于各种工作负载的计算GPU供应商,包括机器学习。随着英伟达最近收购了该公司,如何利用Arm的技术来构建更多的强大的集成GPU,以及标准GPU和其他领域的发展,如AI甚至更先进的机器学习工作负载,这将是非常有趣的。

ARM Mali GPU四大微架构

Mali其实是ARM的Mali系列IP核,但是很多现在在很多网上提到Mali其实是直接认为是Mali的GPU。Mali系列其实还有视频,显示控制器,camera等。但是Mali应该算是授权比较多的。而且因为GPU也被更多的非业内人士所熟知。

1、Mali的四大架构之一:Utgard

第一代微架构Utgard(北欧神话人物:乌特加德)。这一代架构出来的比较早,主要是图形加速IP。可以追溯到2007年的mali-200。不过最让人惊讶的是mali-4xx系列,现在很多电视芯片都还在用这个IP。比如小米的智能电视,还有很多是mali-4xx系列的。

Utgard这一代vertex shader和fragment shader是分离的,arm官方支持的Opengl ES也只维护到2.0。所以Opengl ES 3.0及其以上要求的app是跑不了的。并且OpenCL在这一代中也是不支持的,因为这一代主打图形计算,不怎么支持通用计算。

移动端的GPU主要以基于tile的计算为主,mali的全系列(截止目前)都是基于tile的计算。基于tile的计算可以简单的认为,在进行计算的时候一张图会被划分成若干张小矩形,每个矩形可以认为是一个tile,然后对一个tile进行同时计算。

主要系列有:mali-200, mali-400, mali-450, mali-470

2、Mali的四大架构之二:Midgard

第二代微架构Midgard(北欧神话人物:米德加德)。Midgard这一代GPU开始属于同一着色器的架构,也就是上面说的vertex shader和fragment shader已经统一在一起了,相当于同一个shader计算单元可以处理多种着色器。当然也开始支持计算通用计算。特别是对OpenCL的支持,对通用计算有了很大的支持。OpenGLES 3.1虽然引入了compute shader,但是说起通用计算,OpenCL显然更加专业。

这个架构是基于128bit向量的,所以在编程的时候往往用4个float编程了能最大发挥其性能。当然,编译器也会把某些可以进行优化的计算合并成向量进行计算,不过最好在编码阶段自行优化。编译器编译的优化比较难以去把握。当然,也不建议用大于128bit的方式进行编程,最终需要编译器拆成多个数的运算,且每个数的位宽最大为128bit,如果编译器优化不好,反而会导致性能下降。

主要系列有:mali-t6xx, mali-t7xx, mali-t8xx

3、Mali的四大架构之三:Bifrost

第三代微架构Bifrost(北欧神话中连接天宫和大地的:彩虹桥)。由于这一代产品基本在2016年后发布的了,而OpenGLES在2016年后基本稳定了,所以相对于Midgard来说,在大方向上图形计算这块也没有多大的需要调整。

在Bifrost(Bifrost上更像是SIMT的模式,这里用SIMT表述也是我从多个文档资料推敲出来的)上会先把向量拆成标量,然后每个线程跑多维向量的第一维,因此对于三维向量 vec3向量最快只需要3个cycle,对于思维向量vec4最快只需要4个cycle。这里用了最快这个表述是因为并不是所有的指令都是单个cycle的。

当然,虽然bifrost架构是标量运算的,这是针对32bit的位宽来说的,如果是16bit位宽的计算,一个线程是可以在一个cycle内处理一个vec2的16bit数据的。因此在编程的时候,如果是8bit或者16bit的数据,用于应该考虑如何组织代码使得更有效的组合运算,例如16bit位宽的情况,尽量是用vec2,8bit位宽的尽量用vec4。

对于Bifrost,例如G76,一个shader core可以同时运行几十个线程,,从mali的资料显示,shader core一般由三个部分组成,ALU,L/S,TEXTURE三个主要模块。在G76上是8-wide wrap的,一般设置为3个ALU。(其余的型号可能不一样,例如G51/G72是4-wide wrap的,G72同样是3个ALU;G52跟G76一样,不过G52可配置成2个ALU的)

对于AI加速方面,部门系列也有一些指令修改,例如G52和G76都引入了int8 dot指令,该指令针对神经卷积网络的运算做了优化。

主要系列有:mali-g31, mali-g51, mali-g71, mali-g52, mali-g72, mali-g76

4、Mali的四大架构之四:Valhall

第四代微架构Valhall是2019年第二季度推出来的。该系列的是基于超标量实现的。对于G77,使用的时16-wide的wrap,单个shader core集成两个计算引擎。

主要系列有:mali-g57, mali-g77

最后,本文简要的梳理了下mali gpu架构的一些情况,同时对不同架构上的一些计算资源进行简要描述,希望能给看到的朋友提供一些有用的信息,本人也会继续研究单个系列甚至单个芯片更多资源配置的情况,感谢各位的关注。同时,也吐槽一下,Mali系列的芯片命名在Bifrost和Valhal系列没有区分开,特别的截止(2020.03.15),单纯从mali-g51, mali-g71, mali-g52, mali-g72,mali-g57, mali-g77,很难区分最后两个型号是Valhall的架构。这个命名不知道mali是怎么考虑的,着实令人难解。

责编:EditorDan

阅读全文,请先
您可能感兴趣
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
随着AI和量子计算等前沿领域的快速发展,GlobalFoundries、Tower Semiconductor以及多家公司正积极迎接硅光子技术带来的新机遇。这项新兴技术有望为二线代工厂带来竞争优势,并推动全球芯片制造技术的多样化发展。
随着制程技术的不断升级,芯片制造成本也大幅攀升。苹果从A7芯片的晶圆价格5000美元,到A17和A18 Pro芯片的18000美元,晶圆成本上涨了约300%。每平方毫米的成本从A7时期的0.07美元增加到A17和A18 Pro的0.25美元......
实际上,联发科放弃2纳米是明智之举。台积电N3P工艺已经相对成熟,具备较高的良率和可靠性,与其跟风2纳米,不如做稳N3P。
三星在 HBM3E市场落后于SK Hynix,正计划通过采用先进工艺最大限度地提高 HBM4 的性能。三星电子的存储业务部门成功完成了HBM4内存逻辑芯片的设计,并交由Foundry业务部采用4nm工艺进行试产......
格芯与IBM双方就长期的法律纠纷达成和解,此次和解不仅是两家公司之间的一次重要转折点,也对整个半导体行业产生了积极影响,也为双方未来在半导体领域的合作铺平了道路......
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
2025年1月9日,美国 拉斯维加斯丨全球瞩目的国际消费电子产品展(CES 2025)盛大开幕,来自世界各地的科技巨头与创新企业齐聚一堂共同展示最新的科技成果。中国高性能微控制器产品及嵌入式解决方案提供商上海先楫半导体科技有限公司(先楫半导体,HPMicro)闪耀登场,发布了专注于机器人运动与控制的高性能MCU产品——HPM6E8Y系列,为火热的机器人市场注入新的活力。
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
来源:《中国半导体大硅片年度报告2024》2016 年至 2023 年间,全球半导体硅片(不含 SOI)销售额从 72.09 亿美元上升至121.29 亿美元,年均复合增长率达 7.72%。2016
小米15 Ultra目前已经三证齐全,静待2月份发布了,大概率会是2025年第一款超大杯旗舰。博主定焦数码最新公布了一张该机的渲染图,后摄区域是根据内部结构绘制,展示了全新的排列方式。四摄呈L形排列,
今天推荐的视频介绍了单片机(MCU)和数字信号控制器(DSC)之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch
近日,联想在CES 2025展会上展示了全球首款卷轴屏PC——ThinkBook Plus Gen 6。据悉,ThinkBook Plus Gen 6卷轴屏AI PC的核心魅力在于其独有的可卷曲显示屏
CES 2025,黑芝麻智能携旗下华山系列、武当系列芯片参展,并带来与产业链伙伴的合作新进展。1月8日,黑芝麻智能与汽车嵌入式互联软件产品和解决方案供应商Elektrobit联合发布了基于武当系列C1
中国上海,2025年1月9日——中微半导体设备(上海)股份有限公司(以下简称“中微公司”,上交所股票代码:688012)和南昌中微半导体设备有限公司共同拥有的发明专利“一种化学气相沉积装置及其清洁方法
    大联大控股宣布,其旗下世平推出基于安森美(onsemi)NCP5156x芯片的双通道隔离驱动IC评估板方案。    图
日前,微信安卓版迎来8.0.56正式版更新,这是2025年首次版本更新。关于更新内容,依然是那9个字:“修复了一些已知问题”。虽然官方没有公布具体更新内容,但体验后发现,新版增加了朋友圈视频倍速播放等
近日,闻泰科技在一场电话会议中阐述了其出售ODM(原始设计制造)业务的战略考量。           闻泰科技表示,基于地缘政治环境变化,考虑到 ODM 业务稳健发展和员工未来发展利益最大化,公司对战
 △广告 与正文无关 1月3日,The Elec援引电子元件专业媒体内容表示,尽管取代中国PCB的努力仍在继续,但预计到2028年,中国(包括大陆和台湾省)在全球PCB销售中的份额将超过60%,在市场