微软Azure利用大规模的Nvidia驱动实例,在最新一回合的MLPref人工智能训练性能测试基准跑分展现了世界速度最快的AI云端系统...

最新一回合的MLPref人工智能(AI)训练性能测试基准跑分结果出炉,微软(Microsoft) Azure利用大规模的Nvidia驱动实例,展现了世界速度最快的AI云端系统。Azure的NDm A110 v4系列虚拟机以2,048颗Nvidia A100-80GB绘图处理器(GPU)进行跑分,每一项测试都是在18分钟之内完成。

在8项不同工作负载的封闭赛程(closed division)性能测试中,Nvidia以内含高达4,320颗A100加速器的系统,拔得其中7项测试的头筹。微软Azure则于第八项测试(医疗图像)取得领先地位。AI芯片新秀Graphcore与Habana Labs也在ResNet-50和BERT两项性能测试上取得了进步的成果。

微软Azure

微软Azure的MLPref跑分结果在全球前100大超级计算机中排名第十。Nvidia内部的AI超级计算机Selene,规模是前者的两倍,目前排名世界第六。

Azure的NDm A110 v4系列虚拟机,依需求可从1台扩充到256台,或者说从8颗GPU扩充至2,048颗。在Azure云端就利用了2,048颗GPU,展现了在仅超过25秒多一点点的时间内,就能完成整个BERT自然语言处理模型训练的能力。而最困难的MiniGo性能测试基准,Azure以1,792颗GPU、在低于17.5分钟的时间内完成训练。

此外Azure在3D医疗图像的3D Unet性能测试基准项目上取得第一,利用768颗GPU,以1.262分钟完成训练(Nvidia采用768颗GPU的系统在3D Unet项目跑分结果是1.373分钟)。而微软的目标之一,就是展示Azure云端性能可以与现场部署设备媲美。

Nvidia

Nividia参与测试的系统则是为了展现执行大规模AI训练的能力。“扩充至更大的丛集实际上是AI训练时最困难的部分,而Nvidia的AI平台在这方面拥有庞大的优势;”Nvidia加速运算产品管理资深总监Paresh Kharya表示:“扩充性真的很重要,因为所有事情都会成为瓶颈,这是很困难的问题,从分配、协调工作到数据的移动,每件事都会成为瓶颈。”

Kharya表示,就算是Selene系统,进行庞大、最先进模型的训练可能也会需要花费几个月的时间,而不具备扩充性,就无法让最新AI模型有所进展。规模也很重要;他指出,AI项目的快速进化能力是关键,“我们常见的一个错误认知是,只利用训练模型的基础建设成本来考虑(投资报酬率);但使用者不只该关心基础建设成本,也要注意他们昂贵的数据科学团队生产力,以及最终的产品上市/更新时间是否能比竞争对手更快。”

Selene以4,320颗GPU进行性能测试基准跑分,是这一回合测试中规模最大的系统。Nvidia表示,与Graphcore最快的系统(采用256个加速器)相较,其跑分结果在速度上快了30倍,而比起Habana Labs的最大系统(同样采用256个加速器),Nvidia系统则是快了53倍。

所有项目的AI训练性能基准检验跑分结果,时间越短表现越好。这里的跑分结果比较了配备不同数量加速器的系统,其中Google TPU v4的跑分结果来自于前一回合MLPref的测试。

(数据源:Nvidia)

在个别加速器芯片的效能上,Nvidia则宣称它胜过了Graphcore和Habana Labs的加速器;不过仍落后Google TPU v4在前一回合性能测试中的ResNet-50训练模型跑分。而Nvidia强调,自2020年7月(A100问世时)以来,其MLPref训练跑分的表现稳定进步,以Nvidia A100为基础的系统性能表现整体快了五倍,在芯片层级则快了两倍。

其性能的提升得益于软件上的变化,包括透过同步而非连续地启动整个核心序列的CUDA绘图技术减少CPU的瓶颈,因此整个训练演进都直接在GPU上执行。CUDA串流透过导入一个微调过的运算与通信的重迭,来改善其平行性。

此外Nvidia的NCCL和 SHARP技术被用来改善多GPU和多节点的处理作业。NCCL利用现有的带宽和网络等待时间来优化数据聚合;SHARP则透过将CPU的运作分摊至交换器,来免除不同端点和服务器间多次传送数据的需要。同时,更新版的MX网络配置,改善了串接(concatenation)和区分(split)等运作的所需的内存复制效率。

以Nvidia的A100作为基准之性能正规化(normalized)至每个加速器芯片的结果;数字越高表现越好。其中Google TPU v4的跑分结果也是来自前一回合的MLPref测试。

(数据源:Nvidia)

Graphcore

Graphcore则展示了较大系统的可扩充性,包含那些具备128和256颗IPU加速器的系统。在16和64颗加速器的系统方面,Graphcore的IPU-POd16在ResNet-50模型的跑分进步了24% ,IPU-Pod64则进步了41%。BERT模型部分,IPU-Pod16的跑分进步了5%,IPU-Pod64跑分进步了12%;这再次说明,软件优化助力了性能提升。

Graphcore将IPU-Pod16的性能基准检验跑分结果与Nvidia的DGX-A100进行比较,就算前者的加速器芯片数量是两倍。Graphcore主张两套系统尺寸差不多(IPU-Pod16是5U,DGX-A100则是6U),在功耗和价格上也相当。不过应注意的是,Graphcore唯一做这种比较的公司。

在以ResNet-50模型进行的性能测试上,Graphecore宣称其IPU-Pod16表现优于Nvidia的DGX-A100 (Graphcore系统花了28.3分钟进行训练;Nvidia系统完成训练的时间则是29.1分钟)。

不同于ResNet-50模型,Graphcore的BERT模型测试跑分,反映了每个加速器配备较少主CPU的系统表现。BERT的跑分是以每32个IPU有一个主CPU的系统为基准,ResNet-50模型的跑分则是以每8个IPU有一个主CPU的系统为基准。

“我们拥有依据每个工作负载变化该属性的弹性,这不常见;” Grapgcore首席软件架构师Dave Lacey指出,“这让我们能够实验…并取得这些效率点。”他强调这种方法允许使用者在单一主服务器上执行更多运算,不需要转移至需要额外基础建设的分布式CPU运算。“

“这也是一个重要的成本因素,”Lacy表示:“所有这些系统都搭载了繁重的CPU,这对系统而言是一个显著的成本。如果你能以最佳比例、最小数量的CPU来摆脱负担,让繁重的任务实际上由加速器来执行,就能针对特定工作负载进行成本优化。”

进行BERT模型训练时,每个Graphcore加速器所需的主CPU数量较少。

(数据源:Graphcore)

Lacey表示,Graphcore的IPU设计是经过深思熟虑,把应用逻辑放在加速器上;主处理器和加速器之间的链接只用于训练数据──他强调,没有程序代码、没有繁重的同步,只有数据。

另一个议题是,减少CPU的数量是根据工作负载以及工作负载使用的数据来决定。Lacey指出:“它是依据需要多少准备,或是有多少其他非AI类型的任务需要在CPU上完成;还有在CPU和加速器之间有多少数据传输。”

其效果对于执行BERT模型的工作负载而言特别显著,其中输入的数据会比其他类别的工作负载所需的图像来得小。像是ResNet-50模型的图像处理工作负载需要额外的非AI任务,例如图像解压缩就比较适合在CPU执行,因此需要更多的主机。在主机与加速器间的以太网络链接,也提供了相应地重新配置主CPU数量的弹性。

Graphcore比较了主CPU和加速器数量的比例,是以单一颗Graphcore芯片对Nvidia芯片或Habana芯片为基础。如果单一Graphcore IPU-Pod16等同于单一的Nvidia DGX-A100,当Graphcore寻求ResNet-50训练时间比较,就需要同样数目的主CPU (但在这个例子中任何优势只针对BERT)。

Habana Labs

英特尔(Intel)旗下的Intel的Habana Labs在第二回合的MLPerf训练性能基准检验,是采用其Gaudi训练加速器芯片。与上一回合相较,Gaudi的BERT模型跑分成果加倍,ResNet-50跑分也提升了11%。Habana也展现出它的Gaudi技术的可扩展性,在朴素缩放(naïve scaling)与弱缩放(weak scaling)上呈现类似的结果(weak scaling并未包括在MLPref的跑分结果中)。

Habana资深研究员Itay Hubara表示,朴素缩放考虑在不同规模系统中所需的训练时间,弱缩放则是来自朴素缩放的结果。通常伴随着样本总数(batch size,即同时馈入系统的训练数据样本数目)增加,加速器的数量也会增加,才能保持硬件充分发挥性能。

但是增加样本总数往往需要更多的反复训练,因为在处理更多数据样本之后,权重会被更新;这意味着需要更多的训练数据,以便在较大的系统当中达到相同的结果。weak scaling是每一次数据处理或相同数据量被处理的朴素缩放分数正规化结果。

在每一回合的MLPref性能基准检验中,Habana的朴素缩放(左)结果与弱缩放(右)结果类似。

(数据源:Habana Labs)

“我们高达64颗Gaudi芯片的系统弱缩放和朴素缩放表现很接近,因为我们不需要增加样本数目,我们能够以一个小的本地样本数目执行;”Hubara表示:“当加速器从8个转换到16个的时候,我不需要将整体样本数目增加到两倍…Guadi的架构让我们能够实现高利用率,甚至我们不需要将馈入设备的样本数目最大化。”

Habana的跑分结果也比上一个回合进步,这又是得益于软件优化的结果。由于数据封包的技术,BERT训练时间少了一半;在训练数据中较短的句子,被以多序列(multi-sequence)方式打包(较短的句子会以0来填充,以达成一个固定的输入尺寸)。数据封包是在预处理过程中进行处理,不算在性能基准训练时间内。

此外Habana也实现了轻度的检查点(checkpoint)节约;减少检查点可显著节省时间,不仅是节省一个检查点,每个工作节省一组模型权重子集,能使速度大幅提升。

而被问到Habana加速器是否能以较少主 CPU来运作,该公司的回答是:“主CPU对Gaudi卡的比例是可以改变的,对我们的Gaudi卡来说不是限制。一套典型的系统有两个Xeon 插槽供8个加速器所用。我们利用这个配置是因为我们的目标是取代以GPU为基础之系统,而且我们的客户偏好双插槽系统。”

Google

Google在这一回合的MLPref训练性能测试中,并未参与封闭赛程的跑分,不过在开放赛程公布了两套非常大型之模型的跑分结果;这两套模型在架构上与MLPref的BERT模型相似,但有更大的维度和更多层数。

其中之一是利用TensorFlow框架,在一套配备2,048个加速器的TPUv4系统上,进行4,800亿参数、以Transformer架构为基础、仅编码器的性能测试基准训练,花费时间约55个小时。另一个跑分结果是以配备1,024颗芯片的TPUv4系统,进行2,000亿参数的JAX模型训练,花费时间约40个小时。Google表示,每一场训练的系统执行可达到63%的计算效率。

完整的MLPref AI训练性能测试基准跑分结果请参考此连结

本文同步刊登于《电子工程专辑》杂志20221

(参考原文:MLPerf Training Scores: Microsoft Demonstrates Fastest Cloud AI,By Sally Ward-Foxton)

责编:Amy.wu
本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
半导体行业正迎来一个新的建设高峰期,SEMI预测,2025年,全球范围内将有18个新的晶圆厂项目开始建设,其中15座为12英寸晶圆厂,3座为8英寸晶圆厂,大部分预计将于 2026 年至 2027 年开始运营......
这款机器人头上的摄像头可以录制视频或使用人工智能识别物体,虽然该机器人的动作仅限于挥动细小的手臂和眨动动画眼睛,但它可以与一把小型电动椅子配对,自动在家中导航。
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
频率梳是一种能够发射多条等间隔频谱线的特殊激光源,广泛应用于光学钟、激光雷达、光谱学和光神经网络等高精度测量领域……
随着AI和量子计算等前沿领域的快速发展,GlobalFoundries、Tower Semiconductor以及多家公司正积极迎接硅光子技术带来的新机遇。这项新兴技术有望为二线代工厂带来竞争优势,并推动全球芯片制造技术的多样化发展。
富士康在一份声明中说,作为苹果公司最大的 iPhone 组装商,富士康第四季度营收增长 15.2%,达到 2.13 万亿新台币(647.2 亿美元),比LSEG SmartEstimate预测的2.1万亿新台币还要高......
• 目前,iPhone在翻新市场中是最热门的商品,并将长期主导着翻新机的平均销售价格。 • 全球翻新机市场持续向高端化发展,其平均销售价格(ASP)现已超过新手机。 • 新兴市场是增长的最大驱动力,消费者对高端旗舰产品有着迫切需求。 • 由于市场固化和供应链的一些问题限制推高中国、东南亚和非洲等大市场的价格。 • 2024年,这些翻新机平均销售价格将首次超过新手机。
从全球厂商竞争来看,三季度凭借多个新品发布,石头科技市场份额提升至16.4%,连续两季度排名全球第一……
2025年1月9日,美国 拉斯维加斯丨全球瞩目的国际消费电子产品展(CES 2025)盛大开幕,来自世界各地的科技巨头与创新企业齐聚一堂共同展示最新的科技成果。中国高性能微控制器产品及嵌入式解决方案提供商上海先楫半导体科技有限公司(先楫半导体,HPMicro)闪耀登场,发布了专注于机器人运动与控制的高性能MCU产品——HPM6E8Y系列,为火热的机器人市场注入新的活力。
最新Wi-Fi HaLow片上系统(SoC)为物联网的性能、效率、安全性与多功能性设立新标准,配套USB网关,可轻松实现Wi-Fi HaLow在新建及现有Wi-Fi基础设施中的快速稳健集成
01周价格表02周价格观察硅料环节本周硅料价格:N型复投料主流成交价格为40元/KG,N型致密料的主流成交价格为38元/KG;N型颗粒硅主流成交价格为35元/KG。供给动态头部料企继续推进减产策略,月
今天推荐的视频介绍了单片机(MCU)和数字信号控制器(DSC)之间的差异、Microchip DSC的单核和双核架构、DSC的应用示例以及可将您的设计推向市场的开发资源。更多更全视频尽在Microch
CES 2025,黑芝麻智能携旗下华山系列、武当系列芯片参展,并带来与产业链伙伴的合作新进展。1月8日,黑芝麻智能与汽车嵌入式互联软件产品和解决方案供应商Elektrobit联合发布了基于武当系列C1
手机充电器ic U6773S助推充电便利好享受面对手机存储空间不足的问题,我们可以从多个方面入手,清理缓存、卸载不必要的应用、移动文件至外部存储、使用云存储服务等等。面对手机充电器充电速度慢、效率低的
当地时间2025年1月7日,全球备受期待的技术盛宴——国际消费电子展(CES 2025)在美国拉斯维加斯盛大开幕。作为显示领域的领军企业,天马携一系列前沿创新技术和最新智能座舱解决方案惊艳登场,带来手
日前,国家发展改革委等部门介绍了加力扩围实施“两新”政策有关情况,今年第一批消费品以旧换新资金810亿已经预下达。很多网友没有看懂具体政策,下面快科技给大家简单梳理一下,其实一句话来说就是:国四车、家
近日,闻泰科技在一场电话会议中阐述了其出售ODM(原始设计制造)业务的战略考量。           闻泰科技表示,基于地缘政治环境变化,考虑到 ODM 业务稳健发展和员工未来发展利益最大化,公司对战
这届CES,几乎成了半个车展。尤其是今年多个中国电动车品牌参展,凭借各种华丽的车载科技大放异彩,直接让美国记者看傻了。在体验完极氪001 FR之后,美国知名电动车媒体InsideEVs记者Patric
日前,奥康国际发布公告表示终止发行股份购买资产。根据公告,2024 年 12 月 24 日,奥康国际披露《关于筹划发行股份购买资产事项的停牌公告》,公司拟筹划以发行股份或支付现金的方式购买联和存储科技
1月8日消息,据外媒报道,由于半导体行业需求衰退,日本瑞萨电子将在日本及海外裁员数百人,并且定期加薪也将被推迟!据报道,瑞萨电子在日本和海外有约21,000名员工,本次裁员比例近5%。这一裁员计划已于