此前我们针对IPU虽多有解读,而且也提到它在某些特定工作中(比如此前和微软Azure合作中,在BERT语言模型training和inference;与百度合作,在Deep Voice 3模型training等)的性能、效率表现远超GPU。不过这是一家之言……

前年Aspencore的双峰会上,我们采访Graphcore CEO Nigel Toon之时就曾谈到过Graphcore的IPU处理器尚未参与AI业界比较知名的MLPerf基准测试。当时Nigel Toon和Graphcore高级副总裁兼中国区总经理卢涛都表示,Graphcore的资源还比较有限,这一阶段“仍需聚焦开发核心软件特性,以及和客户一同进行一些应用场景的落地”。

Graphcore高级副总裁兼中国区总经理 卢涛

其实6月初MLCommons(MLPerf基准测试的发起主体)发布的Board Members名单中,就能看到有三名新成员加入。其中一位就是Graphcore的战略与业务开发执行副总裁Jon Khazam——这位也是业内名人。所以这次Graphcore参与到MLPerf基准测试中,也是意料之中的。

来看看IPU的测试成绩

此前我们针对IPU虽多有解读,而且也提到它在某些特定工作中(比如此前和微软Azure合作中,在BERT语言模型training和inference;与百度合作,在Deep Voice 3模型training等)的性能、效率表现远超GPU。不过这是一家之言,用卢涛的话来说,MLPerf更像是把大家“拉到同一个维度里对话”,“对于业界具备较大的参考意义”。

藉由Poplar生成的ResNet-50和BERT的graph图——此前我们还解读过这种专属于Graphcore的可视化呈现,这种可视化在我们看来也是Graphcore的形象代表

MLPerf基准测试有Training(训练)和Inference(推理)两部分,面向图像分类、对象检测、翻译、NLP、推荐系统、强化学习等都有对应的测试。这次Graphcore参与的是MLPerf Training v1.0中的ResNet-50和BERT两项——分别是CV(计算机视觉)和NLP(自然语言处理)应用中比较具有代表性的模型。

而Graphcore用于基准测试的硬件设备,分别是IPU-POD16和IPU-POD64,此前我们也撰文提到过IPU-M2000的算力扩展。测试中,IPU-POD16是4个1U的IPU-M2000,加1台双路服务器(dual-CPU x86 server),算力标称为4 PetaFLOPS;IPU-POD64则是由16个IPU-M2000组成,4台双路服务器,算力16 PetaFLOPS。卢涛表示,BERT模型training配1台x86服务器,而ResNet-50模型training则配4台。卢涛还说,未来有做更大规模集群的性能提交计划。

测试结果如上图。这里BERT模型training成绩中,Closed和Open的区别在于,Closed是完全按照MLPerf规定的网络架构优化方式和硬件配置测得的成绩;而Open则是Graphcore“提交中稍微改动了一下网络架构”后的成绩。这张图可以体现,IPU做算力扩展时的效率,尤其在BERT模型training中,IPU-POD64可以达成相比IPU-POD16大约3.5倍的性能优势,性能折损较小。

和英伟达这次参与测试所用的DGX A100 80GB比较(总共8张卡,也就是640GB总的HBM显存容量),ResNet-50和BERT模型training任务下,5U的IPU-POD16虽然相比6U的DGX A100 640GB的training时间会更久,但从Performance/TCO也就是性价比的角度来看,IPU-POD16还是有优势的;具体优势如上图所示。

毕竟DGX A100 640GB价格接近30万美元,这里IPU-POD16的价格,据说是合作伙伴给出的目录价。这个对比实际上没有给出另一个功耗维度的考量,在TCO总拥有成本中,散热、电力等开支都是其中的组成部分。从理论上来说,IPU应该会比GPU有着更高的效率,所以在特定任务下的性价比优势可能会更大。不过更具体的开发项目可能还需要考虑开发成本。这就涉及到厂商的生态构建能力了,这一点英伟达大概会更占优。从总体上,可能需要具体问题具体分析。

在性能测试结果这部分,卢涛还特别提到ResNet-50存在已经有5年时间,“5年对人工智能发展来说不短了。而一些新的CV模型如EfficientNet,就不在MLPerf的任务列表中。这种新型的CV模型在IPU上的性能表现更好。”所以Graphcore也对比了EfficientNet-B4模型training性能。这项测试里,IPU-POD16的吞吐就有比较大的优势,所以单纯以设备性能除以设备价格,性价比优势也顺势扩大到了3.8倍。“这从某种意义上佐证了IPU的巨大潜力,尤其是面向一些新型的算法模型的时候。”卢涛说。不过这可能也和Graphcore当前的努力方向有关,比如下文将提到Graphcore在EfficientNet模型上有对应的研究成果。

值得一提的是,这里并没有给出IPU-POD64的比较,或许是因为在算力扩展的效率折损中,带来的性价比优势会相对收窄。

持续走向完善的AI芯片

Graphcore能够参与到MLPerf测试中,其实也很大程度表明了Graphcore这家公司正全面走向发展正轨;另一方面则是像Graphcore这种在AI芯片领域颇具行业代表性的新兴力量,更多地加入MLPerf测试,也是AI行业在飞速发展的佐证。

可类比的是,当年GPU从专用的图形处理器,发展到后来可实现CUDA编程和应用于AI之时,就是英伟达公司规模持续扩大,公司内部将更多注意力转向软件、工具,完善开发生态的过程。像IPU这样的AI处理器也必然经历这样的过程。

比较有趣的是,这次Graphcore中国工程总负责人、AI算法科学家金琛公布了Graphcore在SDK优化方面进步的一些数字。下面这张图中,对比的是Poplar SDK 1.4、2.0和2.1版本在不同模型training吞吐方面的性能提升(基于相同的IPU-POD16硬件)。SDK 1.4其实是Graphcore去年底才发布的,而今年一季度2.0就问世了,2.1则在6月份发布——版本递进速度的确相当快,不同模型下的性能提升也很显著。

“对于Graphcore这样一个500人左右的公司来说,能在半年内取得这样的提升,可以说是相当显著的成果了。”金琛说。这一点的确相当值得肯定。英伟达现如今在GTC上普遍都会谈通过软件、工具、库等的优化,实现同等硬件之下的性能提升。所以英伟达现在也总说自己不是一家芯片公司。这好像也是众多AI芯片厂商普遍在摸索和发展的方向,是生态建设能力的体现。

Graphcore中国工程总负责人 AI算法科学家 金琛

“BERT-Large模型的整体性能提升了1.5倍以上。对于BERT-Large第一阶段预训练(SL128)吞吐量的来说,其SDK 1.4的吞吐量是大概2700,SDK 2.0是大概3700,SDK 2.1是4000多。”“CV图像分类方面,EfficientNet在SDK 2.1上的性能和SDK 1.4相比提升了1.5倍。”金琛表示。

这其中能看出提升最为显著的是ResNet-50模型,SDK 2.1相比1.4性能提升了2.1倍。“这是发挥了我们SDK中的比较显著的两个feature的作用:一是post I/O的overlap,即在CPU和IPU间进行任务处理时,在图像传输的过程中会与计算发生重叠,这样可以更好地利用IPU的计算资源。另外,我们在算子库和Tile Memory Layout方面也取得了一些进步,使得我们在算子方面有所提升。”

针对2.1倍的提升,金琛给我们作了更多的解释:“训练ResNet时,配置四个机头(4台x86 CPU服务器),四个机头中每一个Host都起了四个Instance,基本有16个process去处理图像pre-process的过程。这样带来的好处是数据的pre-load部分就不会再成为计算瓶颈。这样的‘多进程’可以大大缩短pre-process在整个训练过程中的占比。”

这些都能很大程度表明Graphcore在快速发展,甚至和1年前我们认识的Graphcore相比都大不一样。我们倒是认为,随Graphcore在AI研究中的愈发驾轻就熟,这次公布的成绩并不能完全体现IPU硬件层面的真正实力,将来的提升空间可能还会很大。

卢涛说:“参加MLPerf Benchmark需要较大的投入。我们有十几个团队成员直接、间接地参与了这个项目,投入了至少半年以上的时间。”过去Graphcore作为初创公司的资源比较有限,而现在“Graphcore整体软硬件,尤其是软件和生态更加成熟完善,公司整体实力和之前相比也更加雄厚。所以我们参加了MLPerf Training v1.0的Benchmark,后续也有持续投入的计划。”

金琛提到,在参与MLPerf基准测试的过程中,还诞生了几篇颇具意义的research paper,分别是Graphcore针对EfficientNet所作的一些工作(Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training)和“使用pretraining BERT,使得BERT性能得到两倍的提升”。这些都是IPU生态完善中的佐证。

责编:Luffy Liu

 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
不管怎么样,英特尔仍在努力推进18A芯片工艺,以期未来在最先进的芯片工艺上能与台积电、三星有一定的领先优势,毕竟其已经率先拿到ASML两台最先进的High NA(高数值孔径)EUV光刻机。未来,英特尔没有选择,只有抓住任何的可能性,硬着头皮上。
一直听说x86指令集天生做不了低功耗,真的是这样吗?这篇文章着重谈谈酷睿Ultra二代是怎么考量低功耗的,有没有可能做到低功耗...
Xockets认为,英伟达凭借侵犯该企业专利的DPU产品垄断了AI GPU服务器市场,而微软则垄断了支持GPU的AI平台领域。此外,Xockets还称这两家科技公司就授权费建立了垄断同盟。
经营业绩下滑,以及在代工业务上的巨额亏损以及市场需求疲软,也或是英特尔出售Mobileye股份的重要原因之一。
英伟达的CUDA生态系统和高性能AI GPU仍将作为核心竞争力,但要支撑其像以往那样的飞速的发展态势,必然要面临更大的挑战,或者已到增长的天花板。
Intel刚刚发布了至强W-2500与W-3500系列处理器,最高60个核心,面向工作站设备。现在的工作站,相比从前似乎已经大不一样了...
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
文|萝吉今年下半年开始,国内新能源市场正式跨过50%历史性节点,且份额依然在快速增长——7月渗透率破50%,8月份破55%……在这一片勃勃生机万物竞发的景象下,新能源市场占比最高的纯电车型,却在下半年
文|德福很多去成都旅游的朋友都有个疑惑——为什么在成都官方的城市标志上看不到熊猫,而是一个圆环?其实这个“圆环”大有来头,它被唤作太阳神鸟,2001年出土于大名鼎鼎的金沙遗址,距今已有三千余年历史。0
‍‍Mobileye 将终止内部激光雷达开发Mobileye 宣布终止用于自动驾驶的激光雷达的开发,并裁员 100 人。Mobileye 认为,下一代 FMCW 激光雷达对可脱眼的自动驾驶来说必要性没
天眼查信息显示,天津三星电子有限公司经营状态9月6日由存续变更为注销,注销原因是经营期限届满。该公司成立于1993年4月,法定代表人为YUN JONGCHUL(尹钟撤),注册资本约1.93亿美元,
据市场调查机构Allied Market Research的《单晶硅晶圆市场》报告指出,2022年单晶硅晶圆市场价值为109亿美元,预计到2032年将达到201亿美元,2023年~2032年的复合年均
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金
随着汽车智能化升级进入深水区,车载ECU(域)以及软件复杂度呈现指数级上升趋势。尤其是多域、跨域和未来的中央电子架构的普及,以及5G/V2X等车云通信的增强,如何保障整车的信息与网络安全,以及防范外部
近日,3个电驱动项目迎来最新进展,包括项目量产下线、投产、完成试验等,详情请看:[关注“行家说动力总成”,快速掌握产业最新动态]青山工业:大功率电驱项目下线9月5日,据“把动力传递到每一处”消息,重庆