此前我们针对IPU虽多有解读,而且也提到它在某些特定工作中(比如此前和微软Azure合作中,在BERT语言模型training和inference;与百度合作,在Deep Voice 3模型training等)的性能、效率表现远超GPU。不过这是一家之言……

前年Aspencore的双峰会上,我们采访Graphcore CEO Nigel Toon之时就曾谈到过Graphcore的IPU处理器尚未参与AI业界比较知名的MLPerf基准测试。当时Nigel Toon和Graphcore高级副总裁兼中国区总经理卢涛都表示,Graphcore的资源还比较有限,这一阶段“仍需聚焦开发核心软件特性,以及和客户一同进行一些应用场景的落地”。

Graphcore高级副总裁兼中国区总经理 卢涛

其实6月初MLCommons(MLPerf基准测试的发起主体)发布的Board Members名单中,就能看到有三名新成员加入。其中一位就是Graphcore的战略与业务开发执行副总裁Jon Khazam——这位也是业内名人。所以这次Graphcore参与到MLPerf基准测试中,也是意料之中的。

来看看IPU的测试成绩

此前我们针对IPU虽多有解读,而且也提到它在某些特定工作中(比如此前和微软Azure合作中,在BERT语言模型training和inference;与百度合作,在Deep Voice 3模型training等)的性能、效率表现远超GPU。不过这是一家之言,用卢涛的话来说,MLPerf更像是把大家“拉到同一个维度里对话”,“对于业界具备较大的参考意义”。

藉由Poplar生成的ResNet-50和BERT的graph图——此前我们还解读过这种专属于Graphcore的可视化呈现,这种可视化在我们看来也是Graphcore的形象代表

MLPerf基准测试有Training(训练)和Inference(推理)两部分,面向图像分类、对象检测、翻译、NLP、推荐系统、强化学习等都有对应的测试。这次Graphcore参与的是MLPerf Training v1.0中的ResNet-50和BERT两项——分别是CV(计算机视觉)和NLP(自然语言处理)应用中比较具有代表性的模型。

而Graphcore用于基准测试的硬件设备,分别是IPU-POD16和IPU-POD64,此前我们也撰文提到过IPU-M2000的算力扩展。测试中,IPU-POD16是4个1U的IPU-M2000,加1台双路服务器(dual-CPU x86 server),算力标称为4 PetaFLOPS;IPU-POD64则是由16个IPU-M2000组成,4台双路服务器,算力16 PetaFLOPS。卢涛表示,BERT模型training配1台x86服务器,而ResNet-50模型training则配4台。卢涛还说,未来有做更大规模集群的性能提交计划。

测试结果如上图。这里BERT模型training成绩中,Closed和Open的区别在于,Closed是完全按照MLPerf规定的网络架构优化方式和硬件配置测得的成绩;而Open则是Graphcore“提交中稍微改动了一下网络架构”后的成绩。这张图可以体现,IPU做算力扩展时的效率,尤其在BERT模型training中,IPU-POD64可以达成相比IPU-POD16大约3.5倍的性能优势,性能折损较小。

和英伟达这次参与测试所用的DGX A100 80GB比较(总共8张卡,也就是640GB总的HBM显存容量),ResNet-50和BERT模型training任务下,5U的IPU-POD16虽然相比6U的DGX A100 640GB的training时间会更久,但从Performance/TCO也就是性价比的角度来看,IPU-POD16还是有优势的;具体优势如上图所示。

毕竟DGX A100 640GB价格接近30万美元,这里IPU-POD16的价格,据说是合作伙伴给出的目录价。这个对比实际上没有给出另一个功耗维度的考量,在TCO总拥有成本中,散热、电力等开支都是其中的组成部分。从理论上来说,IPU应该会比GPU有着更高的效率,所以在特定任务下的性价比优势可能会更大。不过更具体的开发项目可能还需要考虑开发成本。这就涉及到厂商的生态构建能力了,这一点英伟达大概会更占优。从总体上,可能需要具体问题具体分析。

在性能测试结果这部分,卢涛还特别提到ResNet-50存在已经有5年时间,“5年对人工智能发展来说不短了。而一些新的CV模型如EfficientNet,就不在MLPerf的任务列表中。这种新型的CV模型在IPU上的性能表现更好。”所以Graphcore也对比了EfficientNet-B4模型training性能。这项测试里,IPU-POD16的吞吐就有比较大的优势,所以单纯以设备性能除以设备价格,性价比优势也顺势扩大到了3.8倍。“这从某种意义上佐证了IPU的巨大潜力,尤其是面向一些新型的算法模型的时候。”卢涛说。不过这可能也和Graphcore当前的努力方向有关,比如下文将提到Graphcore在EfficientNet模型上有对应的研究成果。

值得一提的是,这里并没有给出IPU-POD64的比较,或许是因为在算力扩展的效率折损中,带来的性价比优势会相对收窄。

持续走向完善的AI芯片

Graphcore能够参与到MLPerf测试中,其实也很大程度表明了Graphcore这家公司正全面走向发展正轨;另一方面则是像Graphcore这种在AI芯片领域颇具行业代表性的新兴力量,更多地加入MLPerf测试,也是AI行业在飞速发展的佐证。

可类比的是,当年GPU从专用的图形处理器,发展到后来可实现CUDA编程和应用于AI之时,就是英伟达公司规模持续扩大,公司内部将更多注意力转向软件、工具,完善开发生态的过程。像IPU这样的AI处理器也必然经历这样的过程。

比较有趣的是,这次Graphcore中国工程总负责人、AI算法科学家金琛公布了Graphcore在SDK优化方面进步的一些数字。下面这张图中,对比的是Poplar SDK 1.4、2.0和2.1版本在不同模型training吞吐方面的性能提升(基于相同的IPU-POD16硬件)。SDK 1.4其实是Graphcore去年底才发布的,而今年一季度2.0就问世了,2.1则在6月份发布——版本递进速度的确相当快,不同模型下的性能提升也很显著。

“对于Graphcore这样一个500人左右的公司来说,能在半年内取得这样的提升,可以说是相当显著的成果了。”金琛说。这一点的确相当值得肯定。英伟达现如今在GTC上普遍都会谈通过软件、工具、库等的优化,实现同等硬件之下的性能提升。所以英伟达现在也总说自己不是一家芯片公司。这好像也是众多AI芯片厂商普遍在摸索和发展的方向,是生态建设能力的体现。

Graphcore中国工程总负责人 AI算法科学家 金琛

“BERT-Large模型的整体性能提升了1.5倍以上。对于BERT-Large第一阶段预训练(SL128)吞吐量的来说,其SDK 1.4的吞吐量是大概2700,SDK 2.0是大概3700,SDK 2.1是4000多。”“CV图像分类方面,EfficientNet在SDK 2.1上的性能和SDK 1.4相比提升了1.5倍。”金琛表示。

这其中能看出提升最为显著的是ResNet-50模型,SDK 2.1相比1.4性能提升了2.1倍。“这是发挥了我们SDK中的比较显著的两个feature的作用:一是post I/O的overlap,即在CPU和IPU间进行任务处理时,在图像传输的过程中会与计算发生重叠,这样可以更好地利用IPU的计算资源。另外,我们在算子库和Tile Memory Layout方面也取得了一些进步,使得我们在算子方面有所提升。”

针对2.1倍的提升,金琛给我们作了更多的解释:“训练ResNet时,配置四个机头(4台x86 CPU服务器),四个机头中每一个Host都起了四个Instance,基本有16个process去处理图像pre-process的过程。这样带来的好处是数据的pre-load部分就不会再成为计算瓶颈。这样的‘多进程’可以大大缩短pre-process在整个训练过程中的占比。”

这些都能很大程度表明Graphcore在快速发展,甚至和1年前我们认识的Graphcore相比都大不一样。我们倒是认为,随Graphcore在AI研究中的愈发驾轻就熟,这次公布的成绩并不能完全体现IPU硬件层面的真正实力,将来的提升空间可能还会很大。

卢涛说:“参加MLPerf Benchmark需要较大的投入。我们有十几个团队成员直接、间接地参与了这个项目,投入了至少半年以上的时间。”过去Graphcore作为初创公司的资源比较有限,而现在“Graphcore整体软硬件,尤其是软件和生态更加成熟完善,公司整体实力和之前相比也更加雄厚。所以我们参加了MLPerf Training v1.0的Benchmark,后续也有持续投入的计划。”

金琛提到,在参与MLPerf基准测试的过程中,还诞生了几篇颇具意义的research paper,分别是Graphcore针对EfficientNet所作的一些工作(Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training)和“使用pretraining BERT,使得BERT性能得到两倍的提升”。这些都是IPU生态完善中的佐证。

责编:Luffy Liu

 

本文为EET电子工程专辑原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
阅读全文,请先
您可能感兴趣
今年初的GTC上,黄仁勋就说机器人的“ChatGPT时刻”要来了。也就是说这波AI驱动的机器人热潮要来了...最近的ROSCon China 2024大会似乎也能看到这种迹象...
Intel刚刚发布了新一代桌面显卡Arc B580和B570,关键是还支持AI帧生成和低延迟...
Arm预计,到2025年将会有1,000亿台基于Arm架构的设备可具备人工智能功能,包括由Cortex-A、Cortex-M驱动的设备。
人工智能(AI)功能已经在各种移动设备中变得至关重要。尤其是2024年,AI PC陆续推向市场,甚至可以称为“边缘设备AI元年”。 这次我们就来盘点一下2024年下半年发布的主要AI PC和处理器。
借着传说中Intel在中国举办的有史以来规模最大的生态大会,谈谈AI PC生态于2024收官之际大致发展到了哪儿...
台积电的1.6纳米芯片“A16”技术具有多项创新点,其中最显著的是其超级电源轨(SPR)背面供电网络。这一技术是台积电首创,专为高性能计算产品设计,旨在提高芯片的性能和降低功耗。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:观察者网12月18日消息,自12月2日美国发布新一轮对华芯片出口禁令以来,不断有知情人士向外媒透露拜登政府在卸任前将采取的下一步动作。美国《纽约时报》12月16日报道称,根据知情人士以及该报查阅
12月18日,珠海京东方晶芯科技举行设备搬入仪式。插播:加入LED显示行业群,请加VX:hangjia188在10月31日,珠海京东方晶芯科技有限公司发布了Mini/Micro LED COB显示产品
对于华为来说,今年的重磅机型都已经发完了,而明年的机型已经在研发中,Pura 80就是期待很高的一款。有博主爆料称,华为Pura 80将会用上了豪威OV50K传感器,同时电池容量达到5600毫安时。至
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
近期,高科视像、新视通、江苏善行智能科技等企业持续扩充COB产能。插播:加入LED显示行业群,请加VX:hangjia188■ 高科视像:MLED新型显示面板生产项目(二期)招标12月18日,山西高科
 “ 担忧似乎为时过早。 ”作者 | RichardSaintvilus编译 | 华尔街大事件由于担心自动驾驶汽车可能取消中介服务,Uber ( NYSE: UBER ) 的股价在短短几周内从 202
又一地,新型储能机会来了?■ 印度:2032储能增长12倍,超60GW据印度国家银行SBI报告,印度准备大幅提升能源存储容量,预计到2032财年将增长12 倍,超60GW左右。这也将超过可再生能源本身