尽管Nvidia GPU在 AI 训练领域的主导地位仍然无可争议,但我们可能看到早期迹象表明,在 AI 推理方面,竞争对手正在向这家科技巨头靠拢,尤其是在能效方面。然而,Nvidia 新款Blackwell芯片的纯粹性能可能很难被击败。
今天上午, ML Commons发布了其最新 AI 推理竞赛ML Perf Inference v4.1的结果。本轮比赛包括首次使用AMD Instinct加速器、最新的Google Trillium加速器、多伦多初创公司UntetherAI的芯片的团队提交的作品,以及 Nvidia 新款 Blackwell 芯片的首次试用。另外两家公司Cerebras和FuriosaAI宣布推出新的推理芯片,但未向 MLPerf 提交作品。
MLPerf 就像奥林匹克运动一样,有许多类别和子类别。提交数量最多的是“数据中心封闭”类别。封闭类别(与开放类别相对)要求提交者按原样对给定模型进行推理,而无需进行重大软件修改。数据中心类别测试提交者对查询的批量处理,而边缘类别则侧重于最小化延迟。
每个类别中有 9 个不同的基准,适用于不同类型的 AI 任务。其中包括图像生成(例如Midjourney)和 LLM 问答(例如ChatGPT)等常见用例,以及图像分类、对象检测和推荐引擎等同样重要但不太受关注的任务。
本轮比赛引入了一项名为“ Mixture of Experts.”的新基准。这是 LLM 部署中的一个发展趋势,其中语言模型被分解为几个较小的、独立的语言模型,每个模型都针对特定任务进行微调,例如常规对话、解决数学问题和协助编码。该模型可以将每个查询引导到较小模型或“专家”的适当子集。MLPerf 推理工作组主席兼AMD高级技术人员Miroslav Hodak说,这种方法可以减少每个查询的资源使用量,从而降低成本并提高吞吐量。
在流行的数据中心封闭基准测试中,每个基准测试的获胜者仍然是基于 Nvidia 的 H200 GPU 和 GH200 超级芯片的提交,它们将 GPU 和 CPU 结合在同一个封装中。然而,仔细观察性能结果会发现一个更复杂的情况。一些提交者使用了许多加速器芯片,而另一些提交者只使用了一个。如果我们根据使用的加速器数量对每个提交者每秒能够处理的查询数量进行标准化,并只保留每种加速器类型中性能最好的提交,就会出现一些有趣的细节。(需要注意的是,这种方法忽略了 CPU 和互连的作用。)
以每个加速器为基准,Nvidia 的 Blackwell 在 LLM 问答任务(它提交的唯一基准)上比所有之前的芯片迭代高出 2.5 倍。Untether AI 的 speedAI240 Preview 芯片在其唯一的提交任务(图像识别)中的表现几乎与 H200 相当。谷歌的 Trillium 在图像生成方面的表现略高于 H100 和 H200 的一半,而 AMD 的 Instinct 在 LLM 问答任务上的表现与 H100 大致相当。
Blackwell 的强大
Nvidia Blackwell 成功的原因之一是它能够使用 4 位浮点精度运行 LLM。Nvidia及其竞争对手一直在降低 ChatGPT 等 Transformer 模型部分中用于表示数据的位数,以加快计算速度。Nvidia 在 H100 中引入了 8 位数学运算,此次提交标志着 MLPerf 基准测试中 4 位数学运算的首次演示。
Nvidia 产品营销总监 Dave Salvator表示,使用这种低精度数字的最大挑战是保持准确性。为了保持 MLPerf 提交所需的高精度,Nvidia 团队必须在软件上进行重大创新。
Blackwell 成功的另一个重要贡献是它的内存带宽几乎翻了一番,达到 8 兆字节/秒,而 H200 仅为 4.8 兆字节/秒。
Nvidia 的 Blackwell 方案使用了单芯片,但 Salvator 表示,该方案专为网络和规模而设计,与 Nvidia 的 NVLink互连结合使用时性能最佳。Blackwell GPU 支持最多 18 个 NVLink 100 GB/秒连接,总带宽为 1.8 TB/秒,大约是 H100 互连带宽的两倍。
Salvatore 认为,随着大型语言模型 的规模不断扩大,即使是推理也需要多 GPU 平台才能满足需求,而 Blackwell 就是为这种可能性而构建的。“Blackwell 是一个平台,”Salvator 说。
Nvidia 在预览子类别中提交了 基于Blackwell 芯片的系统,这意味着它尚未出售,但预计将在六个月后的下一个 MLPerf 发布之前上市。
Untether AI 在电力使用和边缘领域大放异彩
对于每个基准测试,MLPerf 还包括一个能源测量对应项,它系统地测试每个系统在执行任务时消耗的电源插头功率。主要赛事(数据中心封闭能源类别)本轮只有两家提交者:Nvidia 和 Untether AI。虽然 Nvidia 参加了所有基准测试,但 Untether 只提交了图像识别。
这家初创公司能够实现如此惊人的效率,是因为它采用了一种名为“内存计算”的方法构建芯片。UntetherAI 的芯片由内存元素网格构成,小型处理器直接散布在它们旁边。这些处理器是并行的,每个处理器都与附近内存单元中的数据同时工作,从而大大减少了在内存和计算核心之间传输模型数据所花费的时间和精力。
Untether AI 产品副总裁罗伯特·比奇勒 (Robert Beachler) 表示:“我们发现,执行 AI 工作负载的 90% 的能量只是将数据从 DRAM 移动到缓存再到处理单元。因此,Untether 所做的就是扭转这种局面......不是将数据移动到计算,而是将计算移动到数据。”
这种方法在 MLPerf 的另一个子类别“边缘闭合”中被证明特别成功。Beachler 表示,此类别面向更多实际用例,例如工厂车间的机器检查、引导视觉机器人和自动驾驶汽车——这些应用的低能耗和快速处理至关重要。
在图像识别任务上(这也是 UntetherAI 报告的唯一结果),speedAI240 Preview 芯片的延迟性能比 NVIDIA L40S 高出 2.8 倍,吞吐量(每秒样本数)高出 1.6 倍。这家初创公司还提交了此类别的功率结果,但其采用 Nvidia 加速的竞争对手却没有,因此很难进行直接比较。但是,UntetherAI 的 speedAI240 Preview 芯片的每芯片标称功耗为 150 瓦,而 Nvidia 的 L40s 的标称功耗为 350 瓦,从而标称功耗降低了 2.3 倍,同时延迟有所改善。
Cerebras 和 Furiosa 跳过MLPerf,但宣布推出新芯片
昨天,在 斯坦福举行的IEEE Hot Chips会议上,Cerebras 推出了自己的推理服务。这家位于加州桑尼维尔的公司制造巨型芯片,其尺寸与硅片的大小相当,从而避免了芯片之间的互连,并大大增加了其设备的内存带宽,这些设备主要用于训练大规模神经网络。现在,它已升级其软件堆栈,以使用其最新的计算机CS3进行推理。
尽管 Cerebras 没有提交给 MLPerf,但该公司声称其平台在每秒生成的 LLM token数量上比 H100 高出 7 倍,比竞争对手 AI 初创公司 Groq 的芯片高出 2 倍。“今天我们正处于 Gen AI 的拨号时代,”Cerebras 首席执行官兼联合创始人 Andrew Feldman 表示。“这是因为存在内存带宽障碍。无论是 Nvidia 的 H100 还是 MI 300 或 TPU,它们都使用相同的片外内存,并且会产生相同的限制。我们突破了这一障碍,我们之所以能做到这一点,是因为我们实现了晶圆级。”
Hot Chips 上还看到了来自首尔的 Furiosa的公告,该公司展示了其第二代芯片 RNGD(发音为“renegade”)。Furiosa 芯片的与众不同之处在于其张量收缩处理器 (TCP) 架构。AI 工作负载的基本运算是矩阵乘法,通常作为硬件中的原语实现。然而,矩阵(一般称为张量)的大小和形状可能差异很大。RNGD 将这个更通用的版本张量的乘法作为原语实现。Furiosa 创始人兼首席执行官June Paik在 Hot Chips 上表示:“在推理过程中,批次大小差异很大,因此利用给定张量形状固有的并行性和数据重用非常重要。”
尽管没有提交给 MLPerf,但 Furiosa 在内部对 RNGD 芯片在 MLPerf 的 LLM 摘要基准上的性能进行了比较。它的性能与 Nvidia 的边缘导向型 L40S 芯片相当,但功耗仅为 185 瓦,而 L40S 的功耗为 320 瓦。Paik 表示,随着软件进一步优化,性能将进一步提高。
IBM还 宣布推出专为企业生成式 AI工作负载设计的新型 Spyre 芯片,将于 2025 年第一季度上市。
至少,在可预见的未来,AI推理芯片市场的购物者不会感到无聊。
参考链接
https://spectrum.ieee.org/new-inference-chips
来源:内容编译自ieee
END