不久前英特尔正式发布了新一代AI加速芯片Gaudi 3 之后,正准备面向中国市场推出“特供版”Gaudi 3,包括名为HL-328的OAM兼容夹层卡(Mezzanine Card)和名为HL-388的PCle加速卡两种硬件形态。英特尔在其Gaudi 3 白皮书中披露了上述信息,其中HL-328将于6月24日推出,HL-388将于9月24日推出。具体硬件规格方面,中国特供版的Gaudi 3 与原版相比,具有相同的96MB SRAM片上内存, 128GB HBM2e高带宽内存,带宽为 3.7TB/s,拥有PCIe 5.0 x16 接口和解码标准。但是,由于美国对于AI芯片的出口管制规则限制,使得这类高性能AI的综合运算性能(TPP)需要低于4800才能出口到中国, 这意味中国特供版的Gaudi 3 的16bit性能不能超过150 TFLOPS。根据英特尔公布的数据显示,Gaudi 3 在 FP16/BF16 上可以达到 1835 TFLOPS,相比英伟达H100在大模型训练方面快40%、推理能效高50%。显然,中国特供版的Gaudi 3 需要大幅降低AI性能,才能合规出口到中国。因此,中国特供版Gaudi 3 需要大幅削减内核数量(原版拥有 8 个矩阵数学引擎和64 个张量内核)和工作频率,最终可能需要其AI性能降低约92%才能符合美国的出口管制要求。英特尔的 Gaudi 3 白皮书详细介绍了两种获准在中国销售的型号。这两款专为中国制造的处理器分别为 HL-328 和 HL-388,分别采用 OAM 和 PCIe 外形规格,前者于 6 月推出,后者于 9 月推出,与其他 PCIe 外形规格的 Gaudi 3 一起推出。总体而言,HL-328 和 HL-388 看起来或多或少与其他产品相同,具有相同的 128GB HBM2e VRAM,带宽为 3.7TB/s、96MB 缓存、PCIe 5.0 x16 接口和解码标准。唯一的区别在于热设计功耗,OAM 和 PCIe 卡型号均为 450 瓦。这与其他型号相比大幅减少。非中国 PCIe HL-338 的 TDP 为 600 瓦,OAM 外形规格 HL-325L 和 HL-335 的 TDP 为 900 瓦。China Gaudi 3 型号的 TDP 相对较低,这可能是没有液冷版本的原因。尽管白皮书中没有明确说明,但几乎可以肯定的是,为了遵守美国政府对处理器的出口管制,做出这些改变是必要的,该管制禁止美国公司根据性能向中国出口芯片。 我们无法真正知道英特尔对 Gaudi 3 做了什么来使其兼容,以及这些批准用于中国的芯片在这些变化中的执行速度有多快,但有一些线索。与其他 Gaudi 3 变体一样,HL-328 和 HL-388 仍然使用两个芯片,因为内存和缓存配置未更改。使用两个芯片而不是一个芯片有助于降低性能密度,从而使芯片能够达到 4,800 总处理能力 (TPP) 的更高出口限制。4,800 TPP 限制意味着没有芯片可以拥有 150 TFLOPS 或更多的 16 位性能,并且由于 Gaudi 3 在 BF16 下可以达到 1,835 TFLOPS,因此英特尔需要大幅降低性能。这必须通过真正大规模削减核心数量和时钟速度或其他一些性能限制方法来实现。我们已要求英特尔对中国独家的 Gaudi 3 型号进行澄清,但尚未收到回复。如果英特尔披露任何信息,我们将进行更新。我们可以预期 HL-328 和 HL-388 的性能与Nvidia 的 H20类似,H20 是硅巨头最快的 GPU,已获准在中国销售。它具有 148 TFLOPS 的 FB16 和 FP16 性能,略低于 150 TFLOPS 限制。由于H20和Gaudi 3的中国型号之间的原始核心性能或多或少相同,因此主要区别将归结为内存(英特尔的容量更大但带宽略少)和软件(这一直是一个卖点)适用于 Nvidia 芯片。OpenAI公布模型Voice Engine,AI安全问题再受关注Suno发布V3版本:Suno发布V3版本,音乐ChatGPT时刻来临14份半导体“AI的iPhone时刻”深度系列报告合集
12份走进“芯”时代系列深度报告合集
本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。
免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。
温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。