尽管最近几年中国面临来自美国方面的技术管制,但各大芯片巨头仍然非常重视中国市场,纷纷推出“特供版”芯片。近日,英特尔在其Gaudi 3 AI芯片白皮书中披露,正准备向中国市场推出“特供版”Gaudi 3。
据悉,英特尔计划推出的针对中国市场的"特供版"Gaudi 3芯片,包括HL-328的OAM兼容夹层卡和HL-388的PCle加速卡两种硬件形态。不过,英特尔披露了其5nm"中国特供版"AI芯片Gaudi 3的性能可能暴降92%。其中,其中HL-328将于6月24日推出,HL-388将于9月24日推出。
图源:英特尔官网
当前,各大芯片巨头纷纷布局AI芯片。从性能角度来看,Gaudi 3在多个方面超越了英伟达H100芯片。具体来说,Gaudi 3在训练和推理速度上分别比H100快50%和提升50%,同时在推理能效上也提升了40%。此外,Gaudi 3还带来了高达4倍的BF16 AI计算能力提升,1.5倍的内存带宽以及2倍的网络带宽提升。这些性能的提升使得Gaudi 3能够支持多种大模型,包括Llama等。
在成本方面,Gaudi 3的成本降低了一半,同时算力提升了50%。这表明英特尔这款AI芯片在保持高性能的同时,也在努力降低成本,具备一定的市场竞争力。
由于美国对中国实施的出口管制条文禁止美国企业向中国出口高性能芯片,英特尔需要寻找一种方式来绕过这些限制,同时保持其在中国市场的竞争力,但似乎与英伟达最新的特供AI芯片一样,阉割性能太大。
与原版相比,中国特供版Gaudi 3拥有相同的96MB SRAM片上内存,128GB HBM2e高带宽内存,带宽为3.7TB/s,拥有PCIe 5.0 x16接口和解码标准。然而,由于美国对于AI芯片的出口管制,其综合运算性能(TPP)需要低于4800才能出口到中国,这也意味中国特供版Gaudi 3的16bit性能不能超过150 TFLOPS。
而原版Gaudi 3在FP16/BF16上的性能可以达到1835 TFLOPS,因此中国特供版Gaudi 3最终可能需要将其AI性能降低约92%,才能符合美国的出口管制要求。同时,根据曝光的资料,中国特供版Gaudi 3的PCIe卡和OAM卡的TDP均为450瓦,而原版的性能分别为600瓦和900瓦,但HMB内存、缓存、解码器等完全保留。
可以说,英特尔的Gaudi 3在中国发售的两款"特供版"AI芯片产品的AI性能,或将与英伟达“中国特供版”AI加速卡H20水平相当。而AMD也在尝试销售一款专为中国市场定制的“阉割版”人工智能(AI)芯片。这进一步证明了芯片巨头们对中国市场的重视程度,以及他们为适应国际政治经济环境变化所做的努力。
不过,这些“特供版”芯片性能降低这么多,就要看中国企业是否会买账了。此前,英伟达的“阉割版”AI芯片在大降性能之外,还坚持“减量不减价”,已经被很多中国企业放弃。未来,英特尔“特供版”AI芯片前景如何,还需看其价格上的诚意。