电子工程专辑讯 近日,关于埃隆·马斯克为特斯拉预留的英伟达AI芯片优先用在了社交媒体平台X和人工智能初创企业xAI,引起热议。
CNBC 获得 Nvidia 内部流传的电子邮件,该邮件透露马斯克向股东夸大了特斯拉的采购情况。
去年 12 月的一份 Nvidia 备忘录称,马斯克优先在 X 而非特斯拉部署 X H100 GPU 集群,将原本计划用于特斯拉的 12k H100 GPU 转移到 X。作为交换,原定于 1 月和 6 月交付的 12k H100 的 X 订单将转移到特斯拉。
在4月的特斯拉第一季度财报会议上,马斯克表示,特斯拉在今年年底将把英伟达的H100芯片数量从35000颗增加至85000颗。
4 月底,Nvidia 的一封最新邮件称,马斯克对特斯拉第一季度电话会议的评论“与预订量相冲突”,而他在 4 月份关于人工智能支出 100 亿美元的 X 帖子也“与预订量和 2025 财年预测相冲突”。
这封邮件提到了特斯拉正在进行的大规模裁员的消息,并警告称,裁员可能会导致特斯拉德克萨斯超级工厂的“H100 项目”进一步推迟。
受此影响,特斯拉股价有所下滑。
CNBC 称,这些信息凸显了马斯克与股东间的冲突在升级,这些股东质疑这位亿万富翁首席执行官是否在履行对特斯拉的义务,同时还经营着一系列需要他关注、资源和大量资金的其他公司。
作为特斯拉的CEO,马斯克同时管理着SpaceX、Neuralink、The Boring Co.,以及他最近收购的社交媒体平台X(前Twitter)和AI初创公司xAI。
马斯克回应,AI芯片没地方放
马斯克已经确认了此事,并进行了回应。
在社交平台X上,马斯克表示,“特斯拉没地方把 Nvidia 芯片送去开机,所以只能放在仓库里。Giga Texas 的南扩建工程已接近完工。这里将容纳 5 万台 H100用于 FSD 培训。”
也就是说,特斯拉现在暂时用不上这些芯片,但X可以;不过这种情况会发生改变,当特斯拉得克萨斯超级工厂(Giga Texas)建好,就可以安置5 万台 H100。如果X向特斯拉支付相应的费用,特斯拉的股东们就没有什么可抱怨的。
马斯克在帖子中暗示,英伟达无法追踪特斯拉今年在人工智能方面的全部开支。
马斯克表示,“我曾说过,特斯拉今年在人工智能相关方面的支出约为 100 亿美元,其中约有一半是内部支出,主要是特斯拉设计的人工智能推理计算机、我们所有汽车上的传感器以及 Dojo。在构建人工智能训练超级集群方面,英伟达硬件约占成本的三分之二。
我目前对特斯拉今年购买英伟达硬件的最佳猜测是 30 亿至 40 亿美元。”
英伟达AI芯片对特斯拉发展有重要性
特斯拉的Dojo新型超级计算机将安装在德克萨斯州奥斯汀。
对于超级计算机平台Dojo的产品进展时间线,特斯拉于2023年7月已投入生产,原计划是预计到2024年初,Dojo将成为全球最先进的5台超级计算机之一。
从本质上来讲,Dojo是一种可组合的规模化超级计算机,与超算系统不同,其是一套完全可定制架构,全面涵盖计算、网络、输入/输出(I/O)芯片,乃至指令集架构(ISA)、供电、封装和冷却。所有这些都服务于同一个目标:大规模运行定制化机器学习训练算法。
超级计算机平台Dojo将对特斯拉的FSD(Full Self-Drive,完全自动驾驶)产生重要影响。特斯拉方面也表示,一旦Dojo启动并运行,特斯拉完全自动驾驶系统FSD Beta将呈现“指数级提升”。
据悉,Dojo超级计算机将在2024年10月达到100 Exa-Flops的惊人水平,Exa-Flops是电脑每一秒的计算能力,相当于每秒100亿一次运算,粗略换算,100Exa-Flops相当于30万片英伟达A100芯片的算力。这将加速特斯拉Autopilot和全自动驾驶系统的学习和改进。同时,Dojo也将为特斯拉的智能机器人Optimus提供计算支持。
为启动Dojo项目,马斯克为此购买了大量的GPU。
有业内人士称,鉴于英伟达芯片的稀缺性,将大量芯片从特斯拉转移到X公司是一个极端举措,这可能会影响特斯拉的发展,因为这些芯片本可以用来扩展特斯拉在德克萨斯州或纽约的计算能力,并推动自动驾驶软件和机器人技术的进步。
马斯克回应关于转移本用于特斯拉的英伟达芯片的事件的同时,在社交平台X上,有网友询问马斯克觉得 Dojo 与 Nvidia 集群相比如何?有没有一种切实可行的方法,有一天可以内部生产训练计算,而不是从 Nvidia 购买?
马斯克对此表示,“与推理计算相比,特斯拉的训练计算量相对较小,因为后者与车队规模成线性关系。
从功耗的角度来考虑,也许是最好的办法。
当特斯拉车队达到 1 亿辆汽车时,汽车中人工智能硬件的峰值功耗将达到 ~100GW。训练功耗可能小于 5GW。这些都是非常粗略的猜测。
显然,按照目前的标准,5GW 的人工智能训练计算量是巨大的,但只占特斯拉人工智能计算总量的 5%。
Dojo 有可能超过 Nvidia。正如我之前所说的那样,成功的希望渺茫,但这也是可能的结果之一。“
截图自X
用10万颗英伟达AI芯片打造xAI的人工智能Grok
马斯克为打造下一代对话式人工智能Grok,据外媒报道称,马斯克向投资者透露,xAI计划采用10万颗英伟达H100 GPU来建一座“计算超级工厂”(gigafactory of compute),一旦建成,xAI由英伟达旗舰H100 GPU组成的芯片集群将至少是目前最大GPU集群规模的四倍,例如Facebook母公司Meta用于训练其人工智能模型的集群。
xAI也需要大量的英伟达AI芯片,xAI将购买30万块英伟达B200 AI芯片。“接下来的重要一步可能是,明年夏天拥有约30万台配备CX8网络的B200芯片。”马斯克表示。
虽然聊天机器人Grok是xAI目前唯一的产品,马斯克将计划加大对GPU集群的投资,扩大其AI相关产品组合,也是有迹可循的。