25年路线图惊爆流出!老黄秘密武器X100曝光

芯潮IC 2023-10-16 12:00

 今日“芯”分享 


英伟达的巨大谋算。


来源 I 新智元

作者 I 新智元

图片来源 I Unsplash




英伟达的AI硬件霸主,当得太久了!


现在,各大科技公司都在虎视眈眈,等着一举颠覆它的霸主之位。


当然,英伟达也不会坐以待毙。


最近,外媒SemiAnalysis曝出了一份英伟达未来几年的硬件路线图,包括万众瞩目的H200、B100和「X100」GPU。



随之一同流出的,还有一些硬核信息,包括英伟达的工艺技术计划、HBM3E的速度/容量、PCIe 6.0、PCIe 7.0、NVLink、1.6T 224G SerDes计划。


如果这些计划如愿成功,英伟达将继续成功碾压对手。


当然,霸主之位也没这么好当——AMD的MI300、MI400,亚马逊的Trainium2,微软的Athena,英特尔的Gaudi 3,都不会让英伟达好过。


准备好,前方高能来袭!



01

英伟达,不止想做硬件霸主


谷歌早已开始布局自己的AI基础设施,他们构建的TPUv5和TPUv5e,既可以用于内部的训练和推理,也可以给苹果、Anthropic、CharacterAI、MidJourney等外部客户使用。


谷歌不是英伟达唯一的威胁。


在软件方面,Meta的PyTorch2.0和OpenAI的Triton也在迅猛发展,使其他硬件供应商得以实现兼容。



现在,软件上的差距仍然存在,但远不及从前那么巨大了。


在软件堆栈上,AMD的GPU、英特尔的Gaudi、Meta的MTIA和微软的Athena都取得了一定程度的发展。


尽管英伟达仍然保持着硬件领先地位,但差距的缩小,会越来越快。


英伟达H100,也不会独领风骚太久。


在接下来的几个月内,无论是AMD的MI300,还是英特尔的Gaudi 3,都将推出技术上优于H100的硬件产品。



而除了谷歌、AMD、英特尔这些难缠的对手,还有一些公司,也给了英伟达不小的压力。


这些公司虽然在硬件设计上暂时落后,但能得到背后巨头的补贴——天下苦英伟达久矣,这些公司都希望打破英伟达在HBM上的巨额利润垄断。


亚马逊即将推出的Trainium2和Inferentia3, 微软即将推出的Athena,都是已布局多年的投资。


竞争对手来势汹汹,英伟达当然也不会坐以待毙。



在外媒SemiAnalysis看来,无论管理风格还是路线决策,英伟达都是「行业中最多疑的公司之一」。


而黄仁勋身上,体现了一股安迪·格鲁夫的精神。


成功导致自满。自满导致失败。只有偏执狂才能生存。


为了稳坐第一把交椅,英伟达野心勃勃,采取了多管齐下的冒险策略。


他们已经不屑于再和英特尔、AMD在传统的市场上竞争,而是想成为谷歌、微软、亚马逊、Meta、苹果这样的科技巨头。



而英伟达的DGX Cloud、软件,以及针对非半导体领域的收购策略,背后都是一盘大棋。


02

路线图最新细节曝光!


英伟达最新路线图的重要细节,已经被曝光。


内容包括所采用的网络、内存、封装和工艺节点,各种GPU、SerDes选择、PCIe6.0、协同封装光学器件和光路交换机等细节。



显然,慑于谷歌、亚马逊、微软、AMD和英特尔的竞争压力,英伟达连夜加快了B100和「X100」的研发。


B100:上市时间高于一切


根据内部消息,英伟达的B100将于2024年第三季度量产,部分早期样品将于2024年第二季度出货。


从性能和TCO看,无论是亚马逊的Trainium2、谷歌的TPUv5、AMD的MI300X,还是英特尔的Gaudi 3或微软的Athena,跟它相比都弱爆了。



即使考虑到从设计合作方、AMD或台积电获得的补贴,它们也统统打不过。


为了尽快将B100推向市场,英伟达做了不少妥协。


比如,英伟达本想把功耗定在更高的水平(1000W),但最终,他们还是选择了继续使用H100的700W。


这样,B100推出时,就能继续使用风冷技术。



此外,在B100早期系列,英伟达也会坚持使用PCIe5.0。


5.0和700W的组合意味着,它可以直接插入现有的H100 HGX服务器中,从而大大提高供应链能力,更早地量产和出货。


之所以决定坚持使用5.0,还有部分原因是,AMD和英特尔在PCIe6.0集成上还远远落后。而即使英伟达自己的内部团队,也没有准备好使用PCIe6.0CPU。


此外,他们还将使用速度更快的C2C式链接。



在以后,ConnectX-8会配备一款集成的PCIe6.0交换机,但目前还没人准备好。


据悉,博通和AsteraLabs要到年底才能准备好量产的PCIe6.0重定时器,而考虑到这些基板的尺寸,所需的重定时器只会更多。


这也意味着,最初的B100将被限制在3.2T,使用ConnectX-7时的速度也仅仅是400G,而非英伟达在PPT上所宣称的每个GPU 800G。


如果保持空气冷却,电源、PCIe和网络速度不变,那无论是制造还是部署,都会很容易。



稍后,英伟达会推出一个需要水冷的1,000W+版本B100。


这一版B100将通过ConnectX-8,为每个GPU提供完整的800G网络连接。


对于以太网/InfiniBand,这些SerDes仍然是8x100G。


虽然每个GPU的网络速度提高了一倍,但基数却减半了,因为它们仍需通过相同的51.2T交换机。而102.4T交换机,在B100一代中将不再使用。


有趣的是,有爆料称B100上的NVLink组件将采用224G SerDes,如果英伟达真能做到这一点,无疑是巨大的进步。


大多数人业内人士都认为,224G并不可靠,2024年不可能实现,但英伟达的人除外。


要知道,无论是谷歌、Meta,还是亚马逊,他们的224G AI加速器量产目标都定在2026/2027年。


如果英伟达在2024/2025年就实现了这一点,铁定会把对手们打得落花流水。



据悉,B100仍然是台积电的N4P,而不是基于3nm工艺的技术。


显然,对于如此大的芯片尺寸,台积电的3nm工艺尚未成熟。



根据英伟达基板供应商Ibiden透露的基板尺寸,英伟达似乎已经转而采用由2个单片大芯片MCM组成的设计,包含8或12个HBM堆叠。


SambaNova和英特尔明年的芯片,都采用了类似的宏观设计。



英伟达之所以没有像AMD那样使用混合键合技术,是因为他们需要量产,而成本就是他们的一大顾虑。


据SemiAnalysis估测,这两款B100芯片的内存容量将与AMD的MI300X相近或更高,达到24GB堆叠。


风冷版B100的速度可达6.4Gbps,而液冷版可能高达9.2Gbps。


另外,英伟达还在路线图中展示了GB200和B40。


GB200和GX200都使用了G,显然这是一个占位符,因为英伟达将推出基于Arm架构的新CPU。并不会长期使用Grace。


B40很可能只是B100的一半,只有一个单片N4P芯片,和最多4或6层的HBM。与L40S不同,这对于小模型的推理是很有意义的。


「X100」:致命一击


曝出的路线图中最惹人注意的,就是英伟达的「X100」时间表了。


有趣的是,它与AMD目前的MI400时间表完全吻合。就在H100推出一年后,AMD发布了MI300X战略。


AMD给MI300X的封装令人印象深刻,他们大量塞入了更多的计算和内存,希望能超越一年前的H100,从而在纯硬件上超越英伟达。



英伟达也发现了,他们两年一次发布新GPU的节奏,给了竞争对手大好的机会抢夺市场。


被逼急了的英伟达,正在把产品周期加快到每年一次,不给对手任何机会。比如,他们计划于2025年推出「X100」,仅仅比B100晚一年。


当然,「X100」目前还并未量产(不像B100),所以一切还悬而未决。


要知道,在过去,英伟达可从来不会讨论下一代产品之后的产品,这次已经是史无前例了。


而且,名字大概率也不叫「X100」。


英伟达一直以来的传统,都是以Ada Lovelace、Grace Hopper和Elizabeth Blackwell等杰出女科学家的名字来命名GPU的。


至于「X」,唯一符合逻辑的就是研究半导体和金属带结构的Xie Xide,但考虑到她的身份,概率应该不大。



03

供应链大师:老黄的豪赌


自英伟达成立之初,黄仁勋就一直在积极推动着对供应链的掌握,从而支持庞大的增长目标。


他们不仅愿意承担不可取消的订单——高达111.5亿美元的采购、产能和库存承诺,并且还有38.1亿美元的预付款协议。


可以说,没有一家供应商能与之相提并论。


而英伟达的事迹也不止一次表明,他们可以在供应短缺时创造性地增加供应量。


2007年黄仁勋与张忠谋的对话


1997年,张忠谋和我相遇时,只有100人的英伟达在那一年完成了2700万美元的收入。


你们可能不相信,但张忠谋以前经常打电话推销,并且还会上门拜访。而我则会向张忠谋解释英伟达是做什么的,以及我们的芯片尺寸需要多大,而且每年都会越来越大。


后来,英伟达总共做了1.27亿个晶圆。从那时起,英伟达每年增长近100%,直到现在。也就是在过去10年中,复合年增长率达到了70%左右。


当时,张忠谋无法相信英伟达需要如此多的晶圆,但黄仁勋坚持了下来。


英伟达通过在供应方面的大胆尝试,取得了巨大成功。虽然时不时要减记价值数十亿美元的库存,但他们仍然从过度的订购中获得了正收益。


这次,英伟达直接抢占了GPU上游组件的大部分供应——


他们向SK海力士、三星和美光这3家HBM供应商下了非常大的订单,挤占了除博通和Google之外其他所有人的供应。同时,还买下了台积电CoWoS的大部分供应,以及Amkor的产能。


此外,英伟达还充分利用了HGX板卡和服务器所需的下游组件,如重定时器、DSP、光学器件等。


如果供应商对英伟达要求置若罔闻,那么就会面对老黄的「萝卜加大棒」——


一方面,他们会从英伟达获得难以想象的订单;另一方面,他们可能会被英伟达从现有的供应链中剔除。


当然,英伟达也只有在供应商至关重要且无法被淘汰或多元化供应的情况下,才会使用承诺和不可取消的订单。



每个供应商似乎都认为自己是AI的赢家,部分原因是因为英伟达向所有供应商都下了大量的订单,而他们也都认为自己赢得了大部分业务。但实际上,只是因为英伟达的增长速度太快了。


回到市场动态上,虽然英伟达的目标是在明年实现超过700亿美元的数据中心销售额,但只有谷歌在上游有足够的产能——拥有超过100万台的设备。AMD在AI领域的总产能仍然非常有限,最高也不过几十万台。


04

商业策略:潜在的反竞争


众所周知,英伟达正在利用对GPU的巨大需求,来向客户推销和交叉销售产品。


供应链中有大量信息透露,英伟达会根据一系列因素向某些公司提供优先分配。包括但不限于:多元化采购计划、自主研发AI芯片计划、购买英伟达的DGX、NIC、交换机和/或光学设备等。



事实上,英伟达的捆绑销售非常成功。尽管之前只是一家规模很小的光纤收发器供应商,但他们的业务量在一个季度内增长了两倍,预计明年的出货量将超过10亿美元——远远超过了自家GPU或网络芯片业务的增长速度。


这些策略,可以说是相当周密。


比如,想要在英伟达的系统上实现3.2T网络和可靠的RDMA/RoCE,唯一方法就是使用英伟达的NIC。当然,一方面也是因为英特尔、AMD和博通的产品实在是缺乏竞争力——仍然停留在200G的水平上。


而通过对供应链的管理,英伟达还促使400G InfiniBand NIC的交付周期,能够比400G以太网NIC明显缩短。而这两种NIC(ConnectX-7)在芯片和电路板设计上,其实是完全相同的。


其原因在于英伟达的SKU配置,而非实际的供应链瓶颈——迫使企业不得不购买成本更高的InfiniBand交换机,而不是标准的以太网交换机。


这还不止,看看供应链对L40和L40S GPU有多么着迷,就知道英伟达又在分配上做手脚了——为了赢得更多H100的分配,OEM厂商就需要购买更多的L40S。


这与英伟达在PC领域的操作,也是如出一辙——笔记本制造商和AIB合作伙伴必须购买更大量的G106/G107(中/低端GPU)才能获得更稀缺、更高利润的G102/G104(高端和旗舰GPU)。


作为配合,供应链中的人也被灌输了这样的说法——L40S比A100更好,因为它具有更高的FLOPS。


但实际上,这些GPU并不适合LLM推理,因为它们的显存带宽还不到A100的一半,而且也没有NVLink。


这意味着在L40S上运行LLM并实现良好的TCO几乎是不可能的,除非是非常小的模型。而大批量的处理也会导致分配到每个用户上的token/s几乎是不可用的,从而使理论上的FLOPS在实际应用中变得毫无用处。



此外,英伟达的MGX模块化平台,虽然省去了服务器设计的艰苦工作,但也同时降低了OEM的利润率。


戴尔、惠普和联想等公司显然对MGX持抵制态度,但诸如超微、广达、华硕、技嘉等公司则争相填补这一空白,将低成本的「企业人工智能」商品化。


而这些参与L40S和MGX炒作的OEM/ODM,也可以从英伟达那里获得更好的主线GPU产品分配。


05

光电共封装

(Co-Packaged Optics)


在CPO方面,英伟达也是相当重视。


他们一直在研究各种解决方案,包括来自Ayar Labs的解决方案,以及他们自己从Global Foundries和台积电获得的解决方案。



目前,英伟达已经考察了几家初创公司的CPO方案,但暂时还没有做出最终的决定。



分析认为,英伟达很有可能将CPO集成到「X100」的NVSwitch上。


因为直接集成到GPU本身可能成本太高,而且在可靠性方面也很困难。



06

光路交换机

(Optical Circuit Switch)


谷歌在人工智能基础设施方面最大的优势之一,就是它的光路交换机。


显然,英伟达也在追求类似的东西。目前,他们已经接触了多家公司,希望能够进行合作开发。



英伟达意识到,Fat Tree在继续扩展方面已经走到了尽头,因此需要另一种拓扑结构。


与谷歌选择6D Torus不同,英伟达更倾向于采用Dragonfly结构。



据了解,英伟达距离OCS的出货还遥遥无期,但他们希望在2025年时能够更加接近这一目标,但大概率无法实现。



OCS + CPO是圣杯,尤其是当OCS可以实现按数据包交换时,将会直接改变游戏规则。


不过,目前还没有人展示过这种能力,甚至连谷歌也没有。


虽然英伟达的OCS和CPO还只是研究部门的两套PPT,但分析人士认为,CPO会在2025至2026年内离产品化更进一步。




*参考资料:

https://www.semianalysis.com/p/nvidias-plans-to-crush-competition


*免责声明:本文由原作者创作。文章内容系其个人观点,芯潮IC转载仅为分享与讨论,不代表芯潮IC对该观点赞同或支持,如果有任何异议,请联系我们。

芯潮IC Group/

插播一条广告  📢


芯潮IC 愿意为群友搭建沟通和传播的渠道,除提供干货分享外,还可以免费帮忙发布商业需求、异业合作、求职招聘……谢谢各位同行的捧场,也希望我们的文章和服务对你真的有帮助,一起“芯”向未来!

扫码添加芯潮IC编辑「叙白」

入群聊聊行业八卦~

推荐阅读

深度解读丨

“围猎”英伟达H100

深度解读丨

今年最大IPO诞生,市值4700亿

孙正义松了一口气

深度解读丨

3年拿不出新产品

投资人要撤了

深度解读丨

从20家大厂财报

一窥半导体复苏轨迹

深度解读丨

晶圆代工巨无霸登场

华虹公司成今年最大IPO

更多精彩,点击关注

芯潮IC

微信号|xinchaoIC


芯潮IC 一起见证“芯”潮澎湃
评论
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 61浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 66浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 223浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 108浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 117浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 167浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 70浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 124浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 204浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 144浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 92浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 158浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦