2024HotChips|特斯拉超级计算机DOJO

原创 汽车电子设计 2024-08-31 08:18

芝能智芯出品


在2024年的Hot Chips会议上,Tesla展示了其AI超级计算机DOJO的最新进展,尤其是其独特的网络架构——Tesla传输协议以太网(TTPoE)


特斯拉不仅打造了专属的AI加速器,还开发了自家的以太网传输协议TTPoE,而非传统的TCP/IP协议,创新解决方案展现了Tesla在AI领域的自研技术实力与战略思考。




Part 1

特斯拉 DOJO AI 网络的背景


特斯拉DOJO是为训练深度学习模型而设计的超级计算机,旨在加速其自动驾驶技术的发展。DOJO不仅仅是硬件创新,更在于其独特的软件和网络架构。


为了克服传统TCP/IP网络在处理海量数据时的速度瓶颈,Tesla决定引入TTPoE,构建了一个百亿亿级别的AI网络,这一选择背后的深层原因与其AI训练需求密切相关。



● 为什么特斯拉放弃TCP/IP?


特斯拉认为,TCP/IP协议在AI集群中的表现过于缓慢,尤其在面对高带宽和低延迟需求时。TCP/IP的复杂状态机和过多的包控制机制,使得其在高性能计算环境中显得笨重。


而另一种常见的无损网络解决方案——RDMA,尽管通过优先流控制(PFC)实现了无损传输,但其硬件需求高,成本高昂且对网络产生负面影响。Tesla发现这些协议无法满足DOJO对于速度、成本和性能的多重需求,因此选择自研协议以突破现有瓶颈。 



 TTPoE 的独特性


TTPoE(Tesla传输协议以太网)是一种专门为Tesla AI集群设计的传输层协议,在硬件中实现点对点传输。与传统的网络架构不同,TTPoE不需要特制的交换机,仅依赖二层传输。这使得特斯拉能够显著降低硬件成本,同时提高网络性能。



TTPoE并非简单的模仿UDP,而是采用一种有损的数据传输机制,允许数据包丢失并进行重试。这种设计类似于TCP,但又没有TCP的重负荷和过多的包确认过程。这一取舍使得TTPoE可以在高性能的AI训练场景中高效运行,而无需完全保障每个数据包的传输完美无损。


特斯拉的解决方案更关注的是整体吞吐量和传输效率,而非数据的完美传递,这对于AI训练来说至关重要。



● TTPoE 的微架构设计


TTPoE协议的核心是其微架构设计。特斯拉将其传输协议的实现直接集成到硅片和FPGA中,使数据传输效率最大化。


1MB的传输(TX)缓冲区作为第一代产品的一部分,被设计为类似于L3缓存的结构,配合高带宽内存(HBM),这一设计大大减少了数据在不同存储器之间传输的延迟。



TTPoE使用了本地链路通道进行拥塞管理,而非依赖交换机或网络级别的控制。这种独特的本地处理方式大大减少了拥塞管理的复杂性,也避免了高负载情况下对整个网络性能的拖累。


虽然TTPoE支持QoS(服务质量)管理,但在实际应用中特斯拉选择关闭了该功能,以进一步提升性能和简化管理。




Part 2

DOJO 超级计算机的硬件创新



Tesla DOJO的硬件设计进一步强化了其网络架构的独特性。DOJO的100Gbps网络接口卡(NIC)被称为Mojo,其运行功率低于20W,配有8GB DDR4内存以及板载的DOJO DMA引擎。



这些硬件组件都经过定制,专门优化以满足TTPoE协议的高效传输需求。特斯拉的DOJO还采用了一个带有32GB HBM的接口处理器,支持高达900GB/s的传输速率。



这种强大的数据处理能力,再加上内部集成的TTPoE协议,使得DOJO能够在不依赖第三方设备的情况下,完成海量数据的高速传输。



特斯拉在其AI超级计算机中全面部署TTPoE,显示了其强大的自研能力和对未来的布局。然而,TTPoE不仅仅适用于DOJO系统。特斯拉还加入了UltraEthernet联盟,这意味着其创新的网络协议可能在未来被广泛应用于其他领域。


特斯拉的此举或许代表着一种新的网络架构趋势,将定制化与高效化带入到其他高性能计算和数据中心环境中。



特斯拉选择Arista交换机为TTPoE提供支持,这进一步强化了其系统的灵活性与兼容性。通过优化跳数和降低延迟,TTPoE将以太网在AI集群中的应用潜力进一步释放,为未来的超大规模AI训练网络铺平了道路。



特斯拉的TTPoE协议展示了其在AI计算领域的开拓性思维和技术实力。通过抛弃传统的TCP/IP协议,特斯拉为DOJO超级计算机打造了一个前所未有的高速、有损网络架构。


这一设计不仅提高了AI训练的效率,还降低了硬件成本,为特斯拉的AI技术发展提供了重要支撑。




小结


TTPoE可能不仅限于特斯拉的内部使用,以性能为导向的网络架构思维,或许将在整个高性能计算领域掀起新的变革浪潮。 

汽车电子设计 本公众号是博主和汽车电子的行业的工程师们一起交流、探讨、思考的小结,以作为技术交流和沟通的桥梁
评论
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 88浏览
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 117浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 60浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 58浏览
  • 国产光耦合器因其在电子系统中的重要作用而受到认可,可提供可靠的电气隔离并保护敏感电路免受高压干扰。然而,随着行业向5G和高频数据传输等高速应用迈进,对其性能和寿命的担忧已成为焦点。本文深入探讨了国产光耦合器在高频环境中面临的挑战,并探索了克服这些限制的创新方法。高频性能:一个持续关注的问题信号传输中的挑战国产光耦合器传统上利用LED和光电晶体管进行信号隔离。虽然这些组件对于标准应用有效,但在高频下面临挑战。随着工作频率的增加,信号延迟和数据保真度降低很常见,限制了它们在电信和高速计算等领域的有效
    腾恩科技-彭工 2024-11-29 16:11 106浏览
  • 在现代科技浪潮中,精准定位技术已成为推动众多关键领域前进的核心力量。虹科PCAN-GPS FD 作为一款多功能可编程传感器模块,专为精确捕捉位置和方向而设计。该模块集成了先进的卫星接收器、磁场传感器、加速计和陀螺仪,能够通过 CAN/CAN FD 总线实时传输采样数据,并具备内部存储卡记录功能。本篇文章带你深入虹科PCAN-GPS FD的技术亮点、多场景应用实例,并展示其如何与PCAN-Explorer6软件结合,实现数据解析与可视化。虹科PCAN-GPS FD虹科PCAN-GPS FD的数据处
    虹科汽车智能互联 2024-11-29 14:35 149浏览
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 71浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 159浏览
  • By Toradex胡珊逢简介嵌入式领域的部分应用对安全、可靠、实时性有切实的需求,在诸多实现该需求的方案中,QNX 是经行业验证的选择。在 QNX SDP 8.0 上 BlackBerry 推出了 QNX Everywhere 项目,个人用户可以出于非商业目的免费使用 QNX 操作系统。得益于 Toradex 和 QNX 的良好合作伙伴关系,用户能够在 Apalis iMX8QM 和 Verdin iMX8MP 模块上轻松测试和评估 QNX 8 系统。下面将基于 Apalis iMX8QM 介
    hai.qin_651820742 2024-11-29 15:29 150浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 63浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 157浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦