Tesla Dojo训练芯片,采用​什么独特封装和技术设计?

原创 智能计算芯世界 2021-08-29 00:00



特斯拉举办了2021人工智能日,并透露了他们的软件和硬件基础设施的内部运作,以及Dojo AI 训练芯片。特斯拉声称D1 Dojo 芯片具有 GPU 级别的计算能力、CPU 级别的灵活性,以及网络交换机 IO性能。推测该系统的封装是 TSMC 晶圆集成扇出系统 (InFO_SoW)。


下载链接:

干货揭秘:特斯拉AI Day再放大招



我们解释了这种类型的封装的好处以及这种大规模扩展训练芯片所涉及的冷却和功耗。此外,估计该软件性能将优于 Nvidia 系统。今天,我们将深入解揭示该半导体的技术细节。



在开始之前,先来谈谈基础设施。特斯拉不断地训练和改进其神经网络。并且在汽车和服务器中部署了数以千计的相同训练芯片。



多年来,特斯拉一直在扩大其 GPU 集群的规模。如果特斯拉运行Linpack测试,并提交给了500强名单,则训练集群将是第5最大的超级计算机。但这种性能对于特斯拉和他们的雄心来说是不够的,所以几年前他们开始开发自己的芯片 Dojo 项目。Tesla 需要更高的性能,以节能且经济高效的方式启用更大、更复杂的神经网络。



Tesla 的架构解决方案采用分布式计算架构。这种架构似乎与 Cerberus 非常相似。每个 AI 训练架构都是以这种方式布局的,但计算元素、网络细节差异很大。这些类型网络的最大问题是带宽和低延迟。在更大的网络部署中,特斯拉特别关注后两者。这影响了他们设计的每个部分,从芯片到封装。



此外,他们还引入了一种称为 CFP8 的新数据类型,可配置浮点。每个单元能够在每个方向上实现 1TFlops BF16 或 CFP8、64GFlops FP32 和 512GB/s 的带宽。



CPU毫不逊色,每个内核可以支持4 个线程,最大限度地提高利用率。不幸的是,Tesla使用了定制的 ISA,而不是像 RISC V 这样的顶级开源 ISA。这个定制的 ISA 引入了转置、收集、广播和链接遍历的指令。


这354个功能单元的芯片达到BF16或CFP8的362 TFlops和FP32的22.6 TFlops。一共是500亿个晶体管。每个芯片都有惊人的 400W TDP。这意味着功率密度高于 Nvidia A100 GPU 的大多数配置。有趣的是,特斯拉实现了每 mm^2 7750 万个晶体管的有效晶体管密度。这比其他任何高性能芯片都要高,仅次于移动芯片和 Apple M1。



基本功能单元另一个有趣地方是 NOC 路由器。它以与 Tenstorrent 非常相似的方式支持芯片内和芯片间扩展。毫不奇怪,特斯拉采用与其人工智能初创公司类似的架构。Tenstorrent 非常适合训练能力扩展,而特斯拉非常关注这方面。


在芯片上,Tesla拥有惊人的10TBps定向带宽,但这个数字在实际工作负载中意义不大。与 Tenstorrent 相比,特斯拉的一大优势是芯片之间的带宽明显更高。576 个 SerDes提供64Tb/s 或 8TB/s 的带宽。


目前已知的最高外部带宽芯片是32Tb/s网络交换芯片。特斯拉能够通过大量的 SerDes 和先进的封装将这一点翻倍。



Tesla 将 Dojo 芯片的计算平面连接到接口处理器,这些处理器连接到具有 PCIe 4.0 的主机系统。这些接口处理器还支持更高基数的网络连接,以补充现有的计算平面网格。


25 个 D1 芯片被封装为一个称为训练瓦片的“扇出晶圆工艺”。特斯拉没有像我们几周前推测的那样确认这种封装是台积电的晶圆上集成扇出系统(InFO_SoW),但考虑到芯片间带宽他们特别提到扇出晶圆的事实,这似乎很有可能。



特斯拉开发了一种专有的高带宽连接器,可以保留这些片之间的片外带宽。每个Tile具有令人不可思议的 9 PFlops BF16/CFP8 和 36 TB/s 的片外带宽。这远远超过了 Cerebras 的晶圆外带宽,并使 Tesla 系统能够比 Tenstorrent 架构等更好地横向扩展。



面对大带宽和超过 10KW 的功耗,特斯拉在电力传输方面进行了创新并垂直供电。定制稳压器调制器直接回流到扇出晶片上。功率、热量和机械都直接与Tile连接。



即使芯片本身的总功率仅为 10KW,但总功率似乎为 15KW。电力输送、IO 和晶圆也在消耗大量电力。功率从底部进来,而热量从顶部传出。该 tile 远远超过了Nvidia、Graphcore、Cerebras、Groq、Tenstorrent、SambaNova 或任何其他 AI 培训能力。



扩展能力在单服务器可以达到数千个芯片。Dojo 可扩展到 2 x 3Tiles配置,服务器机柜中有两种配置。每个柜子总共有12 Tiles ,每个柜子总共有 108 PFlops。每个服务器机柜超过 100,000 个功能单元、400,000 个自定义内核和 132GB SRAM。



特斯拉不断扩大其机柜数量,计划扩展到 10个机柜和 1.1 Exaflops。1,062,000 个功能单元、4,248,000 个内核和 1.33TB 的 SRAM。



软件方面很有趣,但我们今天不会深入研究它们。他们声称,无论集群大小如何,软件都可以在 Dojo 处理单元 (DPU) 之间无缝扩展。Dojo Compiler 可以处理跨硬件计算平面的细粒度并行处理和映射网络。


模型并行性可以跨芯片边界扩展,轻松解锁具有数万亿个参数甚至更多的 AI 模型级别。综合起来,成本与 Nvidia GPU 相当,Tesla 声称他们可以实现 4 倍的性能,每瓦性能提高 1.3 倍,占用空间减少 5 倍。


Tesla 的TCO 优势比英伟达 AI 解决方案高出近一个数量级。如果他们的说法属实,特斯拉在 AI 硬件和软件领域已经超越所有人。我持怀疑态度,但这也是硬件极客的梦想。


InFO_SoW 技术通过载体本身消除了基板和PCB的问题。紧凑型系统内紧密封装的多个芯片阵列使该解决方案能够获得晶圆级优势,例如低延迟芯片间通信、高带宽密度和低 PDN 阻抗,以实现更高的计算性能和电源效率。除了异构芯片集成之外,其晶圆现场处理能力还支持基于小芯片的设计,以实现更大的成本节约和设计灵活性。



这突破了目前多芯片模块的壁垒。使用基于中介层的技术(例如 Nvidia 数据中心 GPU),它们会受到中介层制造限制的限制。台积电的第5代 CoWoS-S 最近投入量产,其中介层是光罩限制的 3 倍。掩模版的限制为 26 毫米 x 33 毫米,并且与光刻机在一个实例中可以图案化的最大面积有关。这种方法涉及掩模版拼接和其他制造困难,因为中介层本身就是一个硅芯片。这种类型的封装在为巨大的 AI 工作负载扩展芯片数量方面存在局限性。



另一种方法是倒装芯片封装。最著名的采用这种封装的 MCM 设计是 AMD CPU。它们不存在光罩限制问题,但在功率和线密度方面存在巨大缺陷。您在芯片间数据传输上消耗了更多的电量,并且芯片之间的带宽是有限的。由于这些限制,这种类型的包装不太适合巨大的 AI 工作负载。



随着特斯拉希望在其 Dojo 超级计算机设计中实现的扩展,将会产生大量的热量。InFO_SoW 能够提供 7,000W 的功率。相比之下,Nvidia 的数据中心 A100 GPU 的配置高达 500W。这需要大量考虑冷却问题,而台积电 InFO_SoW 提供了解决方案。


https://semianalysis.com/tesla-dojo-ai-super-computer-unique-packaging-and-chip-design-allow-an-order-magnitude-advantage-over-competing-ai-hardware/

https://semianalysis.com/tesla-ai-day-supercomputer-chip-teaser-is-this-the-first-deployment-of-tsmc-info_sow/


下载链接:

干货揭秘:特斯拉AI Day再放大招

中国数据处理器行业概览(2021)

DPU在数据中心和边缘云上的应用

英伟达DPU集数据中心于芯片


本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料





免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。



电子书<服务器基础知识全解(终极版)>更新完毕,知识点深度讲解,提供182页完整版下载。

获取方式:点击“阅读原文”即可查看PPT可编辑版本和PDF阅读版本详情。



温馨提示:

请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 采购与分销是企业运营中至关重要的环节,直接影响到企业的成本控制、客户满意度和市场竞争力。以下从多个方面介绍如何优化采购与分销:采购环节优化供应商管理供应商评估与选择:建立一套全面、科学的供应商评估体系,除了考虑价格因素,还要综合评估供应商的产品质量、交货期、信誉、研发能力、售后服务等。通过多维度评估,选择那些能够提供优质产品和服务,且与企业战略目标相契合的供应商。建立长期合作关系:与优质供应商建立长期稳定的合作关系,这种合作模式可以带来诸多好处。双方可以在信任的基础上进行深度沟通与协作,共同开展
    Jeffreyzhang123 2024-12-27 17:43 128浏览
  • 在科技飞速发展的今天,汽车不再仅仅是一种交通工具,更是一个融合了先进技术的移动智能空间。汽车电子作为汽车产业与电子技术深度融合的产物,正以前所未有的速度推动着汽车行业的变革,为我们带来更加智能、安全、舒适的出行体验。汽车电子的发展历程汽车电子的发展可以追溯到上世纪中叶。早期,汽车电子主要应用于发动机点火系统和简单的电子仪表,功能相对单一。随着半导体技术的不断进步,集成电路被广泛应用于汽车领域,使得汽车电子系统的性能得到了显著提升。从电子燃油喷射系统到防抱死制动系统(ABS),从安全气囊到车载导航
    Jeffreyzhang123 2024-12-27 11:53 135浏览
  • 在当今竞争激烈的商业世界中,供应链管理已成为企业生存与发展的核心竞争力之一。它就像一条无形的纽带,将供应商、制造商、分销商、零售商直至最终消费者紧密相连,确保产品和服务能够高效、顺畅地流转。今天,就让我们一同深入探索供应链管理的奥秘。供应链管理是什么简单来说,供应链管理是对从原材料采购、生产制造、产品配送直至销售给最终用户这一整个过程中,涉及的物流、信息流和资金流进行计划、协调、控制和优化的管理活动。它不仅仅是对各个环节的简单串联,更是一种通过整合资源、优化流程,实现整体效益最大化的管理理念和方
    Jeffreyzhang123 2024-12-27 17:27 112浏览
  • 一、引言无人机,作为近年来迅速崛起的新兴技术产物,正以前所未有的速度改变着众多行业的运作模式,从民用领域的航拍、物流,到工业领域的测绘、巡检,再到军事领域的侦察、打击等,无人机的身影无处不在。为了深入了解无人机的现状,本次调研综合了市场数据、行业报告、用户反馈等多方面信息,全面剖析无人机的发展态势。二、市场规模与增长趋势随着技术的不断进步和成本的逐渐降低,无人机市场呈现出爆发式增长。近年来,全球无人机市场规模持续扩大,预计在未来几年内仍将保持较高的增长率。从应用领域来看,消费级无人机市场依然占据
    Jeffreyzhang123 2024-12-27 17:29 189浏览
  • 在科技飞速发展的今天,医疗电子作为一个融合了医学与电子技术的交叉领域,正以前所未有的速度改变着我们的医疗模式和健康生活。它宛如一颗璀璨的明珠,在医疗领域绽放出耀眼的光芒,为人类的健康福祉带来了诸多惊喜与变革。医疗电子的神奇应用医疗电子的应用范围极为广泛,深入到医疗的各个环节。在诊断方面,各种先进的医学成像设备堪称医生的 “火眼金睛”。X 光、CT、MRI 等成像技术,能够清晰地呈现人体内部的结构和病变情况,帮助医生准确地发现疾病。以 CT 为例,它通过对人体进行断层扫描,能够提供比传统 X 光更
    Jeffreyzhang123 2024-12-27 15:46 116浏览
  • 在当今科技飞速发展的时代,工业电子作为现代制造业的中流砥柱,正以前所未有的速度推动着各个行业的变革与进步。从汽车制造到航空航天,从智能家居到工业自动化,工业电子的身影无处不在,为我们的生活和生产带来了巨大的改变。工业电子的崛起与发展工业电子的发展历程可谓是一部波澜壮阔的科技进化史。追溯到上世纪中叶,电子技术开始逐渐应用于工业领域,最初主要是简单的电子控制装置,用于提高生产过程的自动化程度。随着半导体技术、计算机技术和通信技术的不断突破,工业电子迎来了爆发式的增长。集成电路的发明使得电子设备的体积
    Jeffreyzhang123 2024-12-27 15:40 125浏览
  • 一、前言 回首2024,对于我而言,是充满挑战与收获的一年。在这一年里,我积极参与了论坛的众多活动,不仅拓宽了我的认知边界(有些东西不是你做不到,而是你想不到),还让我在实践中收获了宝贵的经验和。同时,多种多样的论坛活动让我们全方面的接受新东西,连接新知识,多种类型的的活动交织了你我的2024。在这里说一说对过去一年的活动经历,进行一次年终总结,并谈谈我的收获和感受,以及对2025年的展望。二、活动足迹(一)快速体验:机智云Gokit2.0开发板初体验 机智云Gokit2.0开发板的体验活动让大
    无言的朝圣 2024-12-27 14:50 88浏览
  • 发明阶段(20世纪80年代至90年代)起源:当时ASIC设计成本高,周期长,流片失败率高,业界需要一种通用的半导体器件进行流片前测试和验证,可编程逻辑器件就此产生。诞生:1980年,Xilinx公司成立。1985年,Ross Freeman制造了第一片PFGA芯片XC2064,采用4输入,1输出的LUT和FF结合的基本逻辑单元。发展阶段(1992年至1999年)容量提升:FPGA容量不断上涨,芯片面积逐渐增大,为架构穿心提供空间,复杂功能可以实现。布线问题凸显:缩着芯片复杂度增加,片上资源的互连
    Jeffreyzhang123 2024-12-27 10:26 92浏览
  • 在当今这个数字化的时代,电子设备无处不在,从我们手中的智能手机、随身携带的笔记本电脑,到复杂的工业控制系统、先进的医疗设备,它们的正常运行都离不开一个关键的 “幕后英雄”—— 印刷电路板(Printed Circuit Board,简称 PCB)。PCB 作为电子设备中不可或缺的重要部件,默默地承载着电子元件之间的连接与信号传输,是整个电子世界的基石。揭开 PCB 的神秘面纱PCB,简单来说,就是一块由绝缘材料制成的板子,上面通过印刷、蚀刻等工艺形成了导电线路和焊盘,用于固定和连接各种电子元件。
    Jeffreyzhang123 2024-12-27 17:21 110浏览
  • 从教师的角度来看,麻省理工学院开除因学术造假的学生,这一决定是合理且必要的。首先,学术诚信是学术研究的基石。在学术界,真实性和原创性是至关重要的。学术造假不仅破坏了学术研究的公正性和准确性,还损害了学术领域的整体声誉。因此,对于任何形式的学术不端行为,包括伪造数据、抄袭等,学校都应采取严厉措施,以维护学术诚信。其次,学校对学生具有管理权,包括对学生的处分权。按照相关规定,学校有权对违纪学生进行警告、严重警告、记过、留校察看、勒令退学、开除学籍等处分。开除学籍是一种严厉的处分,通常适用于严重违反学
    curton 2024-12-28 21:49 75浏览
  • 引言工程师作为推动科技进步和社会发展的核心力量,在各个领域发挥着关键作用。为深入了解工程师的职场现状,本次调研涵盖了不同行业、不同经验水平的工程师群体,通过问卷调查、访谈等方式,收集了大量一手数据,旨在全面呈现工程师的职场生态。1. 工程师群体基本信息行业分布:调研结果显示,工程师群体广泛分布于多个行业,其中制造业占比最高,达到 90%,其次是信息技术、电子通信、能源等行业。不同行业的工程师在工作内容、技术要求和职业发展路径上存在一定差异。年龄与经验:工程师群体以中青年为主,30 - 45 岁年
    Jeffreyzhang123 2024-12-27 17:39 130浏览
  • 起源与基础20 世纪 60 年代:可编程逻辑设备(PLD)的概念出现,一种被称为 “重构能力” 的芯片的可编程性吸引了许多工程师和学者。20 世纪 70 年代:最早的可编程逻辑器件 PLD 诞生,其输出结构是可编程的逻辑宏单元,它的硬件结构设计可由软件完成,设计比纯硬件的数字电路更灵活,但结构简单,只能实现小规模电路。诞生与发展20 世纪 80 年代中期:为弥补 PLD 只能设计小规模电路的缺陷,复杂可编程逻辑器件 CPLD 被推出,它具有更复杂的结构,能够实现较大规模的电路设计。1988 年:
    Jeffreyzhang123 2024-12-27 10:41 78浏览
  • 在当今这个科技飞速发展的时代,物联网(IoT)已经不再是一个陌生的概念,它正以一种前所未有的速度改变着我们的生活和工作方式,像一股无形的力量,将世界紧密地连接在一起,引领我们步入一个全新的智能时代。物联网是什么简单来说,物联网就是通过感知设备、网络传输、数据处理等技术手段,实现物与物、人与物之间的互联互通和智能化管理。想象一下,你的家里所有的电器都能 “听懂” 你的指令,根据你的习惯自动调节;工厂里的设备能够实时监测自身状态,提前预警故障;城市的交通系统可以根据实时路况自动优化信号灯,减少拥堵…
    Jeffreyzhang123 2024-12-27 17:18 98浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦