近日,特斯拉的人工智能日举办的如火如荼,长大三小时的演示,给我们超多的惊喜,不仅带来了全新的硬件技术,还给我们带来了目前业界最强大的神经网络模型,那么我们期望的L4级别自动驾驶究竟还有多远呢?

 

近日,特斯拉的人工智能日举办的如火如荼,不仅有汽车用芯片、零部件和系统还有软件上的机器学习和神经网络,由这些令人惊喜的软硬件结合的汽车又会在业界掀起“血雨腥风”。Tesla CEO 埃隆马斯克和芯片设计团队在超过三个小时的展示中提供了大量的技术细节(据统计,此次演示吸引了超过163万次浏览),长达三个小时的展示重点都在本文列出。

 

Tesla AI 日演示视频截图(来源:Tesla)

神经网络

特斯拉设计了一种灵活的可拓展的分布式计算机体系结构,专门针对神经网络进行了特殊优化,最早使用这种架构是D1专用芯片上,其拥有354个训练节点,每个节点都有一个性能强大的计算单元,这种多节点分布式的CPU结构专门为高性能神经网络和机器学习而设计,对于32bits的浮点运算有着64 GFLOPS的优势。对于这种拥有354个CPU的芯片,32bits浮点运算最大性能为22.6TFLOPS,而对于16bits来说,D1芯片最大性能可发挥到362TFLOPS。

 

Tesla AI Day展示内容汇总(图源:EE times)

特斯拉还引入了两个神经网络训练系统:“the Training Tile(训练模块)”和“ExaPOD”,并且在每个训练模块的封装中包含25个D1芯片,这25个芯片共同构成包含8850个训练节点的系统。对于32bits的浮点运算,一个训练模块最大性能为565 TFLOPS。另一个重点的亮点是ExaPOD将120个训练模块连接到一个系统中,将3000个D1芯片和106万个训练节点连接起来,对于32bits浮点运算来说,ExaPOD最大性能将高达67.8PFLOPS。

D1芯片和Dojo神经网络训练系统可以说是Tesla未来的方向,并且其背后的研发资金投入也是高的吓人,后续Tesla可能会和业界其他公司分享这些先进技术----给公司带来全新的收入来源,就像之前出售给其他OEM商的BEVs技术。下表中列举出Tesla神经网络产品的最新亮点,表格中数据是又EE times 资深编辑 Egil Juliussen整理,还加入了很多芯片和架构的释义和理解。

 

图源:EE Times ---Egil Juliussen

特斯拉设计目标是最大限度的平衡芯片和系统的性能----计算性能、高带宽和计算节点间的低延迟通信。业内目前有一个共同的难题是高带宽和低延迟一直难以让计算节点扩展到成百上千个,但是此次Tesla给业内展示的似乎已经成功的将所有参数组成一个网络架构中,也找到了其中最大性能的微妙平衡。

训练节点

训练节点是D1芯片上最小的的训练单元,拥有1个64位4线程的核心处理器,可以执行2维矢量8x8维的乘法运算。并且该中央处理器指令集架构是为机器学习和神经网络训练任务量身定做,该CPU支持多种浮点运算形式----8位、16位、32位、FP32、BFP16以及一种全新的格式CFP8和FP8格式。并且该CPU内置了1.25MB高速SRAM存储器,用于程序和数据存储,并且使用ECC纠错算法来提高可靠性。

为了获得训练节点之间的低延迟,Tesla选择了一个信号主频2GHz时钟频率,据悉该频率下信号可以传播的最远,这也决定了不同训练节点之间的物理距离,以及CPU和其他电子设备之间的配合程度(CPU以每秒512G bit的速率与其他模块通信)。

D1 芯片

整个介绍中最令人印象深刻的当属D1系列芯片了,这款专门为神经网络训练专用芯片采用了7nm工艺,在约645平方毫米的芯片上集成了500亿个晶体管,其内部有超过17.7公里长的导线和400W左右的功耗。不仅如此,D1芯片拥有一个高速率、低功耗的输入输出环,而一共有576个通道环绕在芯片周围,每条通道信号转换速率为112Gb/ps,最大的片上传输速率高达10Tb/ps,板载芯片间传输速率也高达4 Tb/ps。

我们回过头来看D1芯片拥有354个CPU,每个CPU都配备了1.25MB的SRAM缓存,加起来就有442MB的缓存空间,在354个CPU同时训练时就能发挥出其堪称“恐怖”的运算力。

训练模块

Tesla的训练模块是其人工智能系统的基石,一个训练模块集成了25个D1芯片,并且这25层die都被封装在一个多芯片专用模块(MCM)中,这也是目前业界最大的MCM专用封装芯片了。Tesla这种封装包括多层电源和控制、电路分配、计算核心和冷却散热通道等系统,并且如此大的封装也被安装在其专用的IT中心内,而非自动驾驶车辆上。

 

Tesla MCM 封装(图源:Tesla)

这种MCM封装内包含25个CPU运算核心其16bits浮点运算算力高达9千兆,而32bits浮点算力达到了565千兆,并且Tesla还将12组2x3x2组合的训练模块再安装到一个巨型计算机中,并命名为训练矩阵。

ExaPOD

由上述多个训练模块组成目前最大的神经网络训练系统----ExaPOD,拥有120块训练模块,加起来一共有3000个D1芯片和106.2万个训练节点,如此多的硬件设备被安置在10个服务器组机柜上。整个ExaPOD系统对于16bits浮点运算来说能达到的最大算力性能为1.09 Exa FLOPS(Exa为百亿亿次,10的18次方)。

Dojo软件和DPU

Dojo软件的设计初衷是为了支持各种规模的神经网络训练,Tesla还拥有自主研发的编码器,可以对训练模块、D1芯片训练节点和ExaPOD等系统进行整合,还兼容目前十分流行的Pytorch开源机器学习库来进行强化训练。

 

软件结构(图源:Tesla)

软件允许大型神经网络被分割成零星的部分,用来满足不同的并行计算,模型训练和平行数据传输等需求,从而加速整个神经网络的训练。编译器还会对多种技术提取并行,利用数据模型图进行底层优化,减少内存占用。

Dojo处理器还可用于IT中心的主机通信,通过PCI-E 4.0链接到D1处理器系统,并且还和D1 CPU共享高速DRAM缓存。Dojo内的DPU由接口处理器、一个或者多个计算单元构成,运行在DPU系统的神经网络可以随时随地根据需求放大和缩小。

行业基准

特斯拉的神经网络训练芯片、系统和软件令人印象深刻,超高带宽和极低的系统时延几乎是业内难以企及的高度,而全新的MCM封装也是业内首创;不仅仅硬件创新其软件和系统层面也有着令人震惊的进步,神经网络训练模型和潜在应用于全新的自动驾驶技术软件,给业界带来无限幻想。

似乎这一切都在向我们透露出特斯拉希望依托神经网络算法和强大的硬件性能加持,使其电动汽车达到L3/L4级别的自动驾驶,而埃隆马斯克能否给我们带来划时代的“惊雷”呢?就让时间告诉我们答案。

 

责编:我的果果超可爱

编译自:Tesla AI Day Perspectives     ----EE times

 

阅读全文,请先
您可能感兴趣
这些故障与特斯拉最新版本的HW4(内部代号为AI4.1)自动驾驶电脑紧密相关。有消息人士透露,在摄像头校准过程中,低压电池可能导致了电脑短路,这是目前调查中的一种可能性。
纵目科技方面回应称,公司目前运营正常,员工社保公积金也在正常缴纳。由于业务资金调整,公司对员工整体薪资进行了短期调整,预计在1至2个月后,随着营收款入账,会对员工的薪资进行补偿。
在华为Mate品牌盛典上,除了备受瞩目的Mate 70系列手机外,华为还推出了两款高端新品——HUAWEI WATCH ULTIMATE DESIGN非凡大师系列手表和尊界S800豪华轿车。这两款产品以其卓越的设计和性能,再次彰显了华为在高端市场的雄心。
ITSA报告对当前的V2X应用进行了分析,并对两个关键的V2X部分进行了展望——使用5.9GHz频谱的直连V2X和使用4G LTE和5G蜂窝通信的网联V2X。此外,该报告还对未来在5.9GHz当前30MHz带宽限制之外的扩展进行了展望。
如果新的法规能够实施,特斯拉毫无疑问将能够更自由地部署其无人驾驶技术,从而推动无人驾驶出租车(如Cybercab)的大规模生产。
业界分析指出,BYD 9000芯片在规格上与联发科的车规级智能座舱芯片MT8673有着诸多相似之处,这引发了市场关于比亚迪与联发科之间可能存在合作关系的猜测。
目前,智能终端NFC功能的使用频率越来越高,面对新场景新需求,ITMA多家成员单位一起联合推动iTAP(智能无感接近式协议)标准化项目,预计25年上半年发布1.0标准,通过功能测试、兼容性测试,确保新技术产业应用。
中科院微电子所集成电路制造技术重点实验室刘明院士团队提出了一种基于记忆交叉阵列的符号知识表示解决方案,首次实验演示并验证了忆阻神经-模糊硬件系统在无监督、有监督和迁移学习任务中的应用……
C&K Switches EITS系列直角照明轻触开关提供表面贴装 PIP 端子和标准通孔配置,为电信、数据中心和专业音频/视频设备等广泛应用提供创新的多功能解决方案。
投身国产浪潮向上而行,英韧科技再获“中国芯”认可
来源:苏州工业园区12月17日,江苏路芯半导体技术有限公司掩膜版生产项目迎来重要进展——首批工艺设备机台成功搬入。路芯半导体自2023年成立以来,专注于半导体掩膜版的研发与生产,掌握130nm至28n
近期,多个储能电站项目上新。■ 乐山电力:募资2亿建200MWh储能电站12月17日晚,乐山电力(600644.SH)公告,以简易程序向特定对象发行A股股票申请已获上交所受理,募集资金总额为2亿元。发
有博主基于曝光的信息绘制了iPhone 17系列渲染图,对比iPhone 16系列,17系列最大变化是采用横置相机模组,背部DECO为条形跑道设计,神似谷歌Pixel 9系列,这是iPhone六年来的
万物互联的时代浪潮中,以OLED为代表的新型显示技术,已成为人机交互、智能联结的重要端口。维信诺作为中国OLED赛道的先行者和引领者,凭借自主创新,实现了我国OLED技术的自立自强,成为中国新型显示产
2024年度PlayStation游戏奖今日公布,《宇宙机器人》获得年度最佳PS5游戏,《使命召唤:黑色行动6》获得年度最佳PS4游戏。在这次评选中,《宇宙机器人》获得多个奖项,包括最佳艺术指导奖、最
12月18 日,据报道,JNTC与印度Welspun BAPL就车载盖板玻璃的开发及量产签订了投资引进业务合作备忘录(MOU)。资料显示,JNTC是韩国的一家盖板玻璃厂商。Welspun的总部位于印度
“ 洞悉AI,未来触手可及。”整理 | 美股研究社在这个快速变化的时代,人工智能技术正以前所未有的速度发展,带来了广泛的机会。《AI日报》致力于挖掘和分析最新的AI概念股公司和市场趋势,为您提供深度的
在科技浪潮翻涌的硅谷,马克·扎克伯格不仅是“脸书”帝国的掌舵人,更是以其谦逊低调的形象,在公众心中树立了独特的领袖风范。然而,在镁光灯难以触及的私人领域,扎克伯格与39岁华裔妻子普莉希拉·陈的爱情故事
今天上午,联发科宣布新一代天玑芯片即将震撼登场,新品会在12月23日15点正式发布。据悉,这场发布会联发科将推出全新的天玑8400处理器,这颗芯片基于台积电4nm制程打造,采用Arm Cortex A
极越汽车闪崩,留下一地鸡毛,苦的是供应商和车主。很多人都在关心,下一个倒下的新能源汽车品牌,会是谁?我们都没有未卜先知的超能力,但可以借助数据管中窥豹。近日,有媒体统计了15家造车新势力的销量、盈亏情