英伟达、高通、特斯拉、Mobileye智驾芯片真实算力大比拼

智驾最前沿 2023-08-09 09:00

--关注、星标、回复“智驾圈子”--

↓↓查看:「智驾最前沿」智驾圈子资料目录↓↓

AI运算最关键之处是存储而非AI处理器本身,AI运算90%的功耗和延迟都来自存储或者说都来自数据的搬运。90%的工况下,AI处理器都在等待存储系统搬运数据,而运算系统所需要的时间几乎是可以忽略的,所以存储系统的好坏实际决定了真实的算力大小,其中存储带宽基本可以等同于存储系统的好坏,也基本等同真实算力的高低。

欢迎关注「智驾最前沿」微信视频号

在Transformer时代,模型参数至少10亿以上,模型至少1GB大小,存储带宽也决定了能不能运行Transformer。此外,存储还决定了功耗,根据英特尔的研究表明,AI芯片(加速器)当半导体工艺达到 7nm 时,数据搬运功耗高达 35pJ/bit,占总功耗的63.7%。


常见芯片存储带宽统计

上表中单芯片最强的是AMD的MI300X,英伟达的H100 NVL是双系统并联。Mobileye的EyeQ5垫底,主要是因为其是2016年左右设计的,当时LPDDR4X的标准还未出台。数据中心或者说服务器级别的存储带宽有压倒性的优势,同样成本也是极高,现在HBM3每GB大约30-40美元(据说现在因为AI太火,且HBM3目前是SK hynix独家供应,产能有限,HBM价格涨了4-5倍,那就是120-200美元,应该不大可能,但是涨一倍还是有可能的)。

以AMD的MI300X为例,单单HBM的成本就达到5760-7680美元,这么高的价格在汽车领域是无法承受的。这也反向证明了存储带宽的重要性。HBM不仅带宽高,而且离运算单元的物理距离相比PCB板上的DRAM更近,存储到运算单元的传输时间就更短。

除了HBM,还有一种办法就是在芯片内部大量使用昂贵的SRAM,如特斯拉Dojo D1,354个核心440MB的SRAM,每MB的SRAM成本约15-20美元,仅此一项近9000美元。SRAM带宽大约800GB/s,不过SRAM容量太低,不太适合ChatGPT这样的大模型。Dojo D1的外围还是有32GB的HBM,但特斯拉的HBM带宽只有900GB/s。低带宽加上Dojo D1近似CPU的架构设计,注定其算力很低,但灵活性极高。

还有一点需要注意,上表中有些是纯AI芯片或GPU,类似于显卡,其内存就是显存。有些是SoC,其内存是与CPU共享的,共享DRAM自然不如单独显存带宽。对AI芯片或GPU来说,权重模型读出后就放在显存里,SoC的话,权重模型读出后放在共享DRAM里。

再有,这些带宽都是理论带宽,实际利用效率要看内存控制器和物理层的效率,最高能到98%左右,低的话只有约90%。其次,带宽还因为与计算单元的物理距离再打折扣,芯片内部的SRAM基本可以做到理论带宽,HBM可能还有5%的缩水,PCB板上的可能有10-15%的缩水。

还有一点LPDDR5的带宽反而不如LPDDR4X,这是因为LPDDR5更注重速度,主要服务对象是CPU而非AI芯片。

AMD的MI300X在宣传时特别点出其使用192GB的HBM3(两侧的黑色大方块就是HBM3,总共8块,每块24GB),带宽高达5.2TB/s,Infinity Fabric存储(即CPU共享存储)带宽也高达896GB/s,并且强调MI300X存储带宽是英伟达H100的1.6倍。


为何存储系统决定了实际算力?

所谓人工智能AI推理部分,其运算量最大的部分是卷积运算,卷积运算分解到最底层就是输入视频序列(或语句序列等矩阵)矩阵与训练好的权重模型矩阵的乘积再累加偏值b。乘积运算所消耗的时间是纳秒级甚至皮秒级,典型Transformer的参数是1GB以上,内存带宽如果是34GB/s,那么仅每次读取模型就要消耗29毫秒,读取的同时还需要写入,与计算单元的速度相比差了千倍以上。

这就是所谓的内存墙,算力数字游戏毫无意义,出现内存墙的原因是内存的带宽与后端计算单元的速度严重不匹配,而不是冯诺依曼架构特有的,哈佛架构一样会有;另外,内存的带宽和速度是完全不同的概念,速度的单位是MHz,比如2133MHz,指内存的响应速度,每秒有2133百万次响应,也是纳秒级。

与个人电脑系统一样,如今的车载计算系统也有硬盘,训练好的权重模型存在硬盘即eMMC或UFS里,UFS 4.0版本的接口带宽是23.2Gbps也就是2.9GB/s,远低于DRAM的带宽,连LPDDR3都不如,eMMC就更低了,只有400MB/s。目前电脑硬盘是M.2接口居多,M.2跑PCIe 4.0的话带宽是64GB/s。所以未来UFS会被M.2 SSD取代。

每次运算的时候,CPU发出指令,权重模型从UFS中被取出暂存在DRAM中,如果有显存的话,就放在显存里,通常显存比共享DRAM带宽要高得多,这样每次运算就无需从UFS中取出,这也是DRAM和显存存在的意义,它的速度比UFS快太多了。

来源:Winbond

上图可以看出模型参数飞速增长,而存储带宽增长的异常缓慢。即使在边缘端,YOLO V7的模型大小也有1.5GB大小(INT8),META的语义分割SAM有4GB大小。CNN时代模型参数一般不超过1000万,用INT8格式就是大约10MB大小,芯片内部的SRAM内存勉强可以装下,每MB的SRAM成本大约20-50美元,而Transformer时代,最小都有1GB,即便是特斯拉数据中心Dojo D1这样的芯片其SRAM总容量也不到0.5GB,芯片内部肯定放不下,只能通过外部的内存。

一个系统的存储带宽由两方面决定,一是存储器本身,二是运算芯片的内存通道数。以前作者本人都忽略了后者,犯了不少错误,向大家致以深深的歉意。内存通道数部分可以看成是内存位宽,不过也有例外。

来源:Meta

上图是Meta(FACEBOOK,FACEBOOK在AI界仅次于谷歌,领先微软,CAFFE2和PyTorch仅次于TensorFlow,FAIR也是成果众多,特斯拉的骨干网RegNet就来自FACEBOOK)的第一颗自研芯片MTIA V1,非常老实地标注102.4TOPS的算力,其采用LPDDR5内存,带宽176GB/s,内部采用了64GB的SRAM,带宽800GB/s。其算力较低主要原因是运算频率太低,仅有800MHz,再有就是外部带宽仅176GB/s。之所以频率低可能也是为了对应内存带宽,内存带宽不够,后面频率再高也没用。

看存储带宽也可以看存储器的Datasheet,比如特斯拉的第一代FSD用的存储是LPDDR4,型号是 MT53D512M32D2DS-046 AAT,容量为 16Gb,总共 8 片,I/O 频率2133MHz。

来源:美光

上面是MT53D512M32D2DS-046 AAT的DATASHEET,这是美光的芯片。美光几乎垄断汽车高端DRAM市场,市占率在90%以上,厂家明确指出单die的上限是8.5GB/s(这个已包含了DDR双通道),特斯拉这颗MT53D512M32D2DS-046 AAT是两个Die,即17GB/s,加上特斯拉第一代FSD的存储带宽是128bit,即双通道,就是34GB/s,有人认为两个FSD芯片,应该是68GB/s,不过每个芯片的总线位宽不变,两个芯片即使用PCIe连接,并不等同于存储系统增加了带宽。

来源:英伟达

英伟达官方资料,4个Orin并联,内存带宽还是204GB/s。

来源:特斯拉

上图是特斯拉AI日上展示的视觉架构,注意这仅仅是视觉特征提取与语义分割以及多头注意力,不包含特斯拉所谓的矢量空间转换(实际就是NeRF主导的BEV算法,加了道路模型),也不包含决策控制部分,根据特斯拉的介绍,其决策控制部分是蒙特卡洛树搜索算法。

这个视觉架构里实际不止一个Transformer,HydraNet的多任务也是用的Transfomer。除了Transfomer,RegNet和BiFPN的权重模型也不会太小,大概有0.5GB大小,如果要流畅地运行,读取权重模型的速度至少要做到每秒200次,那么存储带宽至少得400GB/s以上,600GB/s以上运行起来会比较流畅,第一代FSD的存储带宽只有34GB/s,根本做不到,即使翻倍也做不到。

所以特斯拉才在第二代FSD芯片选择了支持GDDR6,支持GDDR6需要几个条件,首先是要购买GDDR6物理层的IP;其次是要购买GDDR6的控制器IP;然后是PCB板可能需要增加层数或者用低介电常数材料;最后是CPU也要加强。第一代HW3.0即使换上GDDR6也是毫无作用,第一代FSD芯片只支持LPDDR4。需要指出目前没有车规级GDDR6,因为GDDR6本来是针对显卡市场开发的,没有考虑车载,特斯拉用的GDDR6是美光提供的D9PZR,当然也没过车规,它的最低工作温度下限是零度,而非车规级的是零下40度,不过特斯拉从来也不在乎车规。特斯拉不仅用了昂贵的GDDR6,容量相比HW3.0也增加了一倍,达到32GB,数量达到16片。

GDDR6最高带宽是672GB/s,也就是384位宽。目前还有GDDR6x,最高1008GB/s,追平HBM2,但由于物理距离远大于HBM,还是无法与HBM2相比。

来源:Cadence

想不到吧,存储第一大厂三星的GDDR6物理层是购买自CADENCE的,另外一家能供应GDDR6物理层的是RAMBUS,RAMBUS的主要收入来自存储物理层IP,每年也有大概1.4亿美元的收入。

随着权重模型的持续膨胀,存储成本会飞速增加,为了真正流畅运行大模型,单单存储方面就需要增加3000-5000美元的成本,这在汽车领域完全无法想象。

增加存储带宽也要加强CPU,这是因为GPU和AI芯片都是协处理器,也就是Device。CPU才是Host主机,GPU和AI芯片和鼠标键盘显示器打印机一样都算是外设,任务的分派和调度,数据流的控制以及数据的读取和写入均受CPU控制,上图就是CPU如何控制GPU工作的流程。数据首先是在CPU指令调度下才读取的,数据整形(如果AI芯片或GPU内部有标量运算单元也可以做)后再交给GPU,计算完后再传输给CPU写入内存。某些系统会有DMA(Direct Memory Access, 即直接存储器访问)如MCU,DMA是指无需经过CPU的直接存储,但需要经过数据总线,数据总线带宽未必有内存宽,DMA主要是缓解CPU的工作压力,因为MCU内部的CPU性能很弱。数据中心也有一些基于通讯协议的DMA,通常只用于数据中心的多显卡系统。

算力数字是浮云,唐代李白有诗句“总为浮云能蔽日,长安不见使人愁”,明白了存储带宽就不愁算力数字浮云,可以学王安石《登飞来峰》“飞来山上千寻塔,闻说鸡鸣见日升。不畏浮云遮望眼,自缘身在最高层”。

转载自佐思汽车研究,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。

-- END --

智驾最前沿 「智驾最前沿」深耕自动驾驶领域技术、资讯等信息,解读行业现状、紧盯行业发展、挖掘行业前沿,致力于助力自动驾驶发展与落地!公众号:智驾最前沿
评论
  • //```c #include "..\..\comm\AI8051U.h"  // 包含头文件,定义了硬件寄存器和常量 #include "stdio.h"              // 标准输入输出库 #include "intrins.h"         &n
    丙丁先生 2024-12-20 10:18 84浏览
  • 汽车行业的变革正愈演愈烈,由交通工具到“第三生活空间”。业内逐渐凝聚共识:汽车的下半场在于智能化。而智能化的核心在于集成先进的传感器,以实现高等级的智能驾驶乃至自动驾驶,以及更个性、舒适、交互体验更优的智能座舱。毕马威中国《聚焦电动化下半场 智能座舱白皮书》数据指出,2026年中国智能座舱市场规模将达到2127亿元,5年复合增长率超过17%。2022年到2026年,智能座舱渗透率将从59%上升至82%。近日,在SENSOR CHINA与琻捷电子联合举办的“汽车传感系列交流会-智能传感专场”上,艾
    艾迈斯欧司朗 2024-12-20 19:45 98浏览
  • ALINX 正式发布 AMD Virtex UltraScale+ 系列 FPGA PCIe 3.0 综合开发平台 AXVU13P!这款搭载 AMD 16nm 工艺 XCVU13P 芯片的高性能开发验证平台,凭借卓越的计算能力和灵活的扩展性,专为应对复杂应用场景和高带宽需求而设计,助力技术开发者加速产品创新与部署。随着 5G、人工智能和高性能计算等领域的迅猛发展,各行业对计算能力、灵活性和高速数据传输的需求持续攀升。FPGA 凭借其高度可编程性和实时并行处理能力,已成为解决行业痛点的关
    ALINX 2024-12-20 17:44 84浏览
  • 百佳泰特为您整理2024年12月各大Logo的最新规格信息。——————————USB▶ 百佳泰获授权进行 USB Active Cable 认证。▶ 所有符合 USB PD 3.2 标准的产品都有资格获得USB-IF 认证——————————Bluetooth®▶ Remote UPF Testing针对所有低功耗音频(LE Audio)和网格(Mesh)规范的远程互操作性测试已开放,蓝牙会员可使用该测试,这是随时测试产品的又一绝佳途径。——————————PCI Express▶ 2025年
    百佳泰测试实验室 2024-12-20 10:33 116浏览
  • 随着工业自动化和智能化的发展,电机控制系统正向更高精度、更快响应和更高稳定性的方向发展。高速光耦作为一种电气隔离与信号传输的核心器件,在现代电机控制中扮演着至关重要的角色。本文将详细介绍高速光耦在电机控制中的应用优势及其在实际工控系统中的重要性。高速光耦的基本原理及优势高速光耦是一种光电耦合器件,通过光信号传递电信号,实现输入输出端的电气隔离。这种隔离可以有效保护电路免受高压、电流浪涌等干扰。相比传统的光耦,高速光耦具备更快的响应速度,通常可以达到几百纳秒到几微秒级别的传输延迟。电气隔离:高速光
    晶台光耦 2024-12-20 10:18 142浏览
  • 光耦固态继电器(SSR)作为现代电子控制系统中不可或缺的关键组件,正逐步取代传统机械继电器。通过利用光耦合技术,SSR不仅能够提供更高的可靠性,还能适应更加复杂和严苛的应用环境。在本文中,我们将深入探讨光耦固态继电器的工作原理、优势、挑战以及未来发展趋势。光耦固态继电器:如何工作并打破传统继电器的局限?光耦固态继电器通过光电隔离技术,实现输入信号与负载之间的电气隔离。其工作原理包括三个关键步骤:光激活:LED接收输入电流并发出与其成比例的光信号。光传输:光电传感器(如光电二极管或光电晶体管)接收
    腾恩科技-彭工 2024-12-20 16:30 49浏览
  • 国产数字隔离器已成为现代电子产品中的关键部件,以增强的性能和可靠性取代了传统的光耦合器。这些隔离器广泛应用于医疗设备、汽车电子、工业自动化和其他需要强大信号隔离的领域。准确测试这些设备是确保其质量和性能的基本步骤。如何测试数字隔离器测试数字隔离器需要精度和正确的工具集来评估其在各种条件下的功能和性能。以下设备对于这项任务至关重要:示波器:用于可视化信号波形并测量时序特性,如传播延迟、上升时间和下降时间。允许验证输入输出信号的完整性。频谱分析仪:测量电磁干扰(EMI)和其他频域特性。有助于识别信号
    克里雅半导体科技 2024-12-20 16:35 67浏览
  • Supernode与艾迈斯欧司朗携手,通过Belago红外LED实现精准扫地机器人避障;得益于Belago出色的红外补光功能,使扫地机器人能够大大提升其识别物体的能力,实现精准避障;Belago点阵照明器采用迷你封装,兼容标准无铅回流工艺,适用于各种3D传感平台,包括移动设备、物联网设备和机器人。全球领先的光学解决方案供应商艾迈斯欧司朗(瑞士证券交易所股票代码:AMS)近日宣布,与国内领先的多行业三维视觉方案提供商超节点创新科技(Supernode)双方联合推出采用艾迈斯欧司朗先进Belago红
    艾迈斯欧司朗 2024-12-20 18:55 78浏览
  • 耳机虽看似一个简单的设备,但不仅只是听音乐功能,它已经成为日常生活和专业领域中不可或缺的一部分。从个人娱乐到专业录音,再到公共和私人通讯,耳机的使用无处不在。使用高质量的耳机不仅可以提供优良的声音体验,还能在长时间使用中保护使用者听力健康。耳机产品的质量,除了验证产品是否符合法规标准,也能透过全面性的测试和认证过程,确保耳机在各方面:从音质到耐用性,再到用户舒适度,都能达到或超越行业标准。这不仅保护了消费者的投资,也提升了该公司在整个行业的产品质量和信誉!客户面临到的各种困难一家耳机制造商想要透
    百佳泰测试实验室 2024-12-20 10:37 154浏览
  • 光耦合器,也称为光隔离器,是用于电气隔离和信号传输的多功能组件。其应用之一是测量电路中的电压。本文介绍了如何利用光耦合器进行电压测量,阐明了其操作和实际用途。使用光耦合器进行电压测量的工作原理使用光耦合器进行电压测量依赖于其在通过光传输信号的同时隔离输入和输出电路的能力。该过程包括:连接到电压源光耦合器连接在电压源上。输入电压施加到光耦合器的LED,LED发出的光与施加的电压成比例。光电二极管响应LED发出的光由输出侧的光电二极管或光电晶体管检测。随着LED亮度的变化,光电二极管的电阻相应减小,
    腾恩科技-彭工 2024-12-20 16:31 69浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦