↓↓领取:《汽车驾驶自动化分级》(GB/T 40429-2021)↓↓在电子电气架构从分布式向域集中式演进的过程中,行泊一体域控方案应运而生。据不完全统计,到现在为止,国内至少已经有十几家厂商发布了行泊一体域控的解决方案。整体来讲,行泊一体技术方案可以划分为中低算力(轻量级)行泊一体域控方案和大算力行泊一体域控方案。无论是轻量级行泊一体域控,还是大算力行泊一体域控,都会有单SoC芯片配置和多SoC芯片配置之分。在当前阶段,多SoC芯片配置是一种比较常见的行泊一体硬件架构方案。1)中低算力级别:3*J3, J3+TDA4以及双TDA4等2)大算力级别:双Orin-X,4Orin-X 以及 2*SA8540P+SA9000P等基于当前芯片技术的发展和不同等级自动驾驶对域控方案的性能需求,不少业内人士一致认为,中短期内,大算力行泊一体域控依然会继续沿用多SoC芯片方案;轻量级行泊一体域控将逐渐开始采用单SoC芯片方案。轻量级行泊一体域控方案的功能需求和系统应用 —— 用于实现什么样的功能、需要什么样的传感器配置、采用什么样的算法模型等,已经比较确定;另外,芯片厂商也在不断地推出可以支持单SoC芯片行泊一体域控方案的芯片,比如 黑芝麻的A1000L和A1000 、行歌的SD5223等。因此,单SoC芯片行泊一体方案将会率先在轻量级域控领域规模化量产落地。1.1 目前,为什么大算力行泊一体域控很少采用单SoC芯片方案?大算力行泊一体域控,比较常见的是采用英伟达的Orin芯片,比如国内的蔚小理、上汽智己、上汽非凡汽车、威马等品牌。他们有的是采用双Orin方案,也有采用4片Orin方案, 但是很少有采用单Orin方案,这是为什么呢?其一,采用Orin方案的车型,目前基本都属于前期拼配置的阶段,对成本尚不太敏感。各车厂希望能够在功能和算力上进行比拼,虽然采用多SoC芯片方案成本高,但广告宣传效果也会更好。其二,现阶段,算法厂商或者车厂自研的大算力域控相关的算法还不够成熟,仍需要进一步优化。因此,车厂在前期需要做好算力预埋,防止后期对算法模型进行优化时出现算力不够用的尴尬局面。其三,与大算力行泊一体域控的市场定位有关 —— 大算力域控用于支持更高阶的智能驾驶功能,对功能安全等级的要求较高,并且还需要做系统冗余的方案设计。然而,单SoC方案目前尚不能很好地满足大算力域控的这些要求,因此,在短期内,大算力域控还无法使用单SoC芯片方案来实现。1.2 对于单SoC芯片轻量级行泊一体方案,芯片厂商如何兼顾SoC芯片性能和成本上的平衡?对于芯片厂商而言,首先,他们需要把芯片性能定义好,以保证后续功能应用的拓展和升级。其次,他们也需要兼顾到芯片的成本。尤其是轻量级行泊一体域控方案,主机厂为了能够尽快地让其量产上车,一般采用软硬一体的打包解决方案,所以主机厂会重点关注两点:一是,它能不能尽快量产;二是,它有没有较高的性价比。在之前的分布式ECU架构方案下,行车和泊车功能分别用独立的控制器来实现:1个前向多功能摄像头模块(内部包含行车控制器)+ 1个泊车控制器。现在单个SoC芯片要把两者融合在一起,如何去平衡芯片的性能和成本,是一件很有挑战性的事情。那么,芯片公司又会如何应对这样的挑战呢?黑芝麻智能高级产品经理额日特介绍道:“我们在芯片设计之初,就把整个芯片的配置设计得比较完整和均衡,确保芯片在能够承担更多功能的同时,对各项应用也能提供足够的算力支持。同时,我们还考虑芯片设计的连续性问题,比如A1000L和A1000采用pin2pin的平台化方案设计,算力可以灵活配置,有利于降低客户域控平台的拓展升级成本。我们的产品通过不停地迭代,能够很好地做到成本和性能上的均衡。”1.3 关于单SoC芯片行泊一体方案,目前去掉外挂MCU合适么?现在的主控SoC芯片内部一般都内置有MCU模块,因此,一些Tier1在做单SoC芯片行泊一体方案开发的时候,也在考虑用SoC芯片内部的MCU去替代外挂的MCU。不过,现在大多数业内人士认为,目前尚不具备完全替代外挂MCU的条件,主要原因如下:1)与传统成熟工艺的外挂MCU相比,内置MCU的内存有限,影响规划控制算法模型及MCU系统软件部署。2)内置MCU在功能安全、实时性和可靠性方面与外挂MCU相比仍存在一定的差距。3)把一些系统软件和功能软件从已成熟开发完成的外挂MCU移植到内置MCU上可能会产生软件漏洞或软件缺陷上的一些风险。因此,短期来看,单SoC芯片的行泊一体方案,依然需要配合一个外挂MCU来实现行泊一体功能。 黑芝麻智能系统架构高级经理仲鸣告诉九章智驾:“黑芝麻的 SoC 芯片内置多颗MCU核心,用户可以灵活使用其处理高实时任务,同时它们也可以用来承担信息安全和功能安全两个重要任务 —— 满足HSM 信息安全要求以及诊断和监控等一些功能安全方面的功能,这些功能可以很好地在有限的存储空间内实现。 “但是,从整个业内的芯片产品以及软件算法的发展来看,在现阶段,把整套AUTOSAR及规控相关的应用程序全部从外挂MCU移植到SoC内部的MCU仍存在一定的挑战。1)内置MCU存储空间有限, 采用高阶制程的处理器现在还无法支持内部的 Flash 存储集成,必须外挂一个Flash 存储器。相比之下,外挂MCU多采用传统成熟的制程,内存空间也大,数据/软件代码都可以存放在芯片内的 Flash存储器 ,因此外挂MCU可以运行稍大一些的算法模型,并且运算速度较快。2)内置MCU在低功耗方面处于劣势,考虑到大型处理器结构复杂,在休眠的时候,作为子系统的内置MCU模块很难做到像外挂MCU一样极低的休眠功耗和丰富的唤醒功能。”1.4 如何做好单SoC芯片行泊一体方案在功能安全和信息安全上的有效隔离?在芯片设计之初,硬隔离设计是过安全认证的一个非常重要的环节。芯片内部不同模块之间数据的相互访问控制,可以避免数据的误操作和数据的泄露,对信息安全和功能安全都有至关重要的作用。同时,它还可以起到对外设的保护作用。外设的保护主要是功能安全方面的防护 —— 当传输一些重要的功能安全数据的时候,不会被其它的核心模块所干扰,进而避免功能安全相关的数据(比如刹车、油门等执行控制信号)出错。如果是多个SoC芯片级联的方案,系统会更复杂,所要考虑的因素会更多,不仅要考虑单个芯片内部的隔离,还要考虑芯片与芯片之间的隔离,因此整个系统的隔离设计会更加复杂。对于单SoC芯片行泊一体方案,主流的SoC芯片上面都会内置有功能安全岛 - Safety MCU ,相当于是一个“监督者”的角色 —— 不断地去监控SoC内部其它重要模块的工作情况。因为错误的来源是单向的,所以,当某个硬件模块出现问题,该模块可以直接通过内部的硬件机制汇报给功能安全岛。单SoC芯片方案使得系统的集成度更高,不仅降低了系统隔离设计的难度,也提升了系统的可靠性。“现在大家的SoC芯片基本都是异构多核,可能有CPU+NPU+MCU+DSP+ISP等多种核。但是,这些核的能力有多强,能做哪些事情,因芯片厂家而异。“比如,有的SoC芯片内部只有1个或2个DSP,DSP可能全部被分配去做传统的CV图像处理,而黑芝麻的芯片内部有4个大型DSP,这些DSP除了做大量图像及激光算法处理之外,还承担实时管理神经网络加速器的工作。这样便无需占用CPU ARM核参与网络执行,大幅度释放CPU资源;并且,SoC芯片内置有MCU核 —— 实现内部其它计算核之间的通信监控以及报错的功能。“总之,SoC芯片内部的核越多越全面,结合硬件隔离技术的应用,能够做到支持不同功能、不同类别的应用空间也越大,确保各核之间互不影响、高可靠运行。”额日特讲道。2. 什么样的单SoC芯片才可以支持行泊一体功能?在轻量级域智驾域控方案中,需要多大的算力才能满足应用需求呢?仲鸣表示,在轻量级行泊一体域控方案中, 一般情况下,1颗800万像素前向摄像头大概会用到8TOPS左右的AI算力。4颗200万像素环视摄像头通常需要用到 4TOPS的AI算力。对于上述的AI算力需求来讲,A1000L(16TOPS)的AI算力是非常精准的设计。 另外,行车和泊车场景需要不同类型的核去完成相应的任务。例如,泊车场景下,3D环视全景的渲染和图像拼接都必须使用GPU来完成;行车场景下,摄像头和毫米波雷达的数据融合以及地图定位需有足够算力的CPU以及DSP去完成。在接口层面,芯片厂商不仅需要预留足够的传感器接口,同时还要考虑到这些传感器接入后,数据的处理对各类存储器和带宽的需求。最后,还要预留PCIE、USB等用于扩充算力和存储的一些接口,确保整个域控方案具有一定的可扩展性。总之,能同时支持行车和泊车的单SoC芯片应满足如下几项条件 ——据安霸软件研发高级总监孙鲁毅透露,如果用单SoC芯片去做入门级行泊一体方案,CPU的算力大概只需要20KDMIPS左右,如果有硬件加速,CPU算力需求可相应降低;而AI等效算力只需要十几个TOPS。 若支持高阶版单SoC行泊一体方案,CPU算力至少需要150KDMIPS,AI算力至少100TOPS。因为,高阶版的行泊一体方案需要接入更多路、更高分辨率的摄像头,甚至还需增加4D毫米波雷达、激光雷达等传感设备,并且运行的神经网络模型也要更大更复杂,因此CPU算力和AI算力需求都会呈7~10倍的增长。另外,行泊一体方案对算力的需求,与采用前融合处理还是后融合处理也存在较大关系。后融合是指各传感器独立输出各自的感知结果,并在决策层进行融合;而前融合是指把各传感器采集的数据经过时间和空间同步后,直接对原始数据进行融合。前融合相比于后融合,能够让数据更早地做融合,数据损失比较少,融合结果的质量也会有较大程度的提升。但是,前融合是对输入进来的不同模态的原始数据经过空间对齐后直接进行融合,不仅数据对齐过程中处理量大,并且还需要通过大规模神经网络运算识别出障碍物大小、位置等信息,因此前融合对SoC芯片的CPU算力和AI算力都提出了极大的要求。通常来看,能支持行泊一体功能的单SoC芯片主要包括以下几种处理单元:1)通用逻辑运算单元:通常是基于CPU来实现,主要负责一些逻辑运算任务,用于管理软硬件资源,完成任务调度,实现系统层面的功能逻辑、诊断逻辑以及影子模式数据挖掘功能等。一些典型的应用包括:基于优化的决策规划算法、车辆控制算法等。2)AI加速单元:通常是基于GPU或NPU等处理器来实现,承担大规模浮点数并行计算需求,会涉及到大量的典型神经网络的运算,主要用于摄像头、激光雷达等传感器数据的融合、特征提取、分类等。一些典型的应用包括:物体检测、车道线检测、红绿灯识别等。英伟达是采用GPU来实现,而其它主流的芯片厂商采用ASIC去实现,比如黑芝麻的DynamAI NN引擎, 安霸的NVP等。3)图像/视频处理单元:通常是基于DSP、ISP、GPU等处理器来实现。- ISP作为视觉处理芯片,其主要功能是对摄像头输出的图像信号做调校,包括 AE(自动曝光)、AF(自动对焦)、AWB(自动白平衡)、图像去噪等;
- DSP是一种具有特殊结构的微处理器,相比于通用CPU,它更适用于计算密集度高的处理工作。一些典型的应用包括:传统的CV图像处理、一些自定义算子的加速处理等;
- GPU具有较强的浮点运算能力,主要用于泊车场景中的图像拼接和渲染等工作。
4)内置MCU:用于实现功能安全和信息安全相关的一些基本任务,例如SoC内部各计算模块的状态监控和通信监控,以及在各模块出现问题后能够及时报错等。用于支持行泊一体方案的单SoC芯片需要预留足够多的传感器接口 —— 支持多路摄像头接入、多路以太网设备接入(4D毫米波雷达的主要接口是百兆以太网,激光雷达的主要接口是千兆以太网)、多路 CAN 接口设备接入(3D毫米波雷达)等。另外,能够支持多少类型或多少路的传感器接入,除了需要具备相应的接口和足够的算力支持外,对SoC内部的其它相关模块也有一定的要求。例如,摄像头主要考验的是内存带宽和ISP的处理能力,4D毫米波雷达主要考验的是CPU的算力,激光雷达对CPU算力、AI算力以及内存带宽的要求都很高。- 摄像头:摄像头应用的数量越来越多,分辨率也越来越高,对ISP的处理能力要求也越来越高。同时,多路高清摄像头数据的输入也需要较高的内存带宽来保证图像数据的传输和处理效率。
孙鲁毅讲到,之前摄像头内部一般集成有独立的ISP模块,现在ISP被集成到域控制器的主控SoC芯片上。如果ISP能够通过内置的SRAM对来自多路摄像头的图像输入进行计算,计算完之后再输出到内存,便可以有效降低多路摄像头输入对内存带宽的占用。- 4D毫米波雷达:标准的4D毫米波雷达输出结果是点云,各种点云的处理算法,比如聚类、特征降噪、感知、融合等,需要在SoC芯片内部进行执行,这些算法对于CPU的要求比较高。
- 激光雷达:激光雷达一般需要通过百兆网甚至千兆网接入。一般情况,它直接给SoC芯片输入原始数据,并在SoC芯片上进行原始数据的处理,需要跑一些复杂的神经网络算法,所以,它对SoC芯片内部的CPU算力、AI算力以及内存带宽都有比较高的要求。
由于市面上很少有一款合适的SoC芯片能够以单芯片来支持行泊一体方案,因此主机厂也只能被动接受双芯片甚至三芯片方案。然而,业内人士普遍认为,单SoC芯片方案才是“真正融合“的行泊一体方案。额日特说:“黑芝麻智能的A1000L和A1000芯片,无论性能,还是成本,都可以适配行泊一体方案的需求,可以作为目前市面上双芯片或三芯片行泊一体的替代方案 —— 其单芯片算力及架构足以分别支持入门级(5V5R )和高阶(10V5R)行泊一体感知解决方案。”那么,相比于多SoC芯片方案,基于黑芝麻智能A1000L或A1000的单SoC芯片行泊一体方案具有哪些优势呢?黑芝麻自研了两个车规级核心IP:深度神经网络处理器NPU - DynamAI NN引擎和图像信号处理器ISP - NeuralIQ ISP。为什么说这两个自研的IP可以给整个单SoC芯片(A1000L/A1000)行泊一体域控方案带来较高的能效呢?额日特向九章智驾解释道:“自动驾驶的算法模型有大有小,如果只有一种类型的加速器,让小模型跑到大的加速器上或者大模型跑到小加速器上,运算效率都会低很多。“考虑到这个因素,我们的NPU采用多维异构的架构,包括三维的矩阵(MAC - 做乘加器)、两维的矩阵以及一维的非线性的激活函数加速器等。另外,在NPU内部还有一个内置的DSP去做调度。“所以,整体上NPU的算力利用率很高,最高可以达到80%。“同时,我们的ISP采用高效的inline模式,摄像头数据从采集到ISP处理,全部在线完成无需进出DDR。因此,数据处理完成后能够及时地传送到NPU去处理,并通过适配不同的加速器来保证整体的流畅性和识别效率。因为自研核心IP的两个模块具有很高的配合度,所以一整套系统运作下来,链路更通畅,整体的效能也更优。”相比于多芯片方案,单SoC芯片方案的存储区域共享,所有的计算模块,不管是 CPU、NPU、GPU还是DSP ,他们之间不再需要去做片间的数据拷贝,这会大大提高传感器数据的处理效率。在单SoC行泊一体技术方案中,SoC芯片内部的CPU、NPU以及DSP等计算资源可以完全共享,通过系统调度,内部计算资源得到充分的利用,同时,相应的工作任务也能够高效完成。仲鸣举例说:“一般而言,行泊一体技术方案至少需要>20KDMIPS的CPU算力,如果是多SoC芯片方案,算力资源可能要被拆成多份跨SoC运行,相同任务的执行时间可能就要加倍。因为当芯片的计算资源被拆成多份后,很难有集中计算的能力,并且中间还会有一些数据同步或者汇总的操作,会影响整个系统的性能。“如果是单SoC方案,8个CPU核心放在一个SoC内,可以同时工作去执行一项任务,任务很快就被完成。”在单SoC芯片方案中,所有的传感器数据都会被传输到同一个SoC芯片内,并在存储器内共享。那么,数据的传输速率更快、时延更低,系统的响应时间也会更短,有利于不同类型摄像头(行车摄像头和泊车摄像头)的数据在对系统响应要求非常高的场景下进行复用。比如,泊车场景需要复用行车摄像头的数据实现前方或侧向物体的避障;行车场景需要复用泊车摄像头的数据来实现车辆的横向控制。另外,在一个SoC芯片上,系统通过软件能够统一去访问和调度芯片内部的资源,及时从各传感器接口获取到传感器的原始数据进行融合,并快速地得出结果。因此,单SoC芯片方案更有利于做传感器数据的前融合。额日特解释道:“前融合会涉及到时间同步的问题 :原始数据的时间戳是什么样的 - 摄像头的时间戳、毫米波雷达的时间戳、激光雷达的时间戳。“例如,一辆车配置有摄像头、毫米波雷达和激光雷达等多个传感器,这些传感器数据在做前融合时,会涉及到一个时间当量 —— 需要考虑这些传感器的数据分别在什么时间点传输进来,如果数据传输进来的时间点不一致,就不能做融合处理。“如果是多SoC芯片方案,这些传感器数据可能分别输入给不同的SoC芯片,需要考虑片间通讯的时延等问题,时间同步设计比较复杂;而在单SoC芯片方案中,所有传感器数据都直接发送到同一个芯片上,时间同步设计相对就要简单很多。”两个差不多算力量级的行泊一体域控方案,一种采用单SoC芯片,一种采用多颗SoC芯片拼凑到一块的形式,从系统整体成本上来看,单SoC芯片行泊一体方案系统成本会更低。仲鸣认为,多SoC芯片方案中不应只考虑单一SoC芯片的价格,若算总账,系统整体的成本还是非常高。因为每颗 SoC芯片都需要去适配自己的DDR存储器和电源模块等配套的基础设施。从典型的嵌入式系统来看,SoC本身的成本可能只占总成本的一半不到,另外一半的成本来自这些配套的基础设施,像eMMC 、NOR Flash 这些存储器,单SoC芯片只需要一份,多SoC芯片可能就需要配备多份存储设备资源。同样,每颗SoC芯片基本上都需要一个独立的 PMIC(电源管理模块)。这些配套的部件都是整个系统里不可忽略的成本。A1000L和A1000是平台化的产品 - 两款芯片 pin2pin设计,软硬件架构上完全兼容,有利于Tier1帮助车企打造平台化方案,降低整个平台的开发成本。“车厂内部一般都开发有不同定位的车型平台,比如低端平台会选一个小算力芯片,中高端平台选一个中等算力或大算力芯片;如果中高端平台的车型销量不高,并且平台本身的溢价也不高,那么,车厂为中高端平台重新去开发一个平台的成本就很难被均摊下来。“如果采用黑芝麻的芯片,可以低端平台用A1000L,中高端平台用A1000。因为两者采用相同的软硬件架构设计,在做平台拓展升级时,可能只需要稍微改动一下外设接口,但整个板子的基本架构不用动,再加上系统软件大规模的重用,这会带来隐形成本的大幅度降低。”额日特介绍说。在当前缺芯的大环境下,芯片使用数量的减少,可以减轻芯片厂商在库存和供应链管理方面的压力。额日特表示,单SoC芯片方案不但对主控SoC芯片本身的供应链管理非常友好,并对其配套的电源芯片和存储芯片的管理也非常友好。A1000L和A1000采用pin2pin 的平台化设计,有很多通用的物料。在极端情况下,假如A1000L整个板子上面有一些用料,现在买不到,就可以暂时把A1000的料转用到A1000L上,以解燃眉之急。4. 芯片厂商如何助力主机厂更快地实现行泊一体方案的量产落地软件定义汽车已经成为业内的共识,外加“缺芯”的持续影响,芯片公司在整个汽车产业链中的地位发生了显著变化 - 他们现在开始走向“前台”去直面主机厂,既可以帮助Tier1拿项目,也可以和主机厂直接展开密切合作。 轻量级行泊一体域控,主机厂一般不会考虑自研,大多会选择外包给Tier1,因此,芯片厂商需要通过与Tier1以及算法公司密切合作来间接地帮助主机厂实现行泊一体方案的快速落地。大算力行泊一体域控,主机厂比较重视,一般会选择自研,因为它是体现主机厂差异化和品牌力的重要部分。芯片公司作为参与方需要直接与主机厂展开密切合作 —— 在提供芯片的同时,还需要为主机厂提供相关配套工具链,进而推动项目更快实现量产落地。因此,芯片厂商首先要了解主机厂到底想要什么样的行泊一体方案,其次是要了解主机厂希望采用什么样的合作模式。只有如此,芯片厂商才能更好地对症下药。孙鲁毅说:“我们逐渐体会到,需要跟主机厂进行更好、更深的沟通。只有这样,芯片厂商才能更好地理解主机厂需要什么样的行泊一体方案 —— 是一个入门级,还是一个中等级别,亦或者是一个高性能级别;打算配置什么样的传感器(多少个摄像头、多少个激光雷达);有什么样的成本控制目标;SOP的时间如何安排等等。只有充分了解主机厂的需求,才能更快、更顺利地展开合作。”开发者要移植软件/算法到芯片上,最关键的部分就是工具链 — 神经网络的工具链是否好用、软件交叉编译的工具链是否好用?如果工具链好用,开发者就比较容易上手,就能够缩短开发时间。黑芝麻智能提供一整套深度学习工具链,可以将用户在服务器以及其它平台上开发的算法模型,转换成在黑芝麻芯片上可以运行的程序。额日特介绍说“由于每一家用的模型可能都不太一样,我们已经可以提供市面上所有主流模型的转换工具,包括精度的调整、模型的裁剪等等。另外,我们还有一些仿真软件,使得客户在电脑上仿真就可以达到跟在板子上跑一样的效果,这会大大减少客户的一些重复性工作。”芯片厂商可以配合自家芯片自研中间件和感知算法,缩短客户开发上层应用的时间,帮助合作伙伴更快、更高效地完成项目的量产落地。黑芝麻智能自研了瀚海中间件,它是基于华山系列计算芯片推出的一款智能驾驶平台SDK开发包,可屏蔽基础硬件、操作系统和通讯协议的异构性,从而更好地链接上层应用和操作系统。同时,黑芝麻智能自主研发了多种感知算法,并通过不同维度的数据,以无监督或者半监督的方式来提升算法的鲁棒性。 “卷积神经网络算法(CNN)也是最近几年刚兴起,很多车厂和Tier1并不具备感知算法的开发能力,并且,算法人才和能力的培养也不是短时间内能做到的事情。因此,我们需要配合客户去完成感知算法的开发 —— 客户会提出一些具体的需求,由我们去做具体的实施,包括前向避障、车道线识别等。另外,我们的算法与芯片不存在绑定关系,主机厂可以同时选择我们的芯片和算法,也可以直接移植他们的自己的算法到我们的开发板。”额日特说。2025年是个关键的时间节点,是车企培养供应链体系的重要时机。黑芝麻智能CMO杨欣宇曾对外表示,“2025年之前如果芯片能上车,进入车厂的供应链体系,未来的机会很多。如果2025年还上不了车,这个芯片厂商的机会就非常小了。”对车企来讲,培养一个成熟的供应商,特别是大算力芯片供应商,需要投入大量的人力、物力,如果没有特殊原因,车企根本没有更换的动力。行泊一体方案的加速落地,也从侧面反映了SoC芯片的市场需求在不断地变大,并且市场逐渐变得成熟,价格也会更加透明,合作方之间的合作也越来越密切,最终将形成一个相对稳定的产业生态。只要芯片厂商的产品具有足够的竞争力 —— 产品的可靠性和鲁棒性好、主要技术指标上有竞争力、相关的工具链要好用、供货要有保证等,就一定能够站稳脚跟,并脱颖而出。转载自九章智驾,文中观点仅供分享交流,不代表本公众号立场,如涉及版权等问题,请您告知,我们将及时处理。
-- END --