学特斯拉做端到端可能死得更快?

原创 远川汽车评论 2024-07-04 22:31



去年八月,工作重心从特斯拉挪开很久的马斯克,罕见地坐着自家的车,在硅谷进行了一场直播。

严格意义上,直播的主角不是硅谷钢铁侠本人,也不是车,而是车辆搭载的最新版智驾软件,采用端到端架构的FSD V12 Beta。在他口中,FSD V12是一张神经网络包打一切,”photon-to-control(输入光子,输出驾驶指令)“的科技魔法。

尽管在全球围观下,FSD V12首秀就闯了一次红灯,但还是有国内车企紧急成立了端到端团队。一年之后,端到端的风已经席卷了中国智驾行业。


这次摸着特斯拉过河的集体运动,似乎和过去两年致敬特斯拉开发Transfomer+BEV、OCC没什么不同,但难度与门槛在变得越来越高。一些智驾从业者笃信的价值、赖以生存的岗位,也在经历瓦解与重构。


01 

 “端到端就是scaling law”



与过去两年发生在智驾领域的技术更迭浪潮一样,端到端也不是什么新东西。除开过于久远且简单的ALVINN,此前比较出名的例子有两个。

卡耐基梅隆大学1988年提出的ALVINN,端到端自动驾驶鼻祖


2016年,英伟达发布了一篇名为 “End to End Learning for Self-Driving Cars”的论文,以CNN搭建了一套端到端自动驾驶方案。这篇被引5000余次的论文在学术上取得了不小反响,但未能防止英伟达日后在与奔驰的自动驾驶合作中焦头烂额。

2016年,知名黑客Hotz创办的comma.ai开源了端到端辅助驾驶方案Openpilot,计算平台使用的是一部搭载高通芯片的手机。尽管这套方案在2020年美国消费者报告的评测中获得了最高分,但comma.ai对器件可靠性和功能安全不屑一顾的方案,还是让车企嗤之以鼻。

过去这些年在工业界中,几乎所有的智驾企业在量产时,都选择了与端到端相对的另一条路径:模块化。

模块化结构将智能驾驶系统拆解为多个功能子模块,各模块上下游连接,接力完成整个智驾任务。随着技术的进步和经验的积累,这些模块又不断吸收融合,逐渐形成了“感知-规划-控制”三大模块。

智驾的端到端与模块化方案


到今天,市面上绝大部分智驾系统,是一个人工和智能两分天下的混搭系统:感知依靠神经网络,规划控制则使用人类手动设计的算法(极少数企业融入了一些神经网络)。这一系统的好处在于,利于分工,出了bug也便于分模块检查、解决。

但问题是,模块化的智驾系统在相对简单的驾驶任务上表现不错,但在复杂的驾驶任务面前,它的天花板肉眼可见。

在用户的体验中,到了2024年,智能驾驶还是不够智能。就算是号称遥遥领先的城市高阶智驾功能,依然会有机械感,也会在汇入快速路、通过大型路口时宕机。

智驾工程师们则没空跟消费者们共情,因为他们快要淹死在碎片化任务的海洋里。

在目前的混搭式智驾系统中,感知神经网络要向下游规控模块给出目标级的识别结果。这就需要感知模块的工程师不断定义,“什么是道路上值得被关注的”,往白名单里不断增添物体,训练神经网络认出它们——

从前是车道线、红绿灯、汽车、行人、自行车,后来是各种小动物、拉着一棵树的货车、撑了遮阳伞的摩托;再往后可能是印在公交车上的董明珠和广告牌上的苏炳添。


更难过的是规控模块的工程师,他们要日复一日面对不同场景写if else。其实规控工程师的工作没有那么低级,规控领域有不少对各种场景有概括能力的传统算法。然而这些算法的泛用性敌不过现实的复杂度,在deadline压力下,工程师们不得不头痛医头脚痛医脚,针对各种疑难场景打规则补丁。

不幸的是,这样的规则越多,规则之间相互打架的可能性就越大,整个模块的可维护性就越差。同时,疑难场景源源不断,工程师焚膏继晷地写if else,意味着智驾的规控优化成了一项愚公移山式的劳动密集型作业。

而在智驾企业管理层的视野中,如果要在当下的智驾竞赛中胜出,人海战术尤其是往规控模块堆人力是必要的,但投入产出比又是不可持续的。比如华为车BU的智驾团队,规控部门有上千位工程师[1]。以相当保守的平均50万年薪计,这一部门仅人力成本就超过5亿元。华为ADS智驾系统此前在终端的实际落地价是6000元。

如此演进下去,高阶智驾有滑向三输局面的危险,即使是领头的特斯拉也不例外。但2022年末,Open AI一声炮响,给智驾送来了端到端的复兴。

这年横空出世的ChatGPT让一种AI方法论成为了显学:海量吸收人类的文字信息,通过以预测下一个字符(token)为目标,让神经网络学习文字中蕴含的知识。

当年12月,特斯拉的智驾工程师Dhaval Shroff 向马斯克进言,抛掉那些手写的规则,搭建一张神经网络,让它大量观看人类司机的驾驶视频,要求它输出正确的行驶轨迹。在反复训练中,这张神经网络可能会习得与人类相仿的驾驶知识。

作为这个世界上与OpenAI渊源最深的人之一,马斯克当即指示,就这么办。

2024年1月,经过一年的研发,采用端到端架构的FSD V12向北美用户推送。这一版本号称用单个端到端的神经网络,干掉了30万行C++代码。

端到端的作用当然不只是替代程序员们精心堆砌的屎山,在多个维度上,它表现出了对传统模块化方法的超越。

在智驾系统的信息传递中,感知不再为了与规控对齐颗粒度而被迫丢失信息,系统决策获得的参考信息更全面,更可能达成全局最优;

从实际体验来看,端到端的FSD开起来更加拟人、丝滑。何小鹏上个月刚刚送出“友商CEO认证”,他在加州体验FSD最新版本时说,FSD比他作为加州新手司机开得更好;

在AI离不开的数据标注上,由于不依赖人类定义的识别结果,对各种物体、场景进行人工标注的工作量将进一步减少;

而在已经卷到疯狂的算法迭代速度上,由于规控模块也变成了神经网络,可以24小时工作的GPU们将开足马力训练,能将智驾OTA的周期推至周更乃至日更;

在人力成本上,理想汽车CEO李想的说法则是,不再需要几千人的团队去解决Corner Case。

何小鹏怒赞FSD V12


毫不意外地,端到端由此成为2024年中国智驾企业竞相争夺的技术(有时更多是宣传)制高点。

今年7月,华为与小鹏的两段式端到端智驾方案将推送给车主,理想、蔚来正在加班加点推进端到端下半年上车的计划,Momenta、元戎启行、商汤绝影的端到端方案也会相继在今明年登上量产车。

国内一位智驾公司高层评论,端到端就是Scaling Law。商汤绝影事业部总裁王晓刚说,端到端是今天被验证成功的唯一路径。

在端到端的架构下,智驾将从人力密集型倒向算力密集、数据密集型,智驾有望真正走上大力出奇迹的道路,这是过去两年大语言模型的成功经验。


02

摸着特斯拉 就能趟过端到端的河?


ChatGPT诞生以后,诸多大小企业摸着OpenAI过河,大语言模型风起云涌,国外谷歌Gemini紧追不舍,Meta靠Llama建起了开源生态,国内文心一言、通义千问、星火大模型、盘古大模型等等各领风骚。

如果端到端架起了智驾通向Scaling Law的桥梁,理论上类似的创新成果迅速扩散的局面也会在智驾领域发生。

但在辰韬资本日前举行的端到端研讨会上,光轮智能CEO、前蔚来仿真负责人谢晨泼了盆冷水:摸着特斯拉前进,结果不一定是过河,也可能是掉坑。

大语言模型的格局演变,不宜直接套用到智驾上。

众所周知,人工智能的三要素是算法、数据与算力。在端到端至关重要的数据环节,国内企业目前还没看到特斯拉的尾灯。

与大语言模型可以在互联网上爬取海量文字数据用于训练不同,端到端智驾需要的视频数据获取成本和难度极高。

此前全球最大的自动驾驶公开数据集Nuplan的规模为1200小时,且不是为端到端准备。国内上海AI lab 浦驾团队搜罗了整个Youtube,最终搭建了一个2000小时的数据集OpenDV-2K。

OpenDV筛选、处理了240+个城市的驾驶数据

特斯拉则在端到端神经网络开发之初,就向其投喂了1000万个经过筛选的人类驾驶视频片段,即使以每段15秒计,这也是超过4万小时的高清视频。这是2023年初马斯克透露的数据。

当时特斯拉每天可供进一步筛选的人驾视频以1600亿帧/天的速度增加,大约是148万小时,大部分国内车企今天比去年的特斯拉数据量少两到三个数量级,更不用说智驾供应商。如果持续上传,仅这些数据的带宽和存储费用,就足以拖垮一家小规模智驾公司。

问题不仅仅是数据数量,由于驾驶视频成了端到端系统直接的老师(监督信号),对视频数据的质量要求也在提升。

视频收集的触发机制是否合理,关键场景是否完整,是否收集到了老司机而不是菜鸟的驾驶行为,视频数据又是不是足够多元···每一个细节的问题都有各自的know-how,其中一些特斯拉也没能妥善解决。

不久前, 马斯克在推特上解释了FSD V12.4.2推迟的原因,该版本投喂了大量需要接管的复杂场景数据进行训练优化,但在简单场景的驾驶平顺性反而倒退了。这是模型训练中容易出现的灾难性遗忘,需要对神经网络采取一些权重固化措施后重新训练。


国内此前最受欢迎的智驾岗位是算法工程师,但端到端的竞赛是数据驱动的竞争,数据团队的重要性将越来越显性。一家智驾企业的研发负责人认为,若要转向端到端,国内智驾数据团队最紧急的任务应该是补齐闭环仿真的能力,这是以低成本方式对端到端进行验证测试的关键。

与数据层面的差异相似,国内智驾企业在算力储备上与特斯拉的差距肉眼可见。

今年年底,特斯拉预计将拥有100exaflops云端算力,国内相关企业纸面参数最高的是商汤的12eflops,但分配给商汤绝影用于智驾神经网络训练的算力未知。在智驾投入上最激进的华为,用于智驾训练的算力今年刚达到3.5eflops。

特斯拉为容纳H100正在建设的数据中心


算力与数据的制约又会显著影响算法的发展,况且,这一次特斯拉没有留下算法的石头给后来的过河者。

2021-2022年,特斯拉两次召开AI Day,公开了智驾部分技术细节与进展。尽管没有公开源代码,但这两次AI Day事实上起到了引领行业风向的作用,AI Day上提出的Transfomer+BEV架构和Occupancy占用网络如今都成为高阶智驾的基石算法。

但2023年,意识到有竞争对手在“逐帧研究PPT”后,马斯克叫停了AI Day的举办。这让其他企业对标学习的难度陡增。

关键时刻,国内学术界提出的端到端自动驾驶模型UniAD斩获2023年CPVR最佳论文奖,为国内企业提供了可以参考的方向。但是在开环验证体系、小体量样本数据下开发的UniAD,上车还需要一定时间的工程化改造和大规模数据训练。

UniAD 算法结构

在包括但不限于算法、算力、数据等多方面差距的制约下,国内智驾企业对端到端的开发实际上还处于踩坑阶段,一旦过于冒进(或者根本没条件冒进),就有翻车的风险。

因此智驾企业对标特斯拉端到端的时候,往往是在对标两个不同的特斯拉:宣传上对标今天的特斯拉,实际工程进度上对标一年前或者两年前的特斯拉。


03

神经网络在整合,团队和行业亦然


作为国内智驾开发进度最靠前的两家企业,小鹏与华为在端到端的竞赛中并没有表现出在智驾开城大战中的激进。他们的端到端技术方案均采用两段式,由感知神经网络与规划神经网络相连。

华为ADS 3.0的两段式端到端


这在行业一些人士看来不是经典意义上的端到端,更像是完成了智驾算法的神经网络改造。独立于两家企业的智驾人士认为,这种“两段式端到端“是一种过渡形态,可能会存在与传统方案相似的信息损失问题,但它对算力和数据的要求更低,量产进度更快,对智驾系统问题的溯源和解决更方便。

另一个可能的原因是,智驾企业转向端到端,必然要经历人员与组织架构的调整,历史包袱越重,调整阻力越大。

在这个过程中一个不容忽视的矛盾是,理论上对智驾表现最终负责的是规控负责人,但由于技术分工的历史沿革,大多数智驾企业中更懂神经网络的往往是感知负责人。在端到端的趋势下,以传统算法为核心工作的规控部门容易被整合、降权或者优化。

特斯拉在转向端到端方案后,原规控负责人选择离职。上个月,蔚来的智驾部门感知与规控团队合并为大模型团队,团队负责人为原感知负责人彭超[2]。与前两者不同,小鹏智驾总负责人李力耘此前是规控团队负责人,华为则有着国内智驾企业中最庞大、成绩也最亮眼的规控部门。

但长期来看,无论是大语言模型的力大砖飞成功经验,还是智驾现实的商业化压力,实现一张神经网络解决高阶智驾都是行业的共识。曾经为感知神经网络输出兜底的规控工程师,被神经网络端掉饭碗是大概率事件。

只不过这个过程不会那么剧烈。

智加首席科学家崔迪潇认同的一个观点是,端到端会同时放大智驾系统的上限与下限,因为它是一个神经网络黑箱,在获取更高上限的过程中让渡了一部分传统模块方案具备的可解释性。

如何在智驾系统中保留可解释性,将那些不应被逾越的规则(比如别闯红灯)表征到神经网络中去,保证端到端能安全地落地应用、进化,将是规控工程师们的重要课题。

这会有点像为混动车型打造混动专用发动机的引擎工程师,核心任务是服务好那些最终会消灭他岗位的电机与电池。

商汤绝影总裁王晓刚则说,现阶段智驾行业并不存在一个纯神经网络的量产方案,为了给安全兜底,要么选择端到端与传统方案并行,要么端到端网络后接一些后处理模块或者强安全的代码。神经网络的进与规则的退会是一个渐进的过程。

只是如果说人才还可以流通、转型,那么“所有人都在亏钱”的智驾行业,可能会被端到端更快推到一个整合临界点。

上述智驾企业研发负责人感慨,眼下高阶智驾企业”都活着但又都活得不好“的重要原因,是采用了上一代模块化的技术架构,人力成本下不去,数据飞轮转不起来。

而端到端的高门槛和高效率意味着,不需要也不会有太多车企与智驾供应商掌握端到端。在这场逼近的淘汰赛中,大企业要迎战自身的内耗,小企业只能死磕认知与效率的领先。



参考资料:
[1] 端到端智能驾驶上车,理想、蔚来定下时间表,晚点
[2] 21解读 | 百亿大模型浪潮背后:蔚小理的智驾组织学,21世纪经济报道


评论
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 474浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 442浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 322浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 483浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 512浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 461浏览
  • 数字隔离芯片是现代电气工程师在进行电路设计时所必须考虑的一种电子元件,主要用于保护低压控制电路中敏感电子设备的稳定运行与操作人员的人身安全。其不仅能隔离两个或多个高低压回路之间的电气联系,还能防止漏电流、共模噪声与浪涌等干扰信号的传播,有效增强电路间信号传输的抗干扰能力,同时提升电子系统的电磁兼容性与通信稳定性。容耦隔离芯片的典型应用原理图值得一提的是,在电子电路中引入隔离措施会带来传输延迟、功耗增加、成本增加与尺寸增加等问题,而数字隔离芯片的目标就是尽可能消除这些不利影响,同时满足安全法规的要
    华普微HOPERF 2025-01-15 09:48 42浏览
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 452浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 103浏览
  • 食物浪费已成为全球亟待解决的严峻挑战,并对环境和经济造成了重大影响。最新统计数据显示,全球高达三分之一的粮食在生产过程中损失或被无谓浪费,这不仅导致了资源消耗,还加剧了温室气体排放,并带来了巨大经济损失。全球领先的光学解决方案供应商艾迈斯欧司朗(SIX:AMS)近日宣布,艾迈斯欧司朗基于AS7341多光谱传感器开发的创新应用来解决食物浪费这一全球性难题。其多光谱传感解决方案为农业与食品行业带来深远变革,该技术通过精确判定最佳收获时机,提升质量控制水平,并在整个供应链中有效减少浪费。 在2024
    艾迈斯欧司朗 2025-01-14 18:45 41浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 492浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 173浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦