采用ChatGPT类似大模型作为自动驾驶算法核心的-Waymo的端到端多模态算法EMMA

原创 Vehicle 2024-11-07 21:14

最近,一直采用激光雷达和高精地图实现 L4 的自动驾驶公司 Waymo 的一个内部研究团队,发布了一篇关于利用端到端多模态自动驾驶模型实现自动驾驶的新论文。

它采用类似于 ChatGPT 的大语言模型 Gemini LLM 作为算法核心,算法所有的输入和输出表示为普通文本,具有非常强大的通用性和泛化性,算法还具有可解释性。

引起了自动驾驶行业的轰动。所以,本文将初步总结和介绍Waymo 的端到端多模态自动驾驶模型EMMA相关信息:

  • 目前智能驾驶行业算法的四种算法方案。

  • “端到端多模态自动驾驶模型”(EMMA)是怎么做的?

  • 当前 EMMA 类方案有什么局限性?

  • 对当前智能驾驶乃至汽车行业产生什么影响?

希望能给大家带来一些智能驾驶和汽车发展的信息和思路。

目前智能驾驶行业算法的四种算法方案

模块化自动驾驶算法

模块化的高阶智能驾驶系统采用,感知 、地图、预测和规划等不同的模块或者组件来实现。

这种设计便于单个模块或组件的调试和优化,但由于模块间的错误积累和模块间的通信有限,它在可扩展性方面面临挑战。
特别需要指出的是,这些模块通常是基于目标场景预先定义的,所以,这些基于规则设计的模块间接口(例如感知和行为模块之间的接口)可能难以适应新环境。
这种方案在现在的智能驾驶应用,能够实现针对性场景下高性能,高性价比,我们之前文章《被逼墙角的Mobileye,祭出 CAIS 大旗,挑战端到端大模型智能驾驶》中介绍的Mobileye是这方面的强者代表。
端到端自动驾驶算法
特斯拉FSD V12,首先发起在智能驾驶方面采用端到端的自动驾驶算法,直接从传感器数据学习生成驾驶行为。该方法消除了模块之间信号接口的需求,并允许从原始传感器输入联合优化驾驶目标。
这种端到端算法是专门针对驾驶这种特定的任务,它需要收集大量的道路驾驶数据来训练全新的模型。
这也就是当前特斯拉以及国内一众智能驾驶公司的方法,数据,算力为王,大家都在卖力重复造自己的轮子,希望有朝一日自己轮子能够成为米其林或者马牌轮胎,独步天下。
但是,长尾理论一直存在,大家一直在 push 寻找这个长尾到底有多长。
端到端自动驾驶算法+LVM图像语言模型。
我们之前文章《智能驾驶技术演进与未来挑战:从目标物识别到大模型上车》分享了将现有智能驾驶系统的能力与多模特语言模型进行整合和增强的案例,它就是借用大语言模型对世界理解的能力去解读道路图片信息来增强端到端算法能力,弥补长尾。

业内理想汽车最新的自动驾驶就是采用此类方案E2E大模型+LVM图像语言模型。
端到端多模态自动驾驶大模型
本文介绍的 Waymo 端到端多模态自动驾驶模型EMMA是另外一种方法,当然它目前只是学术论文,没有进行工程化。
它采用多模态大型语言模型为自动驾驶中的人工智能提供了一个有前景的新范式,采用专门针对驾驶调整过的通用基础大语言模型,作为智能驾驶算法的核心算法或者组件。
大语言模型在两个关键领域表现出色,所以采用它不需要重新训练一个模型:
  • 他们是基于人类在互联网上积累的文字信息训练而成,所以可以理解为三体中的“智子”他把人类丰富的“世界知识”全部折叠进入它算法内,它的知识量远远超过我们常见驾驶日志中所包含的内容。
  • 它们通过链式思维推理等技术展示了卓越的推理能力 ,这些能力在专用驾驶系统中并不具备。

其实目前业内已经有两三家开始靠近这个方案,例如我们之前文章《探秘美国加州自动驾驶路试:豪横竞逐、勤奋探索与技术挑战》提到的采用Open AI大模型的 Ghost (今年已经倒闭)和 Wayve,但他们应该是部分采用这个思维。
“端到端多模态自动驾驶模型”(EMMA)是怎么做的?
“端到端多模态自动驾驶模型”(EMMA)是以谷歌的大语言模型 Gemini 框架为算法核心构建。Gemini 是一个基于文本的 LLM,类似于 Open AI的 ChatGPT,它使用大量通用文本语料库进行训练,从而获得世界和人类自然语言的知识。
同时该算法针对大量有关道路和驾驶的文本以及许多其他通用知识进行训练和微调。此外,还添加了基于驾驶视频的“端到端”训练。
EMMA的关键创新在于能够同时处理视觉输入(如摄像头图像)和非视觉输入(如基于文本的驾驶指令和历史上下文)。通过将驾驶任务重新表述为视觉问答(VQA)问题,
这样,EMMA能够利用Gemini原有模型中编码的大量知识,同时赋予其处理各种驾驶任务的能力。
以下是论文中讨论的几个关键要素:
  • 多模态输入:EMMA接受摄像头图像(视觉数据)以及导航等文本输入,驾驶指令和历史上下文,使其能够理解并应对涉及视觉和非视觉信息的复杂驾驶场景。
  • 视觉问答VQA方法:将驾驶任务重新表述为视觉问答问题,允许EMMA在文本指令的上下文中解读视觉数据。这有助于模型更好地理解驾驶中的动态和多样化的情况。
  • 使用任务特定提示进行微调:EMMA通过使用驾驶日志和任务特定的提示进行微调,从而使其能够生成各种驾驶输出,如运动规划的未来轨迹、感知目标、道路图元素和场景语义等。
EMMA概述图:

它的三个输入:
导航指令,类似于人类使用导航一样,系统接收来自于导航的high level高层次文本指令,例如前方100m左转,前方路口右转等等类似指令。
自车的历史状态,表示为不同时间戳下的鸟瞰视图(BEV)空间中的一组路标坐标。所有的路标坐标都表示为普通文本,不使用专门的标记。方便扩展为包含更高阶的自车状态,如速度和加速度。
摄像头视频感知。通过摄像头感知三维世界、识别周围的物体、道路图以及交通状况。Waymo 团队将EMMA构建为一个通用模型,能够通过训练混合处理多个驾驶任务。
Waymo 团队使用视觉-语言框架将所有的输入和输出表示为普通文本,从而提供了将许多其他驾驶任务融入系统的灵活性。
对原有大语言模型采用指令微调(instruction-tuning),将感知任务组织为三个主要类别:空间推理、道路图估计和场景理解。

  • 空间推理是理解、推理并得出关于物体及其在空间中的关系的能力。这使得自动驾驶系统能够解释并与其周围环境互动,从而实现安全导航。Waymo 团队巧妙的将空间推理结果的7维框((x, y, z)是车辆坐标系中的中心位置,l, w, h是边界框的长、宽和高,θ是航向角)转换为文本表示。
  • 道路图估计侧重于识别关键的道路元素,以确保安全驾驶,包括语义元素(如车道标线、标志)和物理属性(如车道曲率)。这些道路元素集合构成了道路图。
  • 场景理解任务测试模型对整个场景上下文的理解,这对于驾驶尤为重要。例如,由于施工、紧急情况或其他事件,道路可能暂时被堵塞。及时检测这些堵塞并安全绕行对于确保自动驾驶车辆的顺畅和安全运行至关重要;然而,场景中的多个线索必须结合起来才能确定是否存在堵塞。
所有的输入和输出都是文本信息,EMMA通过使用驾驶日志和任务特定的提示进行微调,从而使微调的 LLM 语言大模型能够生成各种驾驶输出运动规划和驾驶控制信号
这样的算法实现了三个优点:
  • 自监督:唯一需要监督的是自车未来的位置,不需要专门的人工标签。
  • 仅使用摄像头:唯一的传感器输入是周围视角摄像头。
  • 无需高清地图:除了来自导航系统(如Google Maps类似于我们用的高德和百度地图)的高层次导航信息外,不需要高清地图。
其实端到端大模型,最大的问题是可解释性EMMA引入了链式思维提示(Chain-of-Thought Prompting),它可以增强多模态大型语言模型(MLLMs)的推理能力,并提高其可解释性
在EMMA中,Waymo团队通过要求模型在预测最终的未来轨迹路标Otrajectory 时阐明其决策理由(Orationale),将链式思维推理融入端到端规划轨迹生成中。
Waymo 团队将驾驶推理结构化为四种粗到细的信息类型:
  • R1 - 场景描述:广泛描述驾驶场景,包括天气、时间、交通状况和道路条件。例如:“天气晴朗,白天。道路是四车道的未分隔街道,中间有行人道,街道两边停着车。”
  • R2 - 关键物体:指那些可能影响自车驾驶行为的路面上的其他代理物体,我们要求模型识别其精确的3D/BEV坐标。例如:“行人位于[9.01, 3.22],车辆位于[11.58, 0.35]。”
  • R3 - 关键物体的行为描述:描述已识别关键物体的当前状态和意图。例如:“行人目前站在人行道上,朝向道路,可能准备过马路。车辆目前在我前方,朝相同方向行驶,未来轨迹表明它将继续直行。”
  • R4 - 元驾驶决策:包括12类高层次驾驶决策,总结基于前述观察的驾驶计划。例如:“我应该保持当前的低速。”
Waymo 团队强调,驾驶推理文本是通过自动化工具生成的,而没有任何额外的人工标签,从而确保了数据生成流程的可扩展性。
当前 EMMA 有什么局限性
这么好的东西,那么直接上车了?
Waymo 团队指出其当前模型每次只能处理有限数量的图像帧(最多4帧),搞自动驾驶的朋友肯定知道,当前牵扯安全的场景,甚至可能需要更多帧图片来确定场景。
同时这限制了其捕捉驾驶任务所需的长期依赖关系的能力。有效的自动驾驶不仅需要实时决策,还需要在较长的时间范围内进行推理,能够预测并应对不断变化的场景。
所以,此类算法还需要解决长时间记忆问题
另外,目前,哪里有能跑如此多参数的大模型车载算力芯片,我们之前文章《高通的下一代智能汽车芯片 - 骁龙 Cockpit Elite 和 Ride Elite》介绍过高通下一代智能汽车芯片,最大能跑数十亿个参数的大型语言模型;最近小鹏AI日表示其新一代Turing芯片也最高可运行300亿 参数大模型,还不知道何时能上车。
而现在的大语言模型参数量都是千亿级别。

除此之外,随着算力的增大,整个计算系统从缓存到带宽再到热管理都需要跟上,这都需要当前车载算力平台能够跟上
同时,另外一个要命的问题是实时性,大模型用作ChatGPT对话,或者Midjourny画图延迟几秒完全没问题,不会影响到生命安全,但是对于汽车来讲毫秒必争,都是事关安全。
总的来讲,当前大语言模型,需要通过蒸馏,来缩小参数,保证一定的准确性来实现。所以这个方法必须要优化模型,或者将其蒸馏成适合实时部署的更紧凑版本,同时确保不牺牲性能和安全。
此外,当前这个模型可以直接预测驾驶信号,而无需依赖中间输出(如物体检测或道路图估计)。这种方法在实时验证和后期分析时带来了挑战。
尽管Waymo 团队已经证明,模型可以生成如物体和道路图预测这样的可解释输出,并且驾驶决策可以通过思维链推理来解释,但这些输出与实际驾驶信号之间并不总是能够完全一致,也就是说这个可解释性目前有时候也会出错
最后,当前的模型主要依赖于预训练的多模态大语言模型(MLLMs),这些模型通常不包括LiDAR或雷达输入,汽车冗余多传感器方案部署是个大问题。
所以此类大模型上车,需要解决工程问题有:
  • 强大算力的芯片,支持本地高达百亿,千亿参数的LLM大模型。
  • 蒸馏优化后缩小参数可以部署上车的大模型,适合实时部署,同时确保不牺牲性能和安全,这个有点和小鹏汽车的云端大模型,车端小模型理论相吻合。
  • 支持长记忆的LLM大模型,并降低延迟。
  • 泛化并融合好例如激光雷达和雷达。
解决好此类的工程问题,才为上车工程化铺好了路。
对当前智能驾驶乃至汽车行业产生什么影响?
首先,Waymo 发布的端到端多模态自动驾驶模型 EMMA 给智能驾驶时代又添加了一颗定心丸,当前基于AI的人工智能,端到端方案理论上能够实现自动驾驶,接下来就是工程化落地。
它一定能够帮助人类实现自动驾驶,而且还不会太远。
另外,通用人工智能会成为智能驾驶的发动机,智能汽车的划分,可以通过模型参数和算力来实现能力的分级,犹如燃油车时代,发动机排量决定车辆的等级和性能。
那么对于车企来讲,如果需要赢的智能汽车时代,可能需要扩大自己的野心,做一个足够大的集团覆盖汽车,机器人等人工智能落地的制造机器集团。可能必须要自研通用人工智能并利用 AI 赋能整个汽车和机器项目,提高汽车机器制造业的附加值。
抑或采用通用人工智能打造差异化产品实现竞争。
最终或许通用人工智能接管人类的重复性的脑力劳动,犹如现在机械取代人类的体力劳动。

*未经准许严禁转载和摘录-参考资料:

  1. EMMA: End-to-End Multimodal Model for Autonomous Driving - waymo

  2. Could Foundation Models really resolve End-to-end Autonomy? Hongyang Li

  3. The Next Frontier in Embodied AI: Autonomous Driving CUED Guest Lecture – 25 April 2024

  4. introduce autonomous vehicles - 英伟达

  5. GAIA-1: A Generative World Model for Autonomous Driving - wayve

加入我们的知识星球可以下载公众号海量参考资料包含以上参考资料。


>>>>

相关推荐

  • LLM大语言模型等AI如何加速汽车行业变革
  • 高通的下一代智能汽车芯片 - 骁龙 Cockpit Elite 和 Ride Elite
  • 探秘美国加州自动驾驶路试:豪横竞逐、勤奋探索与技术挑战

  • 智能汽车下半场,车路城融合发展 - 2024汽车百人会论坛车路城总结

  • AI 巨头 Nvidia 英伟达在汽车领域做什么?



Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论 (0)
  • 在环保与经济挑战交织的当下,企业如何在提升绩效的同时,也为地球尽一份力?普渡大学理工学院教授 查德·劳克斯(Chad Laux),和来自 Maryville 大学、俄亥俄州立大学及 Trine 大学的三位学者,联合撰写了《精益可持续性:迈向循环经济之路(Lean Sustainability: Creating a Sustainable Future through Lean Thinking)》一书,为这一问题提供了深刻的答案。这本书也荣获了 国际精益六西格玛研究所(IL
    优思学院 2025-03-31 11:15 91浏览
  • 职场之路并非一帆风顺,从初入职场的新人成长为团队中不可或缺的骨干,背后需要经历一系列内在的蜕变。许多人误以为只需努力工作便能顺利晋升,其实核心在于思维方式的更新。走出舒适区、打破旧有框架,正是让自己与众不同的重要法宝。在这条道路上,你不只需要扎实的技能,更需要敏锐的观察力、不断自省的精神和前瞻的格局。今天,就来聊聊那改变命运的三大思维转变,让你在职场上稳步前行。工作初期,总会遇到各式各样的难题。最初,我们习惯于围绕手头任务来制定计划,专注于眼前的目标。然而,职场的竞争从来不是单打独斗,而是团队协
    优思学院 2025-04-01 17:29 103浏览
  • 据先科电子官方信息,其产品包装标签将于2024年5月1日进行全面升级。作为电子元器件行业资讯平台,大鱼芯城为您梳理本次变更的核心内容及影响:一、标签变更核心要点标签整合与环保优化变更前:卷盘、内盒及外箱需分别粘贴2张标签(含独立环保标识)。变更后:环保标识(RoHS/HAF/PbF)整合至单张标签,减少重复贴标流程。标签尺寸调整卷盘/内盒标签:尺寸由5030mm升级至**8040mm**,信息展示更清晰。外箱标签:尺寸统一为8040mm(原7040mm),提升一致性。关键信息新增新增LOT批次编
    大鱼芯城 2025-04-01 15:02 155浏览
  • 引言在语音芯片设计中,输出电路的设计直接影响音频质量与系统稳定性。WT588系列语音芯片(如WT588F02B、WT588F02A/04A/08A等),因其高集成度与灵活性被广泛应用于智能设备。然而,不同型号在硬件设计上存在关键差异,尤其是DAC加功放输出电路的配置要求。本文将从硬件架构、电路设计要点及选型建议三方面,解析WT588F02B与F02A/04A/08A的核心区别,帮助开发者高效完成产品设计。一、核心硬件差异对比WT588F02B与F02A/04A/08A系列芯片均支持PWM直推喇叭
    广州唯创电子 2025-04-01 08:53 150浏览
  • 升职这件事,说到底不是单纯靠“干得多”或者“喊得响”。你可能也看过不少人,能力一般,甚至没你努力,却升得飞快;而你,日复一日地拼命干活,升职这两个字却始终离你有点远。这种“不公平”的感觉,其实在很多职场人心里都曾经出现过。但你有没有想过,问题可能就藏在一些你“没当回事”的小细节里?今天,我们就来聊聊你升职总是比别人慢,可能是因为这三个被你忽略的小细节。第一:你做得多,但说得少你可能是那种“默默付出型”的员工。项目来了接着干,困难来了顶上去,别人不愿意做的事情你都做了。但问题是,这些事情你做了,却
    优思学院 2025-03-31 14:58 101浏览
  • 提到“质量”这两个字,我们不会忘记那些奠定基础的大师们:休哈特、戴明、朱兰、克劳士比、费根堡姆、石川馨、田口玄一……正是他们的思想和实践,构筑了现代质量管理的核心体系,也深远影响了无数企业和管理者。今天,就让我们一同致敬这些质量管理的先驱!(最近流行『吉卜力风格』AI插图,我们也来玩玩用『吉卜力风格』重绘质量大师画象)1. 休哈特:统计质量控制的奠基者沃尔特·A·休哈特,美国工程师、统计学家,被誉为“统计质量控制之父”。1924年,他提出世界上第一张控制图,并于1931年出版《产品制造质量的经济
    优思学院 2025-04-01 14:02 110浏览
  • 引言随着物联网和智能设备的快速发展,语音交互技术逐渐成为提升用户体验的核心功能之一。在此背景下,WT588E02B-8S语音芯片,凭借其创新的远程更新(OTA)功能、灵活定制能力及高集成度设计,成为智能设备语音方案的优选。本文将从技术特性、远程更新机制及典型应用场景三方面,解析该芯片的技术优势与实际应用价值。一、WT588E02B-8S语音芯片的核心技术特性高性能硬件架构WT588E02B-8S采用16位DSP内核,内部振荡频率达32MHz,支持16位PWM/DAC输出,可直接驱动8Ω/0.5W
    广州唯创电子 2025-04-01 08:38 135浏览
  • 文/Leon编辑/cc孙聪颖‍步入 2025 年,国家进一步加大促消费、扩内需的政策力度,家电国补政策将持续贯穿全年。这一利好举措,为行业发展注入强劲的增长动力。(详情见:2025:消费提振要靠国补还是“看不见的手”?)但与此同时,也对家电企业在战略规划、产品打造以及市场营销等多个维度,提出了更为严苛的要求。在刚刚落幕的中国家电及消费电子博览会(AWE)上,家电行业的竞争呈现出胶着的态势,各大品牌为在激烈的市场竞争中脱颖而出,纷纷加大产品研发投入,积极推出新产品,试图提升产品附加值与市场竞争力。
    华尔街科技眼 2025-04-01 19:49 108浏览
  •        在“软件定义汽车”的时代浪潮下,车载软件的重要性日益凸显,软件在整车成本中的比重逐步攀升,已成为汽车智能化、网联化、电动化发展的核心驱动力。车载软件的质量直接关系到车辆的安全性、可靠性以及用户体验,因此,构建一套科学、严谨、高效的车载软件研发流程,确保软件质量的稳定性和可控性,已成为行业共识和迫切需求。       作为汽车电子系统领域的杰出企业,经纬恒润深刻理解车载软件研发的复杂性和挑战性,致力于为O
    经纬恒润 2025-03-31 16:48 82浏览
  • REACH和RoHS欧盟两项重要的环保法规有什么区别?适用范围有哪些?如何办理?REACH和RoHS是欧盟两项重要的环保法规,主要区别如下:一、核心定义与目标RoHS全称为《关于限制在电子电器设备中使用某些有害成分的指令》,旨在限制电子电器产品中的铅(Pb)、汞(Hg)、镉(Cd)、六价铬(Cr6+)、多溴联苯(PBBs)和多溴二苯醚(PBDEs)共6种物质,通过限制特定材料使用保障健康和环境安全REACH全称为《化学品的注册、评估、授权和限制》,覆盖欧盟市场所有化学品(食品和药品除外),通过登
    张工13144450251 2025-03-31 21:18 111浏览
  • 在不久前发布的《技术实战 | OK3588-C开发板上部署DeepSeek-R1大模型的完整指南》一文中,小编为大家介绍了DeepSeek-R1在飞凌嵌入式OK3588-C开发板上的移植部署、效果展示以及性能评测,本篇文章不仅将继续为大家带来关于DeepSeek-R1的干货知识,还会深入探讨多种平台的移植方式,并介绍更为丰富的交互方式,帮助大家更好地应用大语言模型。1、移植过程1.1 使用RKLLM-Toolkit部署至NPURKLLM-Toolkit是瑞芯微为大语言模型(LLM)专门开发的转换
    飞凌嵌入式 2025-03-31 11:22 227浏览
  • 在智能交互设备快速发展的今天,语音芯片作为人机交互的核心组件,其性能直接影响用户体验与产品竞争力。WT588F02B-8S语音芯片,凭借其静态功耗<5μA的卓越低功耗特性,成为物联网、智能家居、工业自动化等领域的理想选择,为设备赋予“听得懂、说得清”的智能化能力。一、核心优势:低功耗与高性能的完美结合超低待机功耗WT588F02B-8S在休眠模式下待机电流仅为5μA以下,显著延长了电池供电设备的续航能力。例如,在电子锁、气体检测仪等需长期待机的场景中,用户无需频繁更换电池,降低了维护成本。灵活的
    广州唯创电子 2025-04-02 08:34 68浏览
  • 北京贞光科技有限公司作为紫光同芯产品的官方代理商,为客户提供车规安全芯片的硬件、软件SDK销售及专业技术服务,并且可以安排技术人员现场支持客户的选型和定制需求。在全球汽车电子市场竞争日益激烈的背景下,中国芯片厂商正通过与国际领先企业的深度合作,加速融入全球技术生态体系。近日,紫光同芯与德国HighTec达成的战略合作标志着国产高端车规芯片在国际化道路上迈出了关键一步,为中国汽车电子产业的发展注入了新的活力。全栈技术融合:打造国际化开发平台紫光同芯与HighTec共同宣布,HighTec汽车级编译
    贞光科技 2025-03-31 14:44 121浏览
  • 文/郭楚妤编辑/cc孙聪颖‍不久前,中国发展高层论坛 2025 年年会(CDF)刚刚落下帷幕。本次年会围绕 “全面释放发展动能,共促全球经济稳定增长” 这一主题,吸引了全球各界目光,众多重磅嘉宾的出席与发言成为舆论焦点。其中,韩国三星集团会长李在镕时隔两年的访华之行,更是引发广泛热议。一直以来,李在镕给外界的印象是不苟言笑。然而,在论坛开幕前一天,李在镕却意外打破固有形象。3 月 22 日,李在镕与高通公司总裁安蒙一同现身北京小米汽车工厂。小米方面极为重视此次会面,CEO 雷军亲自接待,小米副董
    华尔街科技眼 2025-04-01 19:39 102浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦