L3还没到,智己就能造L4的车了?

原创 超电实验室 2024-10-29 17:55



智驾也要靠直觉

作者|王磊 刘雅杰
编辑|秦章勇

默不作声的智己,开始在智驾上憋大招。

50多页的PPT,42分钟的讲解,全是硬核的智驾技术干货,就为了展现出一个主题,智己汽车和Momenta联合打造的智驾大模型IM AD 3.0,已经进化到下一个阶段——拥有人的直觉。

“直觉”这个词,也是贯穿整场发布会。

关于端到端,每家企业的研发路线都不尽相同,解释的话术也有所区别,IM AD 3.0的优势,则是用直觉来形容,其背后靠的则是一段式端到端直觉式智驾大模型

这套大模型拥有类似人脑结构的思考方式,驾驶过程中会生成本能反应主导的直觉决策能力,也就是老司机的开车方式,所以智己毫不客气地表示自家智驾就是“十年老司机”。

除此之外,基于IM AD 3.0,智己还成为了国内首个,同时具备L2、L3、L4级智能驾驶量产能力的品牌。

01
 开车靠“直觉”

智己CEO刘涛也顺势公布了L2到L4的时间表:


L2+级高阶辅助驾驶,已于本月在全国范围内开通全系车型“无图城市NOA”,可以做到“全国都好开、全场景都敢开”。

智己还启动了欧洲市场的L2+道路测试,目的是为了打造一个“全球都能开”的无图NOA。

L3级自动驾驶已进入量产倒计时,今年6月,智己入选国家首批智能网联汽车L3级自动驾驶准入和上路通行试点名单,预计将于2026年正式具备L3级自动驾驶方案的量产条件。

同样位于智驾第一梯队的问界、小鹏暂不在该名单中。

另外,智己预计将在年内获得首批“L4级无驾驶人道路测试牌照”,智己无人驾驶车将很快实现上路。


和大部分车企不同,智己并没有采用当下主流的“感知+规划”的分模块智驾结构,而是和Momenta将其整合进一个大模型,云端算力为2.5EFLOPS。

这样的好处显而易见,除了减少手写规则,有利于实现全局流程最优,其训练的上限也较高。

智己敢宣称自家“一段式端到端智驾大模型”断代领先,背后还有一个重要原因就是这款大模型具备人工智能生成的“直觉能力”,即也可以理解为智驾从“像人”进化到了“成为人”

直觉是人类才有的特质,官方称IM AD3.0会以更接近人脑结构的思考方式,生成本能反应主导的直觉决策能力。

尤其是在前车突然刹停和人车混流的无保护左转场景的情况下,传统的智驾系统会像机器般执行原有指令“傻等”,但IM AD3.0会像老司机一样观察两侧路况,并伺机变道。

如果碰上车道有水坑的情况下,IM AD3.0也会做出绕行水坑,而不是继续执行车道保持,从水坑上驶过。

在训练这套智驾系统的过程中,智己还采用了“长短期记忆模式”架构。


简单来说,就是将智驾大模型的数据处理分为短期记忆和长期记忆两种模式。短期记忆可以实现以天为单位的迭代,快速验证优质数据;长期记忆则是周级迭代优质数据,对数据进行质量评估后,把优质数据输出,应用于端到端大模型。

“长短期记忆模式”其实就是在模仿人脑“直觉推理+逻辑分析”的问题处理方式,可以在模型训练成本节省10-100倍的同时,大幅提升迭代速度。

02
 都得需要安全机制兜底

其实从智驾领域普遍的方案来看,分段式端到端是目前行业的主流方案。

分段式的大模型,感知端用一个模型,控制决策规划用一个模型,用两个模型来代替One Model,也是目前主流的端到端路线,像小鹏的XNGP、华为ADS3.0都是分段式端到端的方案。

而所谓一段式端到端大模型,就是取消了分模块智驾结构,将感知与规划整合进一个大模型,一个完整的神经网络减少了中间结构化感知结果的传递,从原始数据输入到规划路径输出,实现了信息无损传递,像车辆的颜色、司机的性别、车辆的状态等,体验更类人,性能上限更高。


所以不难看出,在智驾追求上,One Model大模型要比分段式大模型要好的多,因为信息的无损传递,上限也变得极高。

当然,从两段式端到端、模块化端到端到单一神经网络模型的One Model端到端的进程中,越往后,难度也越大。这也是为什么目前行业选择的主流方案是分段式端到端的原因。

就像不久前,极越汽车在其智驾发布会上说的那样“One Model的一段式端到端,好像可以用数据来解决所有问题。那为什么还是选择两段式端到端?”

因为出于安全因素的考虑。

虽然“One Model”的一段式模型,上限极高,但下限同样也很低。要知道通过一套神经网络模型来进行驾驶行为决策,这过程就像“黑盒”一样,很难控制系统输出的内容。

而且它也缺乏透明度,工程师很难修复系统中存在的决策漏洞,并不能保证绝对的安全,也就说,一段式方案面临更难的长尾问题。

但这也并不意味着,目前一段式端到端的方案就无法落地。

尽管AI模型存在不可控性,可能会做出一些违背物理规律的结论推导。所以这个时候,就不能仅靠“直觉”了,它还需要加入“逻辑”加以纠正。在一段式的前提下,加入“安全逻辑网络”来兜底,保证直觉决策的安全性。

这也对应智己汽车的方案,“一段式端到端+安全逻辑网络”,通俗的来说就是人脑的直觉推理+逻辑分析两个部分,正好对应智己给出的“长短记忆”两个系统结合。


而且智己汽车也不是第一个这么干的,在此之前,最先在智驾领域应用这种方案的是理想,其搭载的E2E(端到端大模型)+VLM(视觉语言模型)分成系统一和系统二,组成了“快慢”系统,两个系统相互配合,构成了人类认知和理解世界、做出决策的基础。

不难看出,两家在理念上极为类似,不过,在技术框架上有所区别。

理想的系统一是E2E端到端;系统二是VLM视觉语言模型,VLM在一些复杂场景下,会对E2E进行指导,像是一位陪驾的老司机,因为是一套视觉语言模型,所以运作频率相较于E2E是一套慢系统。


理想E2E端到端是系统一,作为主决策者,VLM视觉语言模型,当作系统2,可以理解为系统1的“冗余”,VLM在一些复杂场景下,会对E2E进行指导,像是一位陪驾的老司机,因为是一套视觉语言模型,所以运作频率相较于E2E是一套慢系统。

VLM视觉语言模型具备一些逻辑思考的能力,会在一些复杂情况下验证“端到端”的决策,最终实现车辆的兜底或控制。

而智己对应的方案“长短记忆“模式,长期记忆是通过E2E来完成,作为主决策者。

而智己上安全逻辑网络,就不是视觉语言模型了,而是一套由规则构成的逻辑算法,这套系统使用串行处理方式,对数据进行验证,实现算法迭代。


可以理解为对某个场景,某个功能模型的小版本演化,可以达到快速迭代试错目的,然后经过验证过的好的算法和数据,会在一段时间的积累后应用在“长期记忆”,即最终的端到端大模型上。

不难看出,虽然两家采用了不同的技术框架,但在理念上是殊途同归,而且都需要一套安全网络进行兜底。

所以再性感的智驾技术方案,没有足够的安全都是空中楼阁,技术路线或许没有标准答案,不断解决掉长尾问题,才是智驾的最优解。









































































































































































































看到这里说明您已用心读完本篇文章,有任何想法欢迎在评论区留言。另外,因微信改版,需要设置星标才能及时看到推送,请关注并点击星标“超电实验室”,我们一起研究车圈大小事~

推荐阅读



端到端还没捂热乎,小鹏就打算“上天”了

蜂巢能源叫停欧洲运营,300亿投资搁浅,当地企业也不好过


评论
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 137浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 143浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 140浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦