蔚来的「世界模型」治不了行业的疯病

原创 焉知新能源汽车 2024-08-15 11:34

电影《星际穿越》剧照

自动驾驶圈掀起了又一轮争吵。

「开城大战」、「是否真无图」的争端似乎还没有真正过去,一场端到端方案的较量就已经开始了。

理想的 VLM、小鹏的 XPlanner、华为的 ADS 3.0,在端到端这条路上,身处行业前沿的自动驾驶负责人们,用自己对行业的判断,结合团队能提供的资源,分别给出了接下来一段时间的最优解。

  • 规划控制网络化
  • 模块化端到端
  • 完全黑盒单模型端到端

但这是一条不明朗的路,每个团队在选择了自己的答案的同时,其实也就否定了其他团队的路线。

不过,路线的分歧只是表象,每个团队的内部目标其实是一致的:「真正的无人驾驶」。

我无意于给出哪个模块更加先进的表述,在风起云涌的自动驾驶行业,每一种都有自己存在的必要性和成功的可能性。

这篇文章,我想尝试探讨一个最初的问题:什么能给我们带来真正的无人驾驶?

01

无人驾驶是一个什么问题

两个问题:

  • 自动驾驶是一个什么问题?
  • 在这么多年的争论和变革中,我们讨论过什么?

从特斯拉的白色卡车事故对感知神经网络的质疑,到今天我们对一些 AEB 误识别的争吵;

Uber 的自动驾驶事故对行业安全性和可靠性的恐惧,到最近 Cruise 依然挣扎在证明 Robtaxi 的可靠性;

特斯拉为首的纯视觉感知和多传感器融合派的多年争论,依然没有结果。

2023 年国内行业主机厂和图商之间对于是否要做去地图的争论,这似乎已经有了对错,但是轻图还在各家的技术栈里面嘲笑各家的宣传。

到今天我们开始争论端到端道路的正确性。

其实不难发现,我们争论不休的,一直是达成目标的工具,而非达成的目标本身。

如果我们要达成无人驾驶,我们忽略的房间里的大象到底是什么?

我想起来知乎上一个著名的问题: 自动驾驶什么时候才会凉凉,估计还要多久?

曾在 Google 无人驾驶项目组(现在的 Waymo)工作过的田渊栋对此非常悲观。

自动驾驶是个很有趣的问题,它不像传统的有监督学习,不在固定数据集上算性能,它的数据集是 on-policy 的,就是说会随着当前驾驶策略的变化而变化。

另外,并不是所有的数据都有用,对自动驾驶来说,大量数据都是单调重复的(比如说天气晴好,周围无车也没有行人),对改进行驶策略没有太大帮助。

所以,如果以自动驾驶道路数据闭环,不断改进性能的话,行车策略质量越好,人工干预的频率越低,得到的有效训练数据就越少,继续改进就越难。

为此他给出了下面这条曲线,自动驾驶性能可能在拉平之前,可能永远无法到达人类的水平。

这是一个悲观的结果,他的回答来自于 2020 年。

这个话题回答的末尾是:

在 AI 能有下一步的理论突破之前,这些都是悬在大家头上的达摩克利斯之剑,随时要掉下来的。

从他的回答我们不难看出,基于纯道路数据的自动驾驶任务几乎是一个不可能完成的任务。

那么来到 2024 年,AI 有了进一步的突破了吗?

答案是毋庸置疑的,我们看到了 ChatGPT 3.5 的推理上的巨大突破,衍生的学习和工作方式的巨大变化,也看到了 Sora 在视频生成上对世界运行方式的惊人理解能力,基于大模型的具身智能的突破也让我们心潮澎湃。

那么无人驾驶从 AI 突破里看到曙光了吗?

02

AI 突破带来的无人驾驶曙光

如果路边有一个人穿着绘制着 STOP 的衣服,很有可能一辆无人驾驶车辆就会停住。

从工程师的角度看,这并不是稀奇的事情。由于北美驾驶场景中遇到路边的 STOP 是需要等待后通行的,同时在整个技术栈中,感知识别到 STOP 标志,然后向下游发送这个信号,下游进行执行。

从刚才的描述中,我们不难看出,整个技术的识别对场景没有全局的理解能力。 STOP 标志虽然识别成功了,但是系统对整体场景是没有理解能力的,识别到的是:

场景中的某个元素

这是传统自动驾驶技术栈的缺陷,缺乏主动对场景的理解能力。

如果需要处理一个人穿着 STOP 标志的衣服的人,应该怎么办?

对于任何一个司机,这都不成问题,因为我们有对除了驾驶场景外的世界的理解能力,我们能理解人穿 STOP 标志的衣服。

那么就引申出来一个重要的问题,自动驾驶系统可以拥有这样的理解能力吗?或者自动驾驶系统需要怎么样才能获得这样的理解能力?

这里我们思考一个驾照申领过程,一般国内申领驾照需要成年。

为什么未成年不行?

实际上暗含的条件是:具备了足够的世界认知能力

那么世界认知能力是怎么获得的?

从婴儿第一次睁开眼睛开始的视觉信息,到逐渐学会交流的语言信息,不断提升人的认知能力。

经过足够多的信息对人脑的训练之后,在驾校,通过集中学习,将这些能力迁移到驾驶场景中。

那么对于自动驾驶系统,如果我们想复制一个类似人学习驾照的场景需要怎么做?

用足够多的视频信息和语言信息训练一个系统(让这个系统满 18 岁),然后再用驾驶场景的数据对系统进行迁移(驾校)。

从而产生一个足够好的自动驾驶系统(拿到驾照)。

最后,用足够多的视频和语言信息训练一个系统,这听上去太熟悉了,这不就是一个多模态大模型吗?再进一步,最近最有名的多模态大模型是什么?

答案是:Sora 

年初的时候,OpenAI 的视频甫一发布,整个文生视频圈发生大地震,模型展现出来非常强物理仿真能力和推理能力。

而在 OpenAI 的研究者眼中,拥有足够对世界的理解能力,并且能理解事物发生的前后关系的 Sora,就是一个世界模型了。

03

什么是世界模型

「世界模型」这是一个特别好理解,但却极其难以解释的概念,更别想想整个人工智能界为了将它应用在各个领域的难度了。

理解世界模型,你首先要理解的基本概念是,世界模型不是简单的「仿真系统」,这是我最近听到对世界模型描述最多,也是对它最大的误解。

仿真是工程师利用有限规则对环境的模拟,而世界模型是系统根据海量数据对物理世界的重建。

二者确实有很多相似的感觉,但所表达的内涵却完全不同,世界模型除了包含仿真可以对现实环境进行重构,其核心是,要表达物理世界里的物理规律

理解「世界模型」的基本内涵,是理解世界模型如何帮助自动驾驶落地最重要的步骤。

世界模型相比其他自动驾驶技术,它的基本概念更加抽象,世界模型的概念最早是由 David Ha 和 Jürgen Schmidhuber 两名学术研究者发表的一篇文章里提到的。

但这篇名为「WorldModels」的文章并没有明确定义什么是世界模型,但它给出了一个概念,想让机器像人类一样认知世界,那就要像人类一样拥有理解世界构成以及元素之间关联关系的能力。

这里面的难点是,让机器做到这一点,目前最有用的方案是用大量数据进行学习训练,但本质上这所达到的还是让机器在模仿人,而不是和人一样。

而人脑的神经网路,可以基于一个极简化的数据训练后,获取一个理解物理世界环境的结果,更重要的是,人可以获取物理世界的物理定律信息。

举个例子,一个玻璃杯放在桌子上,我们知道这个玻璃杯完好静止在桌子上,但如果玻璃杯从桌子上掉下来,这个时候有趣的现象发生了,在玻璃杯没有碰到地的这个过程中,我们人类可以得到两个基本信息,一个是这个杯子会碎掉;另一个是掉地下不会碎掉,滚两圈。

你会问,这不是废话吗,谁都知道这两个结果。

但你有没有想过为什么人会知道这两个结果?

核心是,因为人知道玻璃材质会碎,上诉两个答案是根据人了解到的物理规律,关连已知玻璃这种材料得到的答案。

在硅谷101账号推文中有这么一句话,在这个 mental model 中,并不包含世界上的所有信息或细节,而只是包含了被我们选中的某些互相关联的概念。

换句话说,人们在头脑中构建的世界图像是现实世界的一个简化版,这个简化的模型不仅帮助我们理解世界,更重要的,我们还会根据这个头脑中的简化世界决定预测未来走向。

而世界模型也采用了类似的思维模式:在有限的、有选择性的信息基础上进行有效的决策和预测。更重要的是,和人脑一样,世界模型不仅需要预测立即的结果,还要能够预测更长时间序列的后果,这对于理解复杂环境和规划长期策略至关重要。

Yann LeCun 定义下的世界模型之所以强大,是因为它试图模仿智能生物与世界的互动方式:观察、理解、预测和行动,同时也考虑未知的事物和因素。

它是一个综合框架,可以应用于从玩视频游戏到导航现实世界环境的各种问题,目标是创建能够学习以对未知因素具有适应性和鲁棒性(在异常和危险情况下系统生存的能力)的方式导航和与复杂环境交互的模型。

是不是觉得以上的解释非常复杂很难懂?

根据文生视频明星创业公司 Runway 的表述:

A world model is an AI system that builds an internal representation of an environment, and uses it to simulate future events within that environment.

世界模型是一种人工智能系统,它构建环境的内部表示,并使用它来模拟该环境中的未来事件。

世界模型最重要的是能够对所有感官的信息进行关联,它不仅能够对基于感知获取的信息预测结果,更重要的是,世界模型可以对新的、没有见过的数据也能形成泛化的理解,也根据它对世界的理解,从而对未来做出预测。

在理想状态下,训练出的世界模型不仅能够复制它看到的数据,更能够理解数据背后的因果关系,并在新的情况下做出有效的预测。如果把世界模型的概念套用到视频生成领域则可以理解为,这个模型能够让机器像人类一样,对世界产生一个全面而准确的认知,从而生成更流畅、更符合逻辑、时间更长的视频。

在自动驾驶领域,自动驾驶端到端先驱 Wayve 和 Tesla 都用展示过自己的世界模型,通过用驾驶场景的视频训练模型,让模型在像素的变化中学会环境的理解和推理能力,进而产生足够强大的自动驾驶系统。

不论是学界还是业界,都对世界模型展现出了极大的兴趣。其中受到最多关注的还是 Wayve 的 Gaia 系列。

相较于其他模型在公开同质的数据上进行训练,Wayve 的数据来自于车辆在英国伦敦街头的数据收集结果,数据量也比学界常用的 nuScenes 大很多,自然理解世界的能力也更强。

在海量的数据进行训练之后,我们看到 Gaia 能够生成极其逼真的驾驶场景数据,并且能够产生难以收集到的驾驶场景。

根据 Wayve 的公开论文,他们会使用这些场景对自动驾驶系统进行训练、测试和仿真,加速自动驾驶系统的开发。

回到我们驾照的那个问题,我们几乎可以认为这条路可以产生对驾驶场景的深度理解,为什么不直接用这个世界模型进行自动驾驶任务呢?

蔚来的这次发布的 Nio World Model (NWM) 就是这么做的。

04

蔚来 NWM

与 Wayve 的 Gaia 类似,蔚来的世界模型也主要通过对视频的学习,让模型学会了世界运行的规律。

具体来说,使用自动驾驶车辆收集到的原始传感器的数据,让系统在其中自动学习知识和物理规律,让整个视野的数据信息重建,并且想象下一个时间的世界。

就像我们日常驾驶一样,不断在推演下一时刻可能会发生什么,进而做出最优的选择。

但是与 Wayve 区别是,蔚来是一家量产车公司,具备足够体量和足够场景覆盖度的车队规模。

NT2.0 蔚来的传感器就非常统一,这意味着所有回流的数据都能给蔚来的世界模型进行训练,相较于 Wayve 只在伦敦运行,蔚来的世界模型所能使用的数据远远不是一个层级。

所以模型能够想象雨天、雪天、白天、黑烟等等不同的场景,也能够对成千上万个场景进行预测。

那既然可以预测千万个场景,是不是也可以让它在千万个场景中驾驶呢?这就又回到了我们驾校推演的线索里。

现在,这个模型学会了理解驾驶场景,怎么让模型学会驾驶?

NWM 可以在 0.1 s 内推演出 216 中可能发生的轨迹,寻找最佳决策,然后在接下来的 0.1s 内,根据外界信息的输入重复更新内在的模型,再去预测 216 中可能性,找到驾驶最优解。

这与我们驾驶时思考方式是基本一致的,看到一辆车,我们估计这辆车的行为,并且做出反应,然后再根据我们的动作和前方车辆的动作做出下一步的动作。

这些是模型的能力,那么这种模型要如何进行测试呢,这是一个动态的模型,需要有一个动态的场景才能进行测试。

例如我们的动作对环境的影响,还有环境接下来对系统决策的影响。

当然我们可以上实车进行测试,不过想象一下,一个刚刚训练出来的黑盒模型,我们摸不透它的想法,只知道它理解了这个世界。

但是有没有可能它学会的是迅速结束这个游戏呢?

例如在强化学习中,错误的奖励函数可能让这个智能体认为迅速结束游戏可以获得更好的结果。

但这可是性命攸关的自动驾驶啊。

NSim 就出现了,这是蔚来为世界模型提供的驾校。

蔚来自动驾驶团队使用了现在非常流行的 Gaussian Splatting 技术,用行车的多个传感器共同重建出 3D 世界,并且能够让自动驾驶系统在其中进行测试,计算出更好的轨迹。

例如下面的视频,重建完了之后,提供了一定的视角转换能力,例如可以将视角抬升,左偏或者右偏。

对应的,对应左边变道和右边变道的轨迹就能在虚拟世界中进行严谨的验证。

那么测试团队就有机会看到,自动驾驶系统给出了不同的轨迹之后,是否会发生碰撞,是否会产生不合理的驾驶感受。

原本只能与真实世界中唯一的轨迹进行比对,有了 NSim 之后,更多比对的可能性迅速增加,千万个世界共同验证轨迹,进一步进行训练,让输出的智能驾驶轨迹更加合理和高效。

更重要的是,依托蔚来的群体智能,日行千万公里的真实场景数据,不仅可以用来训练世界模型,也可以用来进行三维重建,整个系统内部逻辑自洽而强大。

当然,关于模型的具体细节,巨大的参数量如何上车和具体表现,蔚来并未透露。

但是一幅完整的实现途径已经展现在了我们面前。

写在最后

最近刚好在看人工智能先驱李飞飞的自传《我所看到的世界》,惊讶于她波折的成长史的同时,也看到她在人工智能领域的超前布局。

她执意于数据集的收集和标注,为此才有了 ImageNet 上的巨大突破。

那时连神经网络的研究都没有成为主流,学界认为是扫进历史垃圾堆的老古董。

在 AlexNet 算法变革产生之前,ImageNet 就像一座宝库在等待未来的骑士。

而蔚来这么多年的群体智能积累,似乎也在等待对数据有着更大要求的这一天。

端到端、世界模型,这些无不告诉我们海量数据的重要性。在新的数据组织方式没有出现前,或许这海量的道路上收集的驾驶视频,就是指引我们的北极星。

那么端都端或者世界模型会是自动驾驶的终局吗?

这个问题似乎依然没有答案,但是我们看到所有的模型进步都在学习人类。

不论是神经网络类似于突触的结构,还是现在世界模型希望找到人类的认知方式,到我们期待能逐渐完成通用人工智能。

ImageNet 以 1500 万张图片的规模,涵盖 2.2 万个类别,让神经网络实现了在分类任务上对人类的超越。

那是在 2015 年 ResNet 问世,视觉识别错误率仅 4.5%,人工智能开始井喷发展。而蔚来的自动驾驶负责人任少卿,就是 ResNet 的重要贡献者。

ResNet 问世十年的时候快要到了,我们也期待有一个新的范式出现,在复杂的驾驶任务上超过人类。

那么我们是否能够期待,这个新的任务十年后也由任少卿带领的蔚来自动驾驶团队完成?






焉知新能源汽车 新能源科技、智车科技
评论
  •         近日,广电计量在聚焦离子束(FIB)领域编写的专业著作《聚焦离子束:失效分析》正式出版,填补了国内聚焦离子束领域实践性专业书籍的空白,为该领域的技术发展与知识传播提供了重要助力。         随着芯片技术不断发展,芯片的集成度越来越高,结构也日益复杂。这使得传统的失效分析方法面临巨大挑战。FIB技术的出现,为芯片失效分析带来了新的解决方案。它能够在纳米尺度上对芯片进行精确加工和分析。当芯
    广电计量 2025-02-28 09:15 116浏览
  • 美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?美国加州CEC能效跟DOE能效有什么区别?CEC/DOE是什么关系?‌美国加州CEC能效认证与美国DOE能效认证在多个方面存在显著差异‌。认证范围和适用地区‌CEC能效认证‌:仅适用于在加利福尼亚州销售的电器产品。CEC认证的范围包括制冷设备、房间空调、中央空调、便携式空调、加热器、热水器、游泳池加热器、卫浴配件、光源、应急灯具、交通信号模块、灯具、洗碗机、洗衣机、干衣机、烹饪器具、电机和压缩机、变压器、外置电源、消费类电子设备
    张工nx808593 2025-02-27 18:04 120浏览
  •           近日受某专业机构邀请,参加了官方举办的《广东省科技创新条例》宣讲会。在与会之前,作为一名技术工作者一直认为技术的法例都是保密和侵权方面的,而潜意识中感觉法律有束缚创新工作的进行可能。通过一个上午学习新法,对广东省的科技创新有了新的认识。广东是改革的前沿阵地,是科技创新的沃土,企业是创新的主要个体。《广东省科技创新条例》是广东省为促进科技创新、推动高质量发展而制定的地方性法规,主要内容包括: 总则:明确立法目
    广州铁金刚 2025-02-28 10:14 103浏览
  • 1,微软下载免费Visual Studio Code2,安装C/C++插件,如果无法直接点击下载, 可以选择手动install from VSIX:ms-vscode.cpptools-1.23.6@win32-x64.vsix3,安装C/C++编译器MniGW (MinGW在 Windows 环境下提供类似于 Unix/Linux 环境下的开发工具,使开发者能够轻松地在 Windows 上编写和编译 C、C++ 等程序.)4,C/C++插件扩展设置中添加Include Path 5,
    黎查 2025-02-28 14:39 140浏览
  • 在物联网领域中,无线射频技术作为设备间通信的核心手段,已深度渗透工业自动化、智慧城市及智能家居等多元场景。然而,随着物联网设备接入规模的不断扩大,如何降低运维成本,提升通信数据的传输速度和响应时间,实现更广泛、更稳定的覆盖已成为当前亟待解决的系统性难题。SoC无线收发模块-RFM25A12在此背景下,华普微创新推出了一款高性能、远距离与高性价比的Sub-GHz无线SoC收发模块RFM25A12,旨在提升射频性能以满足行业中日益增长与复杂的设备互联需求。值得一提的是,RFM25A12还支持Wi-S
    华普微HOPERF 2025-02-28 09:06 143浏览
  • 一、VSM的基本原理震动样品磁强计(Vibrating Sample Magnetometer,简称VSM)是一种灵敏且高效的磁性测量仪器。其基本工作原理是利用震动样品在探测线圈中引起的变化磁场来产生感应电压,这个感应电压与样品的磁矩成正比。因此,通过测量这个感应电压,我们就能够精确地确定样品的磁矩。在VSM中,被测量的样品通常被固定在一个震动头上,并以一定的频率和振幅震动。这种震动在探测线圈中引起了变化的磁通量,从而产生了一个交流电信号。这个信号的幅度和样品的磁矩有着直接的关系。因此,通过仔细
    锦正茂科技 2025-02-28 13:30 100浏览
  • RGB灯光无法同步?细致的动态光效设定反而成为产品客诉来源!随着科技的进步和消费者需求变化,电脑接口设备单一功能性已无法满足市场需求,因此在产品上增加「动态光效」的形式便应运而生,藉此吸引消费者目光。这种RGB灯光效果,不仅能增强电脑周边产品的视觉吸引力,还能为用户提供个性化的体验,展现独特自我风格。如今,笔记本电脑、键盘、鼠标、鼠标垫、耳机、显示器等多种电脑接口设备多数已配备动态光效。这些设备的灯光效果会随着音乐节奏、游戏情节或使用者的设置而变化。想象一个画面,当一名游戏玩家,按下电源开关,整
    百佳泰测试实验室 2025-02-27 14:15 137浏览
  • 应用趋势与客户需求,AI PC的未来展望随着人工智能(AI)技术的日益成熟,AI PC(人工智能个人电脑)逐渐成为消费者和企业工作中的重要工具。这类产品集成了最新的AI处理器,如NPU、CPU和GPU,并具备许多智能化功能,为用户带来更高效且直观的操作体验。AI PC的目标是提升工作和日常生活的效率,通过深度学习与自然语言处理等技术,实现更流畅的多任务处理、实时翻译、语音助手、图像生成等功能,满足现代用户对生产力和娱乐的双重需求。随着各行各业对数字转型需求的增长,AI PC也开始在各个领域中显示
    百佳泰测试实验室 2025-02-27 14:08 255浏览
  • 振动样品磁强计是一种用于测量材料磁性的精密仪器,广泛应用于科研、工业检测等领域。然而,其测量准确度会受到多种因素的影响,下面我们将逐一分析这些因素。一、温度因素温度是影响振动样品磁强计测量准确度的重要因素之一。随着温度的变化,材料的磁性也会发生变化,从而影响测量结果的准确性。因此,在进行磁性测量时,应确保恒温环境,以减少温度波动对测量结果的影响。二、样品制备样品的制备过程同样会影响振动样品磁强计的测量准确度。样品的形状、尺寸和表面处理等因素都会对测量结果产生影响。为了确保测量准确度,应严格按照规
    锦正茂科技 2025-02-28 14:05 134浏览
  • 更多生命体征指标风靡的背后都只有一个原因:更多人将健康排在人生第一顺位!“AGEs,也就是晚期糖基化终末产物,英文名Advanced Glycation End-products,是存在于我们体内的一种代谢产物” 艾迈斯欧司朗亚太区健康监测高级市场经理王亚琴说道,“相信业内的朋友都会有关注,最近该指标的热度很高,它可以用来评估人的生活方式是否健康。”据悉,AGEs是可穿戴健康监测领域的一个“萌新”指标,近来备受关注。如果站在学术角度来理解它,那么AGEs是在非酶促条件下,蛋白质、氨基酸
    艾迈斯欧司朗 2025-02-27 14:50 400浏览
  • Matter 协议,原名 CHIP(Connected Home over IP),是由苹果、谷歌、亚马逊和三星等科技巨头联合ZigBee联盟(现连接标准联盟CSA)共同推出的一套基于IP协议的智能家居连接标准,旨在打破智能家居设备之间的 “语言障碍”,实现真正的互联互通。然而,目标与现实之间总有落差,前期阶段的Matter 协议由于设备支持类型有限、设备生态协同滞后以及设备通信协议割裂等原因,并未能彻底消除智能家居中的“设备孤岛”现象,但随着2025年的到来,这些现象都将得到完美的解决。近期,
    华普微HOPERF 2025-02-27 10:32 214浏览
  • 在2024年的科技征程中,具身智能的发展已成为全球关注的焦点。从实验室到现实应用,这一领域正以前所未有的速度推进,改写着人类与机器的互动边界。这一年,我们见证了具身智能技术的突破与变革,它不仅落地各行各业,带来新的机遇,更在深刻影响着我们的生活方式和思维方式。随着相关技术的飞速发展,具身智能不再仅仅是一个技术概念,更像是一把神奇的钥匙。身后的众多行业,无论愿意与否,都像是被卷入一场伟大变革浪潮中的船只,注定要被这股汹涌的力量重塑航向。01为什么是具身智能?为什么在中国?最近,中国具身智能行业的进
    艾迈斯欧司朗 2025-02-28 15:45 221浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦