看不懂「世界模型」,就像你看不懂人间爱情

焉知新能源汽车 2024-09-07 14:17


电影《花样年华》剧照


专访


受访人:

理想汽车智能驾驶研发副总裁 郎咸朋博士;

理想汽车智能驾驶高级算法专家 詹锟

「端到端、世界模型」像极了爱情,人并不好描述这是什么,也不知道应该怎么做才是最好的答案,但都想收获属于自己的爱情故事。

端到端应该是整个 2024 年自动驾驶领域最热的词汇,如果自信一点的话,其实它就是,它不仅是一个技术范式的改变,更多是整个通用通用人工智能接下来的方向指引。

理想汽车是自主品牌里第一个量产端到端智驾的主机厂,一方面理想确实在技术上守住了自己的基本盘;另一方面理想汽车对未来人工智能的理解更加深刻。

下面这部分内容是一些信息采访,信息量很大,我没有做删减和改动,希望给你提供一下不一样的信息。

核心内容:

Q1:按照我们的理解,理想智驾从一开始的落后,到进展和体验的靠前,有些做法非常关键,比如从 RD 转 PD 和快速试错,在转 PD 过程的验证工作,如何兼顾速度和质量?对于传统粉丝诟病的新势力验证不充分就上市的说辞,我们如何应对这种质疑?

郎咸朋:后进生逆袭到第一梯队很正常。

第一点是我们的组织效率确实非常高效,我们是向华为学习的组织架构,比如我们内部有 IPD 流程等。

这是我们学习一些先进经验,然后结合理想汽车自己的企业特点进行内化处理的结果。

在验证测试方面,我们通过技术提升做到更好的测试和发布效果,同时也减少了时间和人力。而且,测试效果比原来人力测试更好,这是人工智能技术带来的结果。

我们用重建、生成技术取代了人工的测试,重建技术很快就能够重建几百公里的场景,包括各种天气路况下的场景,这些场景通过人类驾驶未必能够获取。

詹锟:目前在整个智驾团队,我们的 PD、RD 和交付这三者同步进行,我们是交付一代、研发一代、预研一代,这是我们为什么能一直紧跟目前智驾最新技术方案的原因,我们有比较好的阶梯式研发流程。

我们在做无图 NOA 研发的时候,其实端到端已经开始预研。并不是等无图 NOA 做完,再慢慢的切换到端到端架构研发中,其实我们前面就有储备,所以这是我们为什么会速度比较快的原因。

如果大家觉得牺牲了效率,其实是因为没有找到提效的方法,我们逐渐已经找到了通过自动化测试、世界模型高效验证模型的方法,所以我们才能兼顾速度和质量。

Q2:现阶段理想智驾研发架构中分为算法研发和量产研发,分别对应着不同的小组,小组对应的是端到端不同模块。随着未来算法的迭代和成本的优化,未来的组织架构是否会进行调整?朝哪些方向来做调整?这个过程中有遇到哪些难题?

郎咸朋:在整体战略规划和业务战略里,我们对于业务组织有清晰的布局。组织根据业务变化,业务的目标和迭代则根据战略调整,这就是我们的 BLM 流程(业务领导力模型),我们原来叫 LSA 流程(理想汽车战略分析法)。

大家可能对外感知到的是产品、组织的迭代,但实际上背后影射的是我们战略和业务的迭代和变化。

我们的组织变化要追溯到去年或者更早。我们把智能驾驶作为公司战略之后,业务和组织才开始发生迭代和变化。

在去年秋季的雁栖湖战略会,我们首次明确提出 PD 和 RD 都非常重要,但是其实在那之前 PD、RD 已经有了,只是在战略会上,进一步明确了将智能驾驶和 RD 都作为公司级战略展开,所以业务发生了变化。

接下来组织会不会发生变化,要看跟业务是否有关联。

Q3:目前所有的车企能够量产车型都是 L2 级辅助驾驶,理想汽车「端到端 +VLM」怎么保证保证智驾的安全?

郎咸朋:从流程上来讲,内部主要研发流程分为产品交付研发流程以及智能 AI 的研发流程,两个流程相互配合。

端到端+VLM 这套技术系统在一个月的测试过程中,虽然开启城市 NOA 功能始终是通过拨两次方向盘杆,实现从 A 点到 B 点的智能驾驶,但是模型迭代的能力却在不断提升。

在模型迭代的时候,整个功能跟原来完全一样,所以这个功能之前做的测试仍然有效。对于这个能力的表现,我们用生成和重建的方式做模型的泛化测试和检验,比实车在全中国驾驶测试好得多。

这是我们在 AI 时代到来之后,对于产品研发的深度思考,从而带来的研发变化。

安全另外一层含义就是:怎么能在产品交付之前,做更多更有效的测试。

如果用实车做测试,一方面是成本;另一方面是是测试效果可能达不到交付有监督自动驾驶的程度,特别是当模型迭代比较迅速的时候。

我们现在用 Diffusion transformer 技术,再加上 3DGS 技术,能够把曾经遇到过错题以及遇到过的场景,举一反三地形成模拟题,实现不断地测试模型能力,不断地优化各个城市表现。

我们在每一个维度上都有非常严格的打分,比如安全、法律法规等维度。如果不安全、不合规,模型就不能交付给用户。

现在在千人团内测阶段,还没有到量产阶段,所以在安全、合规方面的要求会更加严格,确保我们的产品是一个安全可靠的产品。

詹锟:我从技术角度来说,我们有安全兜底模块,甚至有些东西我们会保证它有绝对的下限。

以前写了很多规则应对不同的场景,但是现在只需要写下限的规则,上限全靠端的端 、VLM 去捕捉,甚至有些防御性驾驶,VLM 都可以提前告诉系统,比如丁字路口、坑洼小路等,这些都在一定程度上提升了系统安全性。无论是数据还是算法,都是在把安全性往上提升。

并不是大家说的那样,用端到端了安全就差了,这是针对设计不完善的一种想法。

另外,AEB/AES 其实是在最极端的情况下,最兜底的一种保证绝对安全的方式。

这就是用算法、冗余一起来解决安全问题。

Q4:现在从生成到输出,对于传感器包括数据需要有一些质量监测,这个过程中如果出现恶意攻击,甚至说出现各种故障,这种情况理想汽车怎么解决这数据安全的问题?

詹锟:面对数据被污染或者传感器遭受恶意攻击,以及对神经网络进行对抗性破坏,我们已经将这种情况涵盖到整个网络训练过程中。

模型训练并不是针对单一的传感器,比如一个传感器损坏,我们能够通过 BEV 解决。

即使在雨天某个传感器脏污的很厉害,我们依然能稳健驾驶,同时能给用户对应提醒,会告诉你找个安全的地方停车,不会让系统直接失效。

因为有 Radar、Lidar 等多个传感器,各个传感器在不同环境下能冗余互补,单一的攻击很难起效,这就是为什么很难有单一的攻击策略能让智驾系统失效,因为在技术上做了很多防护。

Q5:理想汽车怎么衡量技术发展和销售规模平衡问题?

郎咸朋:理想 L 系列外观比较相似,外界也说是在套娃,但是这让我们有个最大的优势。

传感器布局和传感器型号完全一致,所以理想L系列的数据可以完全复用,这个是我们比其他企业想的更长远的,所以说大家觉得我们套娃了,实际上对自动驾驶的研发非常有好处。

我认为技术发展和销售规模平衡并不矛盾,最近两个月我们的 AD Max 车型销量每个月保持 10% 以上的提升,30 万元以上车型 AD Max 销量占比达到 70%,部分车型部分地域 AD Max 占比达到 90% 以上,这就是我们最近这几个月技术发展带来的变化。

如果技术没有影响销售的话,可能是技术落地没有做好,没有真正解决用户需求。

之前行业普遍做轻图和有图方案的时候,其实也在做一些功能,但是一定没有端到端的使用效果好。

我觉得还是因为到了端到端这个时代,大家对这个产品的效果有了更好的体验之后,用户就会买单。

Q6:智能驾驶的技术升级是否能带来销量提升?

郎咸朋:销售有几个非常重要的漏斗,第一个是品牌,只有用户认可品牌后才会比较智驾、电池、续航等。

如果说一开始品牌就不在老百姓的选择范围内,那可能做什么都跟销量没有关系。

Q7:现在端到端在不同城市的表现不一样,我们会针对不同城市来做不同模型吗?还是说会在一个模型上不断地去调优?

詹锟:首先,模型在不同城市有不同表现,这并不代表我们要对不同城市下发不同模型,让模型获得不一样的错题。

而是说在世界模型的评测体系下,能够精准地知道这个模型在不同城市是什么表现,便于我们对其做有针对性的分析。

比如在过去的 Case 里,杭州和广州偏弱,那么对应补足杭州、广州的一些特定场景,加入训练数据中,放到模型中,让模型有全面的提升,所以模型迭代的过程并不是盲目的。

如果我们不知道产品在不同城市的表现,我们就会盲目地寻找全国各地的数据,最后实车体验时用户发现杭州还是不行。

这样的结果就是迭代效率非常低,训练数据量增加并没有效果,这就是大家都在说的大模型需要高质量数据。有精准的评测才能提高质量,而不是盲目增加数据量。

不同城市不同模型的效果其实是我们非常好的一个特点,能知道很细节的评测维度,不同模型我们有很多维度。在不同城市,还能知道它更细分的情况,让我们更有针对性。

比如是不是因为广州的高架桥特别复杂,是不是杭州的可变车道特别复杂才导致端到端的表现不如其他城市,我们是通过这种方式迭代我们的智能驾驶。

最终,我们肯定最后会把一个在全国都非常均衡的智能驾驶推送给用户。

Q8:One Model 模型怎么优化?只能靠优质数据吗?系统本身是否会有调整?

詹锟:我们现在用数据大幅训练模型。

微博上有人总结我们三个版号的含义。

第一个版号是数据,1 表示 100 万量级的 clips;2 表示 200 万的clips。

第二个版本号是模型结构。

所以优化不只是依靠数据,模型结构也很重要,里面有各种细分类型,比如 Cross Attention、Self Attention,我们在这方面会做各种各样的设计和实验,所以第二个版号有各种变化,训练策略也会发生变化,模型训练一遍就结束,还是训练一遍以后把重点那点挑出来,再重新训练一遍?还是先训练一部分,再做精选数据的训练。

这些都是在大模型训练过程中,我们逐渐积累的经验,肯定不是仅用数据来迭代。

Q9:大家都在探索自动驾驶,没有一个共识方案,所以理想端到端 +VLM 进入市场的同时,还会不会有其他探索?关于智能驾驶的短期目标,或者最终目标是怎么样?

詹锟:第一个事实是,大家都在研发阶段、尝试阶段,我们之所以敢把目前的版本推送给用户,是因为我们觉得可以类比 CNN 深度学习网络时期,当时因为一个竞赛,CNN 的性能优化了 10% 左右,性能和安全体验得到了大幅提升。

第二个事实是,在这个过程当中,不同数据、不同的模型结构、不同的训练方法,对模型的迭代都有帮助。

这其实是各家都在做的一个关键,解决数据和训练算力的基础问题之后,我相信我们,包括特斯拉都能成功炼丹。

但是炼丹第一步就是得有原材料,当原材料得到解决,炼丹的比例调整好,这个丹的作用才大。

类似于以前炼火药,按照一硝二磺三木炭的比例来,火药的威力就大,如果1:1:1做出来的就是「呲花」,这就是各家在迭代过程当中的一些技术诀窍。

我们和用户共同成长,所以我们也需要知道每一套模型实际的表现如何,我们内部有自己的测试,如果表现不好就会内部消化,这种模型就不让去用户使用,但是每当模型有迭代、有提升的时候,我们都会拿给用户去进行测试、验证,这是我们研发过程当中的一些迭代。

关于下一代方案,不知道大家有没有看上周智元的发布会,智元展示了 G1 到 G5 的具身智能过程。

其实我们内部也有自动驾驶整个研发过程的阶段,我认为在现阶段,无论是对于理想汽车来说,还是对于特斯拉来说,其实都是在向双系统方向发展。

所以端到端肯定是一个非常好的阶段,我们认为已经达到了 L3。我们想进一步向 L4 发展,其实就是需要端到端+VLM 双系统,我们认为这是面向 L4 的一个终局方案。

那再往后,L4 不是终局的话,我们还有 L5,像智元发布的 G5 一样,我们肯定还会有一体化的、超大规模的统一模型,像 GPT-4o 模型。

未来,肯定要把两个模型合在一起,实现手脑完全结合的大模型方案,这是我们之后要尝试,要探索的东西。

Q10:目前,理想 AD Max 由两颗 OrinX 来支撑现在测试的能力开发,端到端方案对车端算力的要求是什么样的?是更高还是更低?那么未来随着上车端到端会不会变得更加强大?那这究竟是个什么样的关系?能不能解读一下?

詹锟:各家在使用算法的时候,都会跟自己的硬件做匹配,无论是用地平线方案,还是 Orin 方案。

双 OrinX 可以完美适配我们的双系统方案,如果要给出一个固定的上限,不是很好直接预测或配置。

但是我们可以知道,随着算力增加,整个能力是一个非常线性的增加,包括特斯拉也证明了 12.5 版本比 12.3 提升了五倍,这也完美符合这种大模型的 Scaling Law。

对我们来说,到 Thor 阶段我们肯定会有一个更大规模数据量训练的端到端大模型,效果会进一步提升。

我们可以看到它的趋势,我们会基于芯片对它进行相关算法的定制化调整;同时模型规模越来越大,最后产出的端到端效果会越来越好。

另外,其实也可以看到特斯拉现在正在宣传 2026 年要做一个 AI 5 的芯片,大概有 3000 到 4000TOPS 的水平,这个阶段是他在做 Robotaxi 的一个想法。我们也在持续关注高算力的车端芯片的性能。

郎咸朋:我补充一点,Thor 芯片上车后,因为它的算力比现在 OrinX 又大了很多,那么我们会在 Thor 上更多地发展我们系统化 VLM 的模型能力。

端到端模型我们认为是比较吃算力的,但是它使用算力的上限比 VLM 少很多,而且它有一定的上限,要 1000 万 clips,训练这样一个模型所需要的参数量非常大。

所以在向 L4 发展过程中,整个系统需要让它具备更好地应对未知场景的能力,而未知场景能力的提升,需要提升的是系统 2,就是 VLM 的模型能力,所以我们现在 22 亿的产出量,将来可能再去扩大。

Q11:端到端方案对算力要求的下限最低到多少?

郎咸朋:我们认为没有下限。

Q12:理想汽车端到端+VLM 两个系统怎么配合?未来的发展是什么样的?

詹锟:VLM 在车上类似于 GPT,各个系统模块都会找它问问题,车机会问它,有个高架桥是不是要在桥下走?

如果不是的话 VLM 可以跟车机进行交互,输出轨迹进行切换。

端到端问它当前在这个路口走到了左转人行道上,能不能沿左转走,还是违背路径,沿着其他方向走,这种复杂路况 VLM 都需要做判断。

各个模块会问 VLM,同时 VLM 也会自己判断情况,比如遇到比较复杂的路况,如施工坑洼等,VLM 会主动给端到端系统发信号,端到端收到减速信号,或者是一个注意安全的信号,会把文字信息会变成一个 embedding,就是把它变成一个特征向量编码,放到端到端模型里,最后端到端模型对应采取减速策略或者避让策略,输出轨迹。

同时还有一些情况,比如我们告诉端到端这个地方是公交车道不能走,那端到端在输出轨迹的时候就不会向公交车道这个方向去。通过各种语言文本信号的配合,让端到端能听懂 VLM 的相关建议值。

VLM 相当于教练一样,旁边有个这样的司机告诉你,这里要注意车辆减速,车辆预判驾驶,但具体怎么踩刹车,这个会让端到端去判断,但是 VLM 会给出相关的建议,甚至踩刹车程度的建议也会给。

Q13:One Model 端到端是如何实现的?相比其他的分段式端到端的区别?

詹锟:我们是传感器的输入做编码,然后交给统一的 Transformer decoder 网络做输出。

它的输出分为几个维度:

  • 一,感知信息的输出,感知信息可以用来做显示,跟驾驶员做交互;
  • 二,辅助监督,让这个模型收敛得更快;
  • 三,直接输出的轨迹,我们这个轨迹交给了一个控制模块,控制模块会做安全校验;
  • 四,最后转成油门开度、方向盘转角,最后输出出来。

整个模型架构其实非常简单,不是特别复杂的架构,而是一个非常简洁清晰的架构。我们更多是通过数据,通过配比,通过训练策略调整One Model端到端的效果。

郎咸朋:相比其他的分段式、分模块最大的优点是模型在进行推理的时候所有的信息是一手信息

如果是分段式的,上游是个感知,下游是个规划,最终车开的好不好还是要看规划,规划来的信息不是一手的,感知如果出了问题,规划拿到的信息可能就是有瑕疵的,或者有错误的。

模型就算训练的再好,输入不好,规划还是会存在问题,这是最大的区别。

One Model 有没有它的问题呢?

有,它的训练难度非常大。

来的是原生数据,出来的是些轨迹线,这样一听就感觉不太好训练。

第二就是数据。理想有非常好的训练数据,我们有非常多的视频训练片段,我们有 22 亿公里训练数据,今年年底将达到 30 亿公里,但是 30 亿公里不会都用来训练。

因为我们会挑选那些老司机的数据,就是开的好的,什么叫开的好?

我们有几个维度,比如他平时的驾驶习惯,是不是总是急加速、急减速,包括总是开出 AEB 来,这种数据肯定我们就不要了。

我们给每个司机都打了分,现在理想 90 万车主,大概有 3% 的司机,可以被我们评价成老司机。

也就是说,22 亿公里里边我们能拿来训练的是优中选优的一些数据,但其他的企业我不知道他们有没有这些数据可以选,甚至有没有这些数据,这种情况下要训练的话,分段式或者模块化是更好的选择。

詹锟:分段式和 One Model 的区别我再补充一个比较形象的例子。

因为分段式重点是中间要传出一个信息给下游规划这个模型,它传出的信息一定是有损的,因为我要对中间信息做一个设计。

比如说这个车的 3D 位置,它的朝向、它的偏向转角在哪里,我要给它一个结构化信息的描述,但是这样的描述一定是有损的,因为这是加了人类先验信息的。比如它是一个渣土车,渣土车在掉渣和没掉渣对于驾驶来说会有明显的不同。

但是在分段式里面很有可能把这些信息丢掉了,只有完全 One Model,才能把这种隐晦的信息彻底理解,才让车驾驶的更像老司机。

分段式的是 Two Model,会导致中间的信号是有损的,这个有损信号和无损信号比,规划不能给出很好的决策。

Q14:理想给这么多用户评分,未来还会有很多的用户,即使不是理想的车主,都会想在理想的智驾领域得到老司机的认证。这些数据会不会在以后开源,作为一个公开的东西进行评测?

郎咸朋:我们把这些建议先记下来,我们目前没想过这些问题,因为数据都是用于我们内部的研发,如果以后有需要我们再做。

Q15:用户驾驶行为好,理想汽车打了很高的评分,如果是高分用户希望通过理想能够把这个信息传播给更多的消费者。

郎咸朋:我们会考虑。但是我们也考虑到了一些竞争因素,因为这个相当于高质量数据筛选的规则。

是我们的核心机密,如果一旦公开数据其他人可能也会学会。

Q16:现在行业中有共识,智能驾驶会分为能用,好用和爱用三个阶段,目前理想汽车的智驾做到了哪个阶段,我们如大概需要多长时间可以做到“爱用”阶段,哪一年可以达到这个目标?

郎咸朋:能用、好用和爱用这其实是由用户决定的。我们的千人团车主以及购买 AD Max 的车主比例显著提升,我认为这就已经进入到了“能用”阶段。我认为端到端内测推送之后就是一个“好用”的状态。

我自己上下班的智能驾驶比例达到 95% 以上,好用和爱用是培养大众对于智能驾驶理念认同的过程。

我们现在的千人团、万人团包括一些发烧友车主,他们依然处于早期大众的阶段。

当步入晚期大众,也就是 50% 的消费者在没有智能驾驶的时候会不习惯甚至不会开了,等进入到这个阶段就是真正的“爱用”阶段,或者说是必须要用。

理想汽车的研发迭代速度是非常快,我们最早今年年底,最晚明年上半年就会将这套“有监督的自动驾驶”量产交付,那个时候一定会让大家非常爱用这个产品。

Q17:现在理想的用户会智能驾驶的比例达到了多少?

郎咸朋:我们的智能驾驶分为城市和高速,在无图 NOA 全量推送之后,城市 NOA 的日活比例已经高于高速 NOA的日活比例。

这说明了我们产品的提升,因为我们每天自己开车也是在城市道路居多。

Q18:仿真训练和车主自己驾驶的比例分别是多少?

詹锟:我们的评分体系是非常严格,不是所有的车主数据都会拿过来训练,我们会有非常严格的分数,分数会卡在 3%-5% 的水平,随着后面数据采集的越多多,对质量的要求并不会降低,这是我们训练的体系。

22 亿的数据里面只有高质量的数据有价值的数据会拿出来用。

仿真我们会把无论是自动驾驶还是人开的不好的场景我们会拿进来用,这个比例随着用户使用程度越来越高,我们会越来越收紧。

相当于大的仿真考试题库一样,我们会持续验证是不是每个版本都可以了,是一个积累的过程,并不是说我单独选择一个值。

目前我们有一千万公里的仿真测试集,这是实车测试不可能在短期内实现的。

郎咸朋:我们每个模型的发版至少进行了一千万公里的测试,不仅节省做路试的时间,效果也有显著的提升。

而且错题集一定是有代表性的场景,比如有安全类问题、效率类问题等。今天我们在发布会上重点讲了系统1和系统2模型,后面我们会给大家介绍更多训练模型相关的信息。

现在我们做到了每两到三天迭代一次模型,这其中最关键的技术就是 AI 评价体系,也就是测试系统

测试系统需要很多人、很多车进行路试,消耗大量的人力和物力。但是我们觉得这依然不够,第一模型迭代速度过慢,第二场景收到限制,我们不可能将同样的场景开过两次,也不可能在夏天去模拟冬天的场景。

所以我们做了 AI 评价体系,上千万公里的错题集对应的是上百万个 case。

在错题集之外我们还有模拟题,将以前的错题在不同的场景下生成用来评测是否依然能够开的比较好,而且要达到我们 80 分的及格线。

此外我们在云端有非常强大的模型,收集到有问题的用户数据之后,模型能够帮助我们进行分类并且直接放入错题库,这样的效率是非常高的。

如果我们想要去训练模型,迭代模型,这样非常厉害的评价系统是必须的,就像考试要有人批卷子,有人告诉你哪里对哪里错。

Q19:路试的和仿真训练的比例是多少?

郎咸朋:现在路试的数据还没有用完,是 22 亿公里。

我们到了 100 亿公里量级时候,可能路试的数据就不那么多了,那个时候我们在下一阶段会用很多的仿真数据。而且大家也可以看到生成模拟器的生成场景不仔细看的话是无法辨别是真实的还是模拟的。

我们做出“有监督的自动驾驶”以后,这套模型迭代会比现在快很多,能够直接生成训练数据,这样我们在训练下一阶段的 L4 自动驾驶的时候,我们肯定会用到仿真数据。

Q20:您认为理想在中国智能驾驶的体系中排在什么样的位置?

郎咸朋:我们一定希望达到第一的位置。

但是我们深刻理解做人工智能的话,除了要建立各种平台体系外,最关键的是最终大家的竞争就是算力和数据。

特斯拉从不避讳讲自己的技术,就是因为他相信其他人无法超越他的算力和数据。

我们也是一样的,人才的互相流动是非常正常的,模型和算法对于大家而言都不是秘密,最终大家比拼的是没有算力和数据去训练算法,更直接一些就是资金,也就是能不能有足够的销量去获取更多的利润去养自动驾驶的算力和数据。

很多人说理想卷销量,实际上销量背后是我们对于自动驾驶深刻的思考。

Q21:理想是怎么看待车企做 Robotaxi 呢?

郎咸朋:我认为 Robotaxi 是一个产品或商业的形式,并不是技术。在技术发展到一定程度之后,它可能会催生很多的商业形态,Robotaxi,Robobus 等。

第二,消费者的需求是不是已经到了大家更愿意用 Robotaxi 的阶段,或者用自己车来做 Robotaxi。

当然还有一些相关的国家法规,国家法规激励新能源车,才能让我们走到现在,所以者和国家法规对这些产品形态的支持。

Q22:您觉得智驾未来的商业前景是怎么样的?

郎咸朋:我认为对于智能车,智能驾驶和自动驾驶是不可分割的一部分。如果收费,就会涉及到不缴费的智能车体验会不好。

我们的智能驾驶功能是免费的,当技术和能力到了一定程度之后会催生出一些新的商业场景和模式。

大家现在会有很多的畅想,如果实现自动驾驶会有各种各样的场景、产品,现在端到端+VLM 是一个分水岭,之前无论是有图还是无图,都是用非人工智能的方式来做智驾,我们做详细产品的需求、规划、拆解以及验证,而对于端到端,与其说我来测试它不如说我来体验它,体验一下它今天学到了什么样的能力。

举个例子,今天发布会上的视频中有,一辆车突然向左方避让了一下,但实际上前方是没有车的,而是后面来了一辆自行车,他会让自行车先过然后再回来,这样规则几乎是不可能有产品经理设计出来的,但是我们的模型可以实现。

所以大家要用不同的思路和眼光来审视接下来人工智能时代的自动驾驶,他一定会超越所有人的预期,我们提到一个月内迭代 12 代,会有些人觉得我们测试不充分,但是两个月,三个月,甚至一年之后就不会再这样想了,因为自动驾驶会大规模落地。

Q23:大家频繁的把世界模型引入到自动驾驶,但大家的理解都不一样,想了解理想对这个模型定义是什么?以及和系统 1、系统 2 是怎么去配合?世界模型的上限是像人类认知世界,难度很高,那在自动驾驶领域怎么去定义?

詹锟:大家对世界模型的说法、理解和概念都有很大的差异,就和端到端一样。

世界模型最早来自诺贝尔图灵奖获得者杨立昆,他提出这个模型意思是,在这个模型中能够想象未来会发生什么,即我对物理世界有个虚拟的抽象,根据现象可以知道未来会做什么事情。

对我们来说,是想把世界模型用在自动驾驶中,我们的世界模型主要是用来做一个完整的验证系统。

这就是对未来的抽象,我们把所有路上遇到的场景和未来可能会发生的交互,甚至各种危险情况,都模拟在了一个模型里。

这个模型会对我当前所有的行为做出下一刻的预判,这样的预判可以帮助我们验证这个模型是不是对的。

所以我们想把模型用在我们整个自动驾驶校验系统上,这也是我们做这个世界模型的初衷。

对于我们来说,我们想把世界模型在云端验证系统上用的更高效,系统1、系统2其实是在做验证、做校验。系统1和系统 2 是一个超级大的模型,它的校验是最重要的一个环节。

衡量标准就是,看你校验是不是准,是不是快。

郎咸朋:世界模型对系统 1 和系统 2 来说,最大作用是提供一个训练和测试的场地。

原来是这个场地放在真实的世界里面,我们把世界弄到模型。在世界模型里,我们的测试、错题、真题,都在这个世界模型中进行训练。



 

焉知新能源汽车 新能源科技、智车科技
评论
  • 自动化已成为现代制造业的基石,而驱动隔离器作为关键组件,在提升效率、精度和可靠性方面起到了不可或缺的作用。随着工业技术不断革新,驱动隔离器正助力自动化生产设备适应新兴趋势,并推动行业未来的发展。本文将探讨自动化的核心趋势及驱动隔离器在其中的重要角色。自动化领域的新兴趋势智能工厂的崛起智能工厂已成为自动化生产的新标杆。通过结合物联网(IoT)、人工智能(AI)和机器学习(ML),智能工厂实现了实时监控和动态决策。驱动隔离器在其中至关重要,它确保了传感器、执行器和控制单元之间的信号完整性,同时提供高
    腾恩科技-彭工 2025-01-03 16:28 169浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 121浏览
  •     为控制片内设备并且查询其工作状态,MCU内部总是有一组特殊功能寄存器(SFR,Special Function Register)。    使用Eclipse环境调试MCU程序时,可以利用 Peripheral Registers Viewer来查看SFR。这个小工具是怎样知道某个型号的MCU有怎样的寄存器定义呢?它使用一种描述性的文本文件——SVD文件。这个文件存储在下面红色字体的路径下。    例:南京沁恒  &n
    电子知识打边炉 2025-01-04 20:04 89浏览
  • 本文介绍Linux系统更换开机logo方法教程,通用RK3566、RK3568、RK3588、RK3576等开发板,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。制作图片开机logo图片制作注意事项(1)图片必须为bmp格式;(2)图片大小不能大于4MB;(3)BMP位深最大是32,建议设置为8;(4)图片名称为logo.bmp和logo_kernel.bmp;开机
    Industio_触觉智能 2025-01-06 10:43 84浏览
  • 随着市场需求不断的变化,各行各业对CPU的要求越来越高,特别是近几年流行的 AIOT,为了有更好的用户体验,CPU的算力就要求更高了。今天为大家推荐由米尔基于瑞芯微RK3576处理器推出的MYC-LR3576核心板及开发板。关于RK3576处理器国产CPU,是这些年的骄傲,华为手机全国产化,国人一片呼声,再也不用卡脖子了。RK3576处理器,就是一款由国产是厂商瑞芯微,今年第二季推出的全新通用型的高性能SOC芯片,这款CPU到底有多么的高性能,下面看看它的几个特性:8核心6 TOPS超强算力双千
    米尔电子嵌入式 2025-01-03 17:04 51浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 111浏览
  • 光耦合器,也称为光隔离器,是一种利用光在两个隔离电路之间传输电信号的组件。在医疗领域,确保患者安全和设备可靠性至关重要。在众多有助于医疗设备安全性和效率的组件中,光耦合器起着至关重要的作用。这些紧凑型设备经常被忽视,但对于隔离高压和防止敏感医疗设备中的电气危害却是必不可少的。本文深入探讨了光耦合器的功能、其在医疗应用中的重要性以及其实际使用示例。什么是光耦合器?它通常由以下部分组成:LED(发光二极管):将电信号转换为光。光电探测器(例如光电晶体管):检测光并将其转换回电信号。这种布置确保输入和
    腾恩科技-彭工 2025-01-03 16:27 174浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 90浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 100浏览
  • PLC组态方式主要有三种,每种都有其独特的特点和适用场景。下面来简单说说: 1. 硬件组态   定义:硬件组态指的是选择适合的PLC型号、I/O模块、通信模块等硬件组件,并按照实际需求进行连接和配置。    灵活性:这种方式允许用户根据项目需求自由搭配硬件组件,具有较高的灵活性。    成本:可能需要额外的硬件购买成本,适用于对系统性能和扩展性有较高要求的场合。 2. 软件组态   定义:软件组态主要是通过PLC
    丙丁先生 2025-01-06 09:23 71浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 91浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 37浏览
  • 物联网(IoT)的快速发展彻底改变了从智能家居到工业自动化等各个行业。由于物联网系统需要高效、可靠且紧凑的组件来处理众多传感器、执行器和通信设备,国产固态继电器(SSR)已成为满足中国这些需求的关键解决方案。本文探讨了国产SSR如何满足物联网应用的需求,重点介绍了它们的优势、技术能力以及在现实场景中的应用。了解物联网中的固态继电器固态继电器是一种电子开关设备,它使用半导体而不是机械触点来控制负载。与传统的机械继电器不同,固态继电器具有以下优势:快速切换:确保精确快速的响应,这对于实时物联网系统至
    克里雅半导体科技 2025-01-03 16:11 181浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦