对话商汤绝影王晓刚:端到端上车,新的降维打击开始了

原创 智能车参考 2024-07-12 17:53
贾浩楠 发自 副驾寺
智能车参考 | 公众号 AI4Auto

端到端和传统技术范式的区别,打个比方,就是人脑通用性之于动物的区别”。

王晓刚博士这样解释自动驾驶赛道如今这个“言必称”的火爆概念。

他是商汤科技联合创始人、首席科学家,也是商汤智能汽车业务绝影的负责人。

去年6月全球计算机视觉顶会CVPR 2023,他带领的商汤技术团队的成果一举斩获最佳论文——简称UniAD

如果要标记中国自动驾驶里程碑的话,商汤提出UniAD,可能是一个新赛程的重要起点:

中国,以及业内首个感知决策一体化的自动驾驶通用大模型。

体现着彻底以全局任务为目标的“一段式”结构,并非对以往技术模式的妥协和改良。

以及UniAD还很有可能是中国第一个真正实现量产上车的端到端自动驾驶体系:商汤科技的楼下,测试车来来往往川流不息。

王晓刚透露,已经有很多车厂表现出了浓厚的兴趣和合作意愿。

“人与动物”,区别在哪?

从去年CVPR 2023最佳论文到现在整整一年时间,王晓刚分享商汤绝影做了这么几件事。

首先是UniAD的产品化、工程化不断推进,已经从几千行代码,完成了向符合汽车工业标准规范的量产产品的演变。

对于一般的自动驾驶公司来说,这一步可能就是目标和终点,也是最难、最紧迫的挑战。能全力交付端到端的产品,就能活到下一轮出牌,至于功能、体验,都可以后期OTA。

但商汤绝影不止步于交付一个单一的自动驾驶模型,更进一步,提出了两个新的技术和应用:

自动驾驶大模型DriveAGI,和车载AI Agent,几个月前北京车展期间就曾提及,刚刚结束的WAIC人工智能大会上,又被王晓刚博士着重强调。

同出一源,都是商汤原生多模态大模型,同时又都以UniAD端到端大模型为基础,和自动驾驶、智能座舱的功能、体验深度关联。

比如DriveAGI,在无高精地图,甚至是针对某种类型目标0样本学习的前提下,也能仅依靠视觉感知实际道路情况,准确地完成包括大角度转向、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到“像人一样开车”:

在路上遇到救护车,它还可以自动避让;遇到潮汐车道或公交车道时,它能根据限行规则自动规避:

除此之外,它也可以切换不同的驾驶风格,当需要赶时间时,你可以告诉DriveAGI开得更快⼀些;如果是想要放松⼀下,你还可以让它开得平稳⼀些。

到这里你会发现,因为多模态大脑的存在,智驾和智舱,两种完全隔绝的技术、体验,第一次产生联动和协作。智能汽车的体验和交互方式,和以往完全不同了。

现在正值欧洲杯,我们“一边开车一边去找一个看比赛的餐馆”。你直接告诉车载智能助手:订一个晚上能够看欧洲杯比赛的餐馆

商汤绝影基于多模态大模型的车载AI Agent,会把要求拆解成三个步骤。首先,到小红书看大家的点评,根据你的喜好和地理位置给出推荐,接着在美团进行这个预定,最后打开导航,告诉DriveAGI要去的目的地。

王晓刚特别提到,包括对任务的分拆,以及后续对不同APP的调用、信息内容的总结和操作等等步骤,都是多模态模型凭借理解认知能力“一气呵成”,不存在对某一APP或某一类任务的单独调整适配。

对于智舱来说,多模态大模型就相当于一个超级管家“贾维斯”,所见即所得。

对于智驾,多模态大模型相当于一个“点读机”,图像、视频数据哪里不会点哪里,不理解的目标场景,都能给出准确的解释。

听王晓刚博士讲到这里,可以明显感知到商汤绝影对于端到端的描述和布道,已经和业内主流思路有了底层的区别:从应对自动驾驶挑战,上升到了AGI在车端应用

是不是太早了?

王晓刚不这么认为。相反,他认为现在谈AGI上车,时机刚好,甚至还有点紧迫,因为AGI应该是端到端的必要条件和前提。

所谓端到端,就是驾驶全流程的AI化,传感器信息输入,直接输出决策数据信号。直接的好处,就是可以让AI模型直接学习成熟的驾驶行为,理论上具备和人一样的驾驶能力。

端到端对传统自动驾驶技术范式的降维打击,是用数据驱动替代规则驱动,解决系统能力上限被锁死,以及后期无休止高投入、维护难的问题。

这样的诱人前景让现在所有玩家都跟进押注。但无论是出于成本考虑还是技术实力所限,现实的情况是大部分产品实现端到端,都是靠“两段式”方法,即感知模型后面,串一个决策和规控模型。

但商汤绝影坚持搞“纯粹”的一段式端到端模型:输入一段视频,输出一段预测的轨迹

王晓刚给出的理由是两段式首先解决不了信息丢失的问题,但更致命的是后串决策规控模型,“实际上规模很小”

小模型永远无法激发出应对复杂场景的通用能力,永远无法产生自动驾驶的ChatGPT

所以端到端天然就应该是原生大模型,也只有这样,才能解决自动驾驶从感知向认知转变的问题。

所以商汤绝影的DriveAGI诞生,把商汤原生多模态大脑能力应用在车端,能够同时输入、处理多种数据类型的模型,可以是文本、语音、图像、视频等等。

实际上相当于给端到端自动驾驶系统,安装了一个和人类基本认知能力相同的大脑。

底层的思路是这样:既然大语言模型的学习、认知能力已经和人类差别不大了,那为什么不能用语言模型基础的范式框架去处理其他数据类型的任务呢?

实际上就是用大模型语义理解能力去看、去分辨图像、视频或者任何类型的数据。

现在都说只有端到端才能真无图,没有无图就没有端到端…这样的观点背后暗含着系统能够“认知”世界的前提,但这是狭义端到端模型本身完成不了的任务。

实际上几乎所有和智能车参考交流过的业内人士,都说现在根本不存在绝对的无图,各家方案都或多或少要用到相关信息。

或者说“端到端”这个大黑盒,决策过程、思维能力等等开发者根本就无从知晓,“菩提本无树”。

现阶段,商汤绝影根据历史研发积累和技术发展趋势给出的最佳解决方案,就是利用多模态大模型展现出的通用AI能力,解决自动驾驶的认知问题。

王晓刚说,商汤其实早在2021、2022年就已尝试过构建大感知模型,当时达到了320亿参数,是世界上最大的之一。然而,尽管模型庞大且数据喂养充足,但其任务仍是识别简单元素,比如车辆、人物和标注框,高难度数据占比很少。换句话说你让模型看什么、学什么,它就专注于此。

语言模型ChatGPT的创造性震惊世界,由此衍生出推动各行各业生产力革命的多种产品雏形,其训练方式并非简单的识别任务。以往语言模型中的翻译或识别意图等任务型训练,根本无法产生像ChatGPT这样的模型。

所谓人和动物的区隔,分水岭明显。

“如果要比特定的任务,跑步人跑不过猫科,嗅觉比不上犬科。但这些动物,只在专有的任务里很强,永远不会进化。”

“但人是有大脑的,人的特点就是通用性强,能不断的培养出新的技能,用新的工具发明创造,搞出很多远远超过动物能力范围之外的东西。”

商汤绝影为什么要在端到端竞争还未明了的时间节点大谈AGI?

王晓刚认为,目的就是要把智能汽车的大脑培育出来,给自动驾驶一个“点读机”,一张没有高精地图的“高精地图”,给智能座舱带来革命性的交互方式变革…

解决了制约自动驾驶、智能座舱功能体验的技术问题,多模态大模型上车带来的AGI潜力,会展现出更多的应用模式,新的东西就会应运而生。

“智能汽车”就不会只停留在现有的维度上了。

“车企低估了AI的难度”

商汤智能汽车业务绝影,本质是商汤追求布局AGI的过程中,被适时“点亮”的一个技能。

商汤进军智能车领域始于2016年,当时本田来中国寻找智能驾驶方向的合作伙伴,最后选定了那时以AI视觉知名的商汤。

2017年末,商汤与本田正式对外官宣了合作,并且商汤也正式明确将把AI之力带给主机厂。

当时商汤提出的产品已经体现出了和其他厂商的不同。

有两个关键点,首先是SenseAuto Empower绝影赋能引擎,包括算法工具箱、数据管理、回灌和仿真评测系统等工具链,供车企灵活定制方案。

但最关键的,是这里面内嵌了商汤最强的视觉感知能力,以及大模型体系支持的AGI能力。

第二个关键,就是从2018年开始,商汤开始布局算力基础设施SenseCore商汤大装置,截至2024年第一季度的总算力规模已达12000 petaFLOPS。

所以等到商汤的智能汽车业务2021年以“绝影”之名首次对外公布时,其实已经是一个有30+车企合作,智驾、智舱方案定点上车2000万辆的重要玩家了。

不过不同于其他任何玩家,商汤绝影不是以单一自动驾驶技术或智能座舱产品交付为目标,而是把汽车作为AGI能力的载体。

以AI技术立身,尤其擅长计算机视觉的商汤,先后在互联网、城市等领域实现场景验证,在落地的一线战场上,商汤很早意识到AGI是解决千行百业各种挑战难题的“最优解”。

这个过程中,逐渐建立了自己的“日日新大模型体系”,涵盖大语言模型、文生图/视频模型、多模态模型等等,能够解决众多开放式任务,率先摸到了通用人工智能的门槛。

而把积累的AGI和大模型能力迁移到具体场景中,王晓刚认为目前汽车是最合适的载体。

因为AGI的基本思路变了,以前是根据任务去开发训练专用模型,而大模型时代,关键是训练出一个很有潜力的能力很强的模型,然后基于这个模型去点亮它各种新功能,不断去挖掘。

就比如OpenAI最新的ChatGPT-4o,展现的就是端到端的多模态融合能力。

但是ChatGPT-4o展示时是用手机,智能手机以大屏幕为主的设计理念,本质是照顾以文本输入为主,和视觉听觉被动接收这样的交互方式。

和手机对话或比划动作、表情,其实对大部分用户来说都很不自在,否则苹果的Siri也不至于这么多年做不起来。

但智能汽车天然就是一个主动式的、以语音图像为主的交互平台。

所以在商汤绝影的理解中,未来可能AGI落地最广的会是人形机器人,但这个10年中,无论是终端搭载规模,还是天然的交互模式,智能汽车就是AGI进行落地的最好的场景和载体。

但是王晓刚又强调,打造通用AI大脑的2.0时代,难度和门槛完全不同。

一个是基础设施的投入,至少需要几千块卡去进行稳定的定向训练,而且训练中怎么进行数据配置,有很多Know How,基本是“资源和金子堆出来的”。

比如多模态模型,每增加一个模态,它的难度就会乘一个系数。

语言模型加进图像的模态,会发现语言的能力会大大退化,因为加入的图像需要跟语言配对,而这种配对的数据十分稀少,而且以往人工标注描述图像的文字干瘪不准确,所以放进来以后,模型语言能力就会降低很多,必须得想各种办法再补回来…

AGI越往后难度越高,尤其是自动驾驶领域,没什么开源,只能靠团队本身去克服各种障碍。

所以端到端的自动驾驶壁垒不断变高,将来能够支撑的团队会越来越少。

至于今天业内很多车企尝试自研,王晓刚认为也不奇怪:拿一些开源的模型试一试,也可以做个七七八八,但低估了AI的难度

如果把规控改成一个模型,就叫端到端了,那还真不难,的确自己就能做。但如果想做出体验、功能持续迭代能力都很优秀的产品,难度会高很多,因为乏持续高投入的条件。

所以截至目前,王晓刚认为车企和AI公司的合作模式,还不够理想,需要更多的磨合和探索

“车厂说今天出了个事故,你给我看一看,赶紧把这个bug解了”…这是我们现在跟车厂的合作模式。

但这样一来,我们没有办法看底层数据、拿到最有价值的那一部分,自然很难再去激发大模型新能力,去产生新的应用,产生降维打击。

AGI时代的合作,应该超越过去主机厂采购,供应商供货,然后提供售后服务的简单模式。

王晓刚说绝影愿意白盒交付,帮助车企伙伴理解和掌握大模型技术,只有基于此,才能更加积极配合团队共同开发,加速产品迭代,打造真正以用户为中心的AI大模型产品。

另一方面,作为战略合作伙伴,绝影和主机厂之间也要实现信息和数据的共享,主机厂分享不涉及隐私的数据给绝影,更好的训练出车载原生的大模型,这是共创共赢的。

这一点可能需要更快达成共识,因为有很强的AI技术能力、有10万块GPU、又拥有终端数据的特斯拉FSD,可能就要在一年、一年半之内落地中国。

王晓刚博士谈到这点,透露出罕见的担忧:

中国车企和科技公司的合作闭环里,不能只会解bug。

— 联系作者 —

智能驾驶2023年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车领军人物

· 十大智能车产品

· 十大智能车技术方案

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车技术方案是:

<< 左右滑动查看更多 >>



—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~


智能车参考 在这里读懂智能汽车变革
评论
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 57浏览
  • 光耦合器作为关键技术组件,在确保安全性、可靠性和效率方面发挥着不可或缺的作用。无论是混合动力和电动汽车(HEV),还是军事和航空航天系统,它们都以卓越的性能支持高要求的应用环境,成为现代复杂系统中的隐形功臣。在迈向更环保技术和先进系统的过程中,光耦合器的重要性愈加凸显。1.混合动力和电动汽车中的光耦合器电池管理:保护动力源在电动汽车中,电池管理系统(BMS)是最佳充电、放电和性能监控背后的大脑。光耦合器在这里充当守门人,将高压电池组与敏感的低压电路隔离开来。这不仅可以防止潜在的损坏,还可以提高乘
    腾恩科技-彭工 2024-11-29 16:12 117浏览
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 58浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 63浏览
  • 随着航空航天技术的迅猛发展,航空电子网络面临着诸多挑战,如多网络并行传输、高带宽需求以及保障数据传输的确定性等。为应对这些挑战,航空电子网络急需一个通用的网络架构,满足布线简单、供应商多、组网成本相对较低等要求。而以太网技术,特别是TSN(时间敏感网络)的出现,为航空电子网络带来了新的解决方案。本文将重点介绍TSN流识别技术在航空电子网络中的应用,以及如何通过适应航空电子网络的TSN流识别技术实现高效的航空电子网络传输。一、航空电子网络面临的挑战航空航天业专用协议包括AFDX、ARINC等,这些
    虹科工业智能互联 2024-11-29 14:18 100浏览
  • 在电子技术快速发展的今天,KLV15002光耦固态继电器以高性能和强可靠性完美解决行业需求。该光继电器旨在提供无与伦比的电气隔离和无缝切换,是现代系统的终极选择。无论是在电信、工业自动化还是测试环境中,KLV15002光耦合器固态继电器都完美融合了效率和耐用性,可满足当今苛刻的应用需求。为什么选择KLV15002光耦合器固态继电器?不妥协的电压隔离从本质上讲,KLV15002优先考虑安全性。输入到输出隔离达到3750Vrms(后缀为V的型号为5000Vrms),确保即使在高压情况下,敏感的低功耗
    克里雅半导体科技 2024-11-29 16:15 119浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 71浏览
  • 国产光耦合器因其在电子系统中的重要作用而受到认可,可提供可靠的电气隔离并保护敏感电路免受高压干扰。然而,随着行业向5G和高频数据传输等高速应用迈进,对其性能和寿命的担忧已成为焦点。本文深入探讨了国产光耦合器在高频环境中面临的挑战,并探索了克服这些限制的创新方法。高频性能:一个持续关注的问题信号传输中的挑战国产光耦合器传统上利用LED和光电晶体管进行信号隔离。虽然这些组件对于标准应用有效,但在高频下面临挑战。随着工作频率的增加,信号延迟和数据保真度降低很常见,限制了它们在电信和高速计算等领域的有效
    腾恩科技-彭工 2024-11-29 16:11 106浏览
  • 在现代科技浪潮中,精准定位技术已成为推动众多关键领域前进的核心力量。虹科PCAN-GPS FD 作为一款多功能可编程传感器模块,专为精确捕捉位置和方向而设计。该模块集成了先进的卫星接收器、磁场传感器、加速计和陀螺仪,能够通过 CAN/CAN FD 总线实时传输采样数据,并具备内部存储卡记录功能。本篇文章带你深入虹科PCAN-GPS FD的技术亮点、多场景应用实例,并展示其如何与PCAN-Explorer6软件结合,实现数据解析与可视化。虹科PCAN-GPS FD虹科PCAN-GPS FD的数据处
    虹科汽车智能互联 2024-11-29 14:35 149浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-29 14:30 118浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 60浏览
  • By Toradex胡珊逢简介嵌入式领域的部分应用对安全、可靠、实时性有切实的需求,在诸多实现该需求的方案中,QNX 是经行业验证的选择。在 QNX SDP 8.0 上 BlackBerry 推出了 QNX Everywhere 项目,个人用户可以出于非商业目的免费使用 QNX 操作系统。得益于 Toradex 和 QNX 的良好合作伙伴关系,用户能够在 Apalis iMX8QM 和 Verdin iMX8MP 模块上轻松测试和评估 QNX 8 系统。下面将基于 Apalis iMX8QM 介
    hai.qin_651820742 2024-11-29 15:29 150浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 88浏览
  • 国产光耦合器正以其创新性和多样性引领行业发展。凭借强大的研发能力,国内制造商推出了适应汽车、电信等领域独特需求的专业化光耦合器,为各行业的技术进步提供了重要支持。本文将重点探讨国产光耦合器的技术创新与产品多样性,以及它们在推动产业升级中的重要作用。国产光耦合器创新的作用满足现代需求的创新模式新设计正在满足不断变化的市场需求。例如,高速光耦合器满足了电信和数据处理系统中快速信号传输的需求。同时,栅极驱动光耦合器支持电动汽车(EV)和工业电机驱动器等大功率应用中的精确高效控制。先进材料和设计将碳化硅
    克里雅半导体科技 2024-11-29 16:18 157浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 157浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦