对话商汤绝影王晓刚:端到端上车,新的降维打击开始了

原创 智能车参考 2024-07-12 17:53
贾浩楠 发自 副驾寺
智能车参考 | 公众号 AI4Auto

端到端和传统技术范式的区别,打个比方,就是人脑通用性之于动物的区别”。

王晓刚博士这样解释自动驾驶赛道如今这个“言必称”的火爆概念。

他是商汤科技联合创始人、首席科学家,也是商汤智能汽车业务绝影的负责人。

去年6月全球计算机视觉顶会CVPR 2023,他带领的商汤技术团队的成果一举斩获最佳论文——简称UniAD

如果要标记中国自动驾驶里程碑的话,商汤提出UniAD,可能是一个新赛程的重要起点:

中国,以及业内首个感知决策一体化的自动驾驶通用大模型。

体现着彻底以全局任务为目标的“一段式”结构,并非对以往技术模式的妥协和改良。

以及UniAD还很有可能是中国第一个真正实现量产上车的端到端自动驾驶体系:商汤科技的楼下,测试车来来往往川流不息。

王晓刚透露,已经有很多车厂表现出了浓厚的兴趣和合作意愿。

“人与动物”,区别在哪?

从去年CVPR 2023最佳论文到现在整整一年时间,王晓刚分享商汤绝影做了这么几件事。

首先是UniAD的产品化、工程化不断推进,已经从几千行代码,完成了向符合汽车工业标准规范的量产产品的演变。

对于一般的自动驾驶公司来说,这一步可能就是目标和终点,也是最难、最紧迫的挑战。能全力交付端到端的产品,就能活到下一轮出牌,至于功能、体验,都可以后期OTA。

但商汤绝影不止步于交付一个单一的自动驾驶模型,更进一步,提出了两个新的技术和应用:

自动驾驶大模型DriveAGI,和车载AI Agent,几个月前北京车展期间就曾提及,刚刚结束的WAIC人工智能大会上,又被王晓刚博士着重强调。

同出一源,都是商汤原生多模态大模型,同时又都以UniAD端到端大模型为基础,和自动驾驶、智能座舱的功能、体验深度关联。

比如DriveAGI,在无高精地图,甚至是针对某种类型目标0样本学习的前提下,也能仅依靠视觉感知实际道路情况,准确地完成包括大角度转向、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到“像人一样开车”:

在路上遇到救护车,它还可以自动避让;遇到潮汐车道或公交车道时,它能根据限行规则自动规避:

除此之外,它也可以切换不同的驾驶风格,当需要赶时间时,你可以告诉DriveAGI开得更快⼀些;如果是想要放松⼀下,你还可以让它开得平稳⼀些。

到这里你会发现,因为多模态大脑的存在,智驾和智舱,两种完全隔绝的技术、体验,第一次产生联动和协作。智能汽车的体验和交互方式,和以往完全不同了。

现在正值欧洲杯,我们“一边开车一边去找一个看比赛的餐馆”。你直接告诉车载智能助手:订一个晚上能够看欧洲杯比赛的餐馆

商汤绝影基于多模态大模型的车载AI Agent,会把要求拆解成三个步骤。首先,到小红书看大家的点评,根据你的喜好和地理位置给出推荐,接着在美团进行这个预定,最后打开导航,告诉DriveAGI要去的目的地。

王晓刚特别提到,包括对任务的分拆,以及后续对不同APP的调用、信息内容的总结和操作等等步骤,都是多模态模型凭借理解认知能力“一气呵成”,不存在对某一APP或某一类任务的单独调整适配。

对于智舱来说,多模态大模型就相当于一个超级管家“贾维斯”,所见即所得。

对于智驾,多模态大模型相当于一个“点读机”,图像、视频数据哪里不会点哪里,不理解的目标场景,都能给出准确的解释。

听王晓刚博士讲到这里,可以明显感知到商汤绝影对于端到端的描述和布道,已经和业内主流思路有了底层的区别:从应对自动驾驶挑战,上升到了AGI在车端应用

是不是太早了?

王晓刚不这么认为。相反,他认为现在谈AGI上车,时机刚好,甚至还有点紧迫,因为AGI应该是端到端的必要条件和前提。

所谓端到端,就是驾驶全流程的AI化,传感器信息输入,直接输出决策数据信号。直接的好处,就是可以让AI模型直接学习成熟的驾驶行为,理论上具备和人一样的驾驶能力。

端到端对传统自动驾驶技术范式的降维打击,是用数据驱动替代规则驱动,解决系统能力上限被锁死,以及后期无休止高投入、维护难的问题。

这样的诱人前景让现在所有玩家都跟进押注。但无论是出于成本考虑还是技术实力所限,现实的情况是大部分产品实现端到端,都是靠“两段式”方法,即感知模型后面,串一个决策和规控模型。

但商汤绝影坚持搞“纯粹”的一段式端到端模型:输入一段视频,输出一段预测的轨迹

王晓刚给出的理由是两段式首先解决不了信息丢失的问题,但更致命的是后串决策规控模型,“实际上规模很小”

小模型永远无法激发出应对复杂场景的通用能力,永远无法产生自动驾驶的ChatGPT

所以端到端天然就应该是原生大模型,也只有这样,才能解决自动驾驶从感知向认知转变的问题。

所以商汤绝影的DriveAGI诞生,把商汤原生多模态大脑能力应用在车端,能够同时输入、处理多种数据类型的模型,可以是文本、语音、图像、视频等等。

实际上相当于给端到端自动驾驶系统,安装了一个和人类基本认知能力相同的大脑。

底层的思路是这样:既然大语言模型的学习、认知能力已经和人类差别不大了,那为什么不能用语言模型基础的范式框架去处理其他数据类型的任务呢?

实际上就是用大模型语义理解能力去看、去分辨图像、视频或者任何类型的数据。

现在都说只有端到端才能真无图,没有无图就没有端到端…这样的观点背后暗含着系统能够“认知”世界的前提,但这是狭义端到端模型本身完成不了的任务。

实际上几乎所有和智能车参考交流过的业内人士,都说现在根本不存在绝对的无图,各家方案都或多或少要用到相关信息。

或者说“端到端”这个大黑盒,决策过程、思维能力等等开发者根本就无从知晓,“菩提本无树”。

现阶段,商汤绝影根据历史研发积累和技术发展趋势给出的最佳解决方案,就是利用多模态大模型展现出的通用AI能力,解决自动驾驶的认知问题。

王晓刚说,商汤其实早在2021、2022年就已尝试过构建大感知模型,当时达到了320亿参数,是世界上最大的之一。然而,尽管模型庞大且数据喂养充足,但其任务仍是识别简单元素,比如车辆、人物和标注框,高难度数据占比很少。换句话说你让模型看什么、学什么,它就专注于此。

语言模型ChatGPT的创造性震惊世界,由此衍生出推动各行各业生产力革命的多种产品雏形,其训练方式并非简单的识别任务。以往语言模型中的翻译或识别意图等任务型训练,根本无法产生像ChatGPT这样的模型。

所谓人和动物的区隔,分水岭明显。

“如果要比特定的任务,跑步人跑不过猫科,嗅觉比不上犬科。但这些动物,只在专有的任务里很强,永远不会进化。”

“但人是有大脑的,人的特点就是通用性强,能不断的培养出新的技能,用新的工具发明创造,搞出很多远远超过动物能力范围之外的东西。”

商汤绝影为什么要在端到端竞争还未明了的时间节点大谈AGI?

王晓刚认为,目的就是要把智能汽车的大脑培育出来,给自动驾驶一个“点读机”,一张没有高精地图的“高精地图”,给智能座舱带来革命性的交互方式变革…

解决了制约自动驾驶、智能座舱功能体验的技术问题,多模态大模型上车带来的AGI潜力,会展现出更多的应用模式,新的东西就会应运而生。

“智能汽车”就不会只停留在现有的维度上了。

“车企低估了AI的难度”

商汤智能汽车业务绝影,本质是商汤追求布局AGI的过程中,被适时“点亮”的一个技能。

商汤进军智能车领域始于2016年,当时本田来中国寻找智能驾驶方向的合作伙伴,最后选定了那时以AI视觉知名的商汤。

2017年末,商汤与本田正式对外官宣了合作,并且商汤也正式明确将把AI之力带给主机厂。

当时商汤提出的产品已经体现出了和其他厂商的不同。

有两个关键点,首先是SenseAuto Empower绝影赋能引擎,包括算法工具箱、数据管理、回灌和仿真评测系统等工具链,供车企灵活定制方案。

但最关键的,是这里面内嵌了商汤最强的视觉感知能力,以及大模型体系支持的AGI能力。

第二个关键,就是从2018年开始,商汤开始布局算力基础设施SenseCore商汤大装置,截至2024年第一季度的总算力规模已达12000 petaFLOPS。

所以等到商汤的智能汽车业务2021年以“绝影”之名首次对外公布时,其实已经是一个有30+车企合作,智驾、智舱方案定点上车2000万辆的重要玩家了。

不过不同于其他任何玩家,商汤绝影不是以单一自动驾驶技术或智能座舱产品交付为目标,而是把汽车作为AGI能力的载体。

以AI技术立身,尤其擅长计算机视觉的商汤,先后在互联网、城市等领域实现场景验证,在落地的一线战场上,商汤很早意识到AGI是解决千行百业各种挑战难题的“最优解”。

这个过程中,逐渐建立了自己的“日日新大模型体系”,涵盖大语言模型、文生图/视频模型、多模态模型等等,能够解决众多开放式任务,率先摸到了通用人工智能的门槛。

而把积累的AGI和大模型能力迁移到具体场景中,王晓刚认为目前汽车是最合适的载体。

因为AGI的基本思路变了,以前是根据任务去开发训练专用模型,而大模型时代,关键是训练出一个很有潜力的能力很强的模型,然后基于这个模型去点亮它各种新功能,不断去挖掘。

就比如OpenAI最新的ChatGPT-4o,展现的就是端到端的多模态融合能力。

但是ChatGPT-4o展示时是用手机,智能手机以大屏幕为主的设计理念,本质是照顾以文本输入为主,和视觉听觉被动接收这样的交互方式。

和手机对话或比划动作、表情,其实对大部分用户来说都很不自在,否则苹果的Siri也不至于这么多年做不起来。

但智能汽车天然就是一个主动式的、以语音图像为主的交互平台。

所以在商汤绝影的理解中,未来可能AGI落地最广的会是人形机器人,但这个10年中,无论是终端搭载规模,还是天然的交互模式,智能汽车就是AGI进行落地的最好的场景和载体。

但是王晓刚又强调,打造通用AI大脑的2.0时代,难度和门槛完全不同。

一个是基础设施的投入,至少需要几千块卡去进行稳定的定向训练,而且训练中怎么进行数据配置,有很多Know How,基本是“资源和金子堆出来的”。

比如多模态模型,每增加一个模态,它的难度就会乘一个系数。

语言模型加进图像的模态,会发现语言的能力会大大退化,因为加入的图像需要跟语言配对,而这种配对的数据十分稀少,而且以往人工标注描述图像的文字干瘪不准确,所以放进来以后,模型语言能力就会降低很多,必须得想各种办法再补回来…

AGI越往后难度越高,尤其是自动驾驶领域,没什么开源,只能靠团队本身去克服各种障碍。

所以端到端的自动驾驶壁垒不断变高,将来能够支撑的团队会越来越少。

至于今天业内很多车企尝试自研,王晓刚认为也不奇怪:拿一些开源的模型试一试,也可以做个七七八八,但低估了AI的难度

如果把规控改成一个模型,就叫端到端了,那还真不难,的确自己就能做。但如果想做出体验、功能持续迭代能力都很优秀的产品,难度会高很多,因为乏持续高投入的条件。

所以截至目前,王晓刚认为车企和AI公司的合作模式,还不够理想,需要更多的磨合和探索

“车厂说今天出了个事故,你给我看一看,赶紧把这个bug解了”…这是我们现在跟车厂的合作模式。

但这样一来,我们没有办法看底层数据、拿到最有价值的那一部分,自然很难再去激发大模型新能力,去产生新的应用,产生降维打击。

AGI时代的合作,应该超越过去主机厂采购,供应商供货,然后提供售后服务的简单模式。

王晓刚说绝影愿意白盒交付,帮助车企伙伴理解和掌握大模型技术,只有基于此,才能更加积极配合团队共同开发,加速产品迭代,打造真正以用户为中心的AI大模型产品。

另一方面,作为战略合作伙伴,绝影和主机厂之间也要实现信息和数据的共享,主机厂分享不涉及隐私的数据给绝影,更好的训练出车载原生的大模型,这是共创共赢的。

这一点可能需要更快达成共识,因为有很强的AI技术能力、有10万块GPU、又拥有终端数据的特斯拉FSD,可能就要在一年、一年半之内落地中国。

王晓刚博士谈到这点,透露出罕见的担忧:

中国车企和科技公司的合作闭环里,不能只会解bug。

— 联系作者 —

智能驾驶2023年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车领军人物

· 十大智能车产品

· 十大智能车技术方案

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车技术方案是:

<< 左右滑动查看更多 >>



—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~


智能车参考 在这里读懂智能汽车变革
评论
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 108浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 70浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 58浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 61浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 158浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 141浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 124浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 204浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 117浏览
  • 根据Global Info Research项目团队最新调研,预计2030年全球封闭式电机产值达到1425百万美元,2024-2030年期间年复合增长率CAGR为3.4%。 封闭式电机是一种电动机,其外壳设计为密闭结构,通常用于要求较高的防护等级的应用场合。封闭式电机可以有效防止外部灰尘、水分和其他污染物进入内部,从而保护电机的内部组件,延长其使用寿命。 环洋市场咨询机构出版的调研分析报告【全球封闭式电机行业总体规模、主要厂商及IPO上市调研报告,2025-2031】研究全球封闭式电机总体规
    GIRtina 2025-01-06 11:10 124浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 223浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 164浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 92浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦