对话商汤绝影王晓刚:端到端上车,新的降维打击开始了

原创 智能车参考 2024-07-12 17:53
贾浩楠 发自 副驾寺
智能车参考 | 公众号 AI4Auto

端到端和传统技术范式的区别,打个比方,就是人脑通用性之于动物的区别”。

王晓刚博士这样解释自动驾驶赛道如今这个“言必称”的火爆概念。

他是商汤科技联合创始人、首席科学家,也是商汤智能汽车业务绝影的负责人。

去年6月全球计算机视觉顶会CVPR 2023,他带领的商汤技术团队的成果一举斩获最佳论文——简称UniAD

如果要标记中国自动驾驶里程碑的话,商汤提出UniAD,可能是一个新赛程的重要起点:

中国,以及业内首个感知决策一体化的自动驾驶通用大模型。

体现着彻底以全局任务为目标的“一段式”结构,并非对以往技术模式的妥协和改良。

以及UniAD还很有可能是中国第一个真正实现量产上车的端到端自动驾驶体系:商汤科技的楼下,测试车来来往往川流不息。

王晓刚透露,已经有很多车厂表现出了浓厚的兴趣和合作意愿。

“人与动物”,区别在哪?

从去年CVPR 2023最佳论文到现在整整一年时间,王晓刚分享商汤绝影做了这么几件事。

首先是UniAD的产品化、工程化不断推进,已经从几千行代码,完成了向符合汽车工业标准规范的量产产品的演变。

对于一般的自动驾驶公司来说,这一步可能就是目标和终点,也是最难、最紧迫的挑战。能全力交付端到端的产品,就能活到下一轮出牌,至于功能、体验,都可以后期OTA。

但商汤绝影不止步于交付一个单一的自动驾驶模型,更进一步,提出了两个新的技术和应用:

自动驾驶大模型DriveAGI,和车载AI Agent,几个月前北京车展期间就曾提及,刚刚结束的WAIC人工智能大会上,又被王晓刚博士着重强调。

同出一源,都是商汤原生多模态大模型,同时又都以UniAD端到端大模型为基础,和自动驾驶、智能座舱的功能、体验深度关联。

比如DriveAGI,在无高精地图,甚至是针对某种类型目标0样本学习的前提下,也能仅依靠视觉感知实际道路情况,准确地完成包括大角度转向、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到“像人一样开车”:

在路上遇到救护车,它还可以自动避让;遇到潮汐车道或公交车道时,它能根据限行规则自动规避:

除此之外,它也可以切换不同的驾驶风格,当需要赶时间时,你可以告诉DriveAGI开得更快⼀些;如果是想要放松⼀下,你还可以让它开得平稳⼀些。

到这里你会发现,因为多模态大脑的存在,智驾和智舱,两种完全隔绝的技术、体验,第一次产生联动和协作。智能汽车的体验和交互方式,和以往完全不同了。

现在正值欧洲杯,我们“一边开车一边去找一个看比赛的餐馆”。你直接告诉车载智能助手:订一个晚上能够看欧洲杯比赛的餐馆

商汤绝影基于多模态大模型的车载AI Agent,会把要求拆解成三个步骤。首先,到小红书看大家的点评,根据你的喜好和地理位置给出推荐,接着在美团进行这个预定,最后打开导航,告诉DriveAGI要去的目的地。

王晓刚特别提到,包括对任务的分拆,以及后续对不同APP的调用、信息内容的总结和操作等等步骤,都是多模态模型凭借理解认知能力“一气呵成”,不存在对某一APP或某一类任务的单独调整适配。

对于智舱来说,多模态大模型就相当于一个超级管家“贾维斯”,所见即所得。

对于智驾,多模态大模型相当于一个“点读机”,图像、视频数据哪里不会点哪里,不理解的目标场景,都能给出准确的解释。

听王晓刚博士讲到这里,可以明显感知到商汤绝影对于端到端的描述和布道,已经和业内主流思路有了底层的区别:从应对自动驾驶挑战,上升到了AGI在车端应用

是不是太早了?

王晓刚不这么认为。相反,他认为现在谈AGI上车,时机刚好,甚至还有点紧迫,因为AGI应该是端到端的必要条件和前提。

所谓端到端,就是驾驶全流程的AI化,传感器信息输入,直接输出决策数据信号。直接的好处,就是可以让AI模型直接学习成熟的驾驶行为,理论上具备和人一样的驾驶能力。

端到端对传统自动驾驶技术范式的降维打击,是用数据驱动替代规则驱动,解决系统能力上限被锁死,以及后期无休止高投入、维护难的问题。

这样的诱人前景让现在所有玩家都跟进押注。但无论是出于成本考虑还是技术实力所限,现实的情况是大部分产品实现端到端,都是靠“两段式”方法,即感知模型后面,串一个决策和规控模型。

但商汤绝影坚持搞“纯粹”的一段式端到端模型:输入一段视频,输出一段预测的轨迹

王晓刚给出的理由是两段式首先解决不了信息丢失的问题,但更致命的是后串决策规控模型,“实际上规模很小”

小模型永远无法激发出应对复杂场景的通用能力,永远无法产生自动驾驶的ChatGPT

所以端到端天然就应该是原生大模型,也只有这样,才能解决自动驾驶从感知向认知转变的问题。

所以商汤绝影的DriveAGI诞生,把商汤原生多模态大脑能力应用在车端,能够同时输入、处理多种数据类型的模型,可以是文本、语音、图像、视频等等。

实际上相当于给端到端自动驾驶系统,安装了一个和人类基本认知能力相同的大脑。

底层的思路是这样:既然大语言模型的学习、认知能力已经和人类差别不大了,那为什么不能用语言模型基础的范式框架去处理其他数据类型的任务呢?

实际上就是用大模型语义理解能力去看、去分辨图像、视频或者任何类型的数据。

现在都说只有端到端才能真无图,没有无图就没有端到端…这样的观点背后暗含着系统能够“认知”世界的前提,但这是狭义端到端模型本身完成不了的任务。

实际上几乎所有和智能车参考交流过的业内人士,都说现在根本不存在绝对的无图,各家方案都或多或少要用到相关信息。

或者说“端到端”这个大黑盒,决策过程、思维能力等等开发者根本就无从知晓,“菩提本无树”。

现阶段,商汤绝影根据历史研发积累和技术发展趋势给出的最佳解决方案,就是利用多模态大模型展现出的通用AI能力,解决自动驾驶的认知问题。

王晓刚说,商汤其实早在2021、2022年就已尝试过构建大感知模型,当时达到了320亿参数,是世界上最大的之一。然而,尽管模型庞大且数据喂养充足,但其任务仍是识别简单元素,比如车辆、人物和标注框,高难度数据占比很少。换句话说你让模型看什么、学什么,它就专注于此。

语言模型ChatGPT的创造性震惊世界,由此衍生出推动各行各业生产力革命的多种产品雏形,其训练方式并非简单的识别任务。以往语言模型中的翻译或识别意图等任务型训练,根本无法产生像ChatGPT这样的模型。

所谓人和动物的区隔,分水岭明显。

“如果要比特定的任务,跑步人跑不过猫科,嗅觉比不上犬科。但这些动物,只在专有的任务里很强,永远不会进化。”

“但人是有大脑的,人的特点就是通用性强,能不断的培养出新的技能,用新的工具发明创造,搞出很多远远超过动物能力范围之外的东西。”

商汤绝影为什么要在端到端竞争还未明了的时间节点大谈AGI?

王晓刚认为,目的就是要把智能汽车的大脑培育出来,给自动驾驶一个“点读机”,一张没有高精地图的“高精地图”,给智能座舱带来革命性的交互方式变革…

解决了制约自动驾驶、智能座舱功能体验的技术问题,多模态大模型上车带来的AGI潜力,会展现出更多的应用模式,新的东西就会应运而生。

“智能汽车”就不会只停留在现有的维度上了。

“车企低估了AI的难度”

商汤智能汽车业务绝影,本质是商汤追求布局AGI的过程中,被适时“点亮”的一个技能。

商汤进军智能车领域始于2016年,当时本田来中国寻找智能驾驶方向的合作伙伴,最后选定了那时以AI视觉知名的商汤。

2017年末,商汤与本田正式对外官宣了合作,并且商汤也正式明确将把AI之力带给主机厂。

当时商汤提出的产品已经体现出了和其他厂商的不同。

有两个关键点,首先是SenseAuto Empower绝影赋能引擎,包括算法工具箱、数据管理、回灌和仿真评测系统等工具链,供车企灵活定制方案。

但最关键的,是这里面内嵌了商汤最强的视觉感知能力,以及大模型体系支持的AGI能力。

第二个关键,就是从2018年开始,商汤开始布局算力基础设施SenseCore商汤大装置,截至2024年第一季度的总算力规模已达12000 petaFLOPS。

所以等到商汤的智能汽车业务2021年以“绝影”之名首次对外公布时,其实已经是一个有30+车企合作,智驾、智舱方案定点上车2000万辆的重要玩家了。

不过不同于其他任何玩家,商汤绝影不是以单一自动驾驶技术或智能座舱产品交付为目标,而是把汽车作为AGI能力的载体。

以AI技术立身,尤其擅长计算机视觉的商汤,先后在互联网、城市等领域实现场景验证,在落地的一线战场上,商汤很早意识到AGI是解决千行百业各种挑战难题的“最优解”。

这个过程中,逐渐建立了自己的“日日新大模型体系”,涵盖大语言模型、文生图/视频模型、多模态模型等等,能够解决众多开放式任务,率先摸到了通用人工智能的门槛。

而把积累的AGI和大模型能力迁移到具体场景中,王晓刚认为目前汽车是最合适的载体。

因为AGI的基本思路变了,以前是根据任务去开发训练专用模型,而大模型时代,关键是训练出一个很有潜力的能力很强的模型,然后基于这个模型去点亮它各种新功能,不断去挖掘。

就比如OpenAI最新的ChatGPT-4o,展现的就是端到端的多模态融合能力。

但是ChatGPT-4o展示时是用手机,智能手机以大屏幕为主的设计理念,本质是照顾以文本输入为主,和视觉听觉被动接收这样的交互方式。

和手机对话或比划动作、表情,其实对大部分用户来说都很不自在,否则苹果的Siri也不至于这么多年做不起来。

但智能汽车天然就是一个主动式的、以语音图像为主的交互平台。

所以在商汤绝影的理解中,未来可能AGI落地最广的会是人形机器人,但这个10年中,无论是终端搭载规模,还是天然的交互模式,智能汽车就是AGI进行落地的最好的场景和载体。

但是王晓刚又强调,打造通用AI大脑的2.0时代,难度和门槛完全不同。

一个是基础设施的投入,至少需要几千块卡去进行稳定的定向训练,而且训练中怎么进行数据配置,有很多Know How,基本是“资源和金子堆出来的”。

比如多模态模型,每增加一个模态,它的难度就会乘一个系数。

语言模型加进图像的模态,会发现语言的能力会大大退化,因为加入的图像需要跟语言配对,而这种配对的数据十分稀少,而且以往人工标注描述图像的文字干瘪不准确,所以放进来以后,模型语言能力就会降低很多,必须得想各种办法再补回来…

AGI越往后难度越高,尤其是自动驾驶领域,没什么开源,只能靠团队本身去克服各种障碍。

所以端到端的自动驾驶壁垒不断变高,将来能够支撑的团队会越来越少。

至于今天业内很多车企尝试自研,王晓刚认为也不奇怪:拿一些开源的模型试一试,也可以做个七七八八,但低估了AI的难度

如果把规控改成一个模型,就叫端到端了,那还真不难,的确自己就能做。但如果想做出体验、功能持续迭代能力都很优秀的产品,难度会高很多,因为乏持续高投入的条件。

所以截至目前,王晓刚认为车企和AI公司的合作模式,还不够理想,需要更多的磨合和探索

“车厂说今天出了个事故,你给我看一看,赶紧把这个bug解了”…这是我们现在跟车厂的合作模式。

但这样一来,我们没有办法看底层数据、拿到最有价值的那一部分,自然很难再去激发大模型新能力,去产生新的应用,产生降维打击。

AGI时代的合作,应该超越过去主机厂采购,供应商供货,然后提供售后服务的简单模式。

王晓刚说绝影愿意白盒交付,帮助车企伙伴理解和掌握大模型技术,只有基于此,才能更加积极配合团队共同开发,加速产品迭代,打造真正以用户为中心的AI大模型产品。

另一方面,作为战略合作伙伴,绝影和主机厂之间也要实现信息和数据的共享,主机厂分享不涉及隐私的数据给绝影,更好的训练出车载原生的大模型,这是共创共赢的。

这一点可能需要更快达成共识,因为有很强的AI技术能力、有10万块GPU、又拥有终端数据的特斯拉FSD,可能就要在一年、一年半之内落地中国。

王晓刚博士谈到这点,透露出罕见的担忧:

中国车企和科技公司的合作闭环里,不能只会解bug。

— 联系作者 —

智能驾驶2023年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车领军人物

· 十大智能车产品

· 十大智能车技术方案

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车技术方案是:

<< 左右滑动查看更多 >>



—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~


智能车参考 在这里读懂智能汽车变革
评论 (0)
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 211浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 103浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 195浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 76浏览
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 319浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 225浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 89浏览
  • 某国产固态电解的2次和3次谐波失真相当好,值得一试。(仅供参考)现在国产固态电解的性能跟上来了,值得一试。当然不是随便搞低端的那种。电容器对音质的影响_电子基础-面包板社区  https://mbb.eet-china.com/forum/topic/150182_1_1.html (右键复制链接打开)电容器对音质的影响相当大。电容器在音频系统中的角色不可忽视,它们能够调整系统增益、提供合适的偏置、抑制电源噪声并隔离直流成分。然而,在便携式设备中,由于空间、成本的限
    bruce小肥羊 2025-05-04 18:14 161浏览
  • 一、gao效冷却与控温机制‌1、‌冷媒流动设计‌采用低压液氮(或液氦)通过毛细管路导入蒸发器,蒸汽喷射至样品腔实现快速冷却,冷却效率高(室温至80K约20分钟,至4.2K约30分钟)。通过控温仪动态调节蒸发器加热功率,结合温度传感器(如PT100铂电阻或Cernox磁场不敏感传感器),实现±0.01K的高精度温度稳定性。2、‌宽温区覆盖与扩展性‌标准温区为80K-325K,通过降压选件可将下限延伸至65K(液氮模式)或4K(液氦模式)。可选配475K高温模块,满足材料在ji端温度下的性能测试需求
    锦正茂科技 2025-04-30 13:08 513浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 622浏览
  • 5小时自学修好BIOS卡住问题  更换硬盘故障现象:f2、f12均失效,只有ESC和开关机键可用。错误页面:经过AI的故障截图询问,确定是机体内灰尘太多,和硬盘损坏造成,开机卡在BIOS。经过亲手拆螺丝和壳体、排线,跟换了新的2.5寸硬盘,故障排除。理论依据:以下是针对“5小时自学修好BIOS卡住问题+更换硬盘”的综合性解决方案,结合硬件操作和BIOS设置调整,分步骤说明:一、判断BIOS卡住的原因1. 初步排查     拔掉多余硬件:断开所有外接设备(如
    丙丁先生 2025-05-04 09:14 93浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 346浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦