「智驾版DeepSeek」来了!解决端到端2大缺陷,商汤绝影出品

原创 智能车参考 2025-02-22 17:26
贾浩楠 发自 副驾寺
智能车参考 | 公众号 AI4Auto

2025年两场技术革命正在发生:

比亚迪将高阶智驾功能“下放”至10万元车型,宣告“全民智驾”时代加速到来。

DeepSeek以强化学习撕开数据瓶颈,证明AI可超越人类逻辑。

商汤绝影的工程师们,悄然将这两股浪潮拧成一条全新的绳——“端到端模型+世界仿真+强化学习”的三体协同。

在商汤大模型生产力论坛上,商汤科技联合创始人、绝影智能汽车事业群总裁、首席科学家王晓刚教授,揭开了这场变革的底层逻辑。

当行业困于“有多少数据才能喂饱自动驾驶”的焦虑时,商汤给出的答案却是——“让AI学会在虚拟世界中自我进化”。

(以下内容根据王晓刚教授演讲实录整理,仅做阅读流畅性编辑)

王晓刚:端到端面临的瓶颈挑战

王晓刚教授认为,端到端本质实际上模仿学习最佳的人类驾驶行为。数据输入端是各种高质量人类驾驶的数据,包括摄像头采集到的视频;输出就是人类驾驶行为的轨迹。

但是以这种模仿学习为主的方式,面临着挑战。

首先是海量数据的门槛。端到端自动驾驶要做好,需要这个千万级甚至更多的clips(视频数据片段)

特斯拉有 700 万量产车源源不断的产生数据回流。但今天国内任何一个自动驾驶公司或者是车厂,搭载智驾系统的车辆其实是远远小于这个规模的,而且不同的车型上的传感器也不一致,各种数据标准还不一样,比较难以形成合力。

第二点,即便有了这么大规模的量产车,高质量、高难度场景的驾驶数据,占比例也是非常少的。

而且在这其中,类驾驶行为的质量也是参差不齐的,这就导致端到端发展的过程当中,遇到了数据端瓶颈。

另外,端到端始终是模仿学习,希望接近人类驾驶行为,那么人类驾驶行为最好的水平也是它的天花板,很难去突破。

DeepSeek的启示:如何突破端到端局限性

OpenAI从2018年开始在大模型的算法上做了大量的探索和储备,直到 2022年底的时候ChatGPT出圈。

大家看到的是基于稳定算法条件下,依据Scaling Law不断增加网络的规模和算力的规模,持续网络的性能,去挖掘数据的红利。

但同时业内也发现,整个2204年Scaling Law逐渐遇到了瓶颈,似乎互联网上的数据价值被榨干了一样,再进一步扩大网络规模、增加算力,得到的收益却比较小。

就在时候,Deepseek横空出世,实际上是在算法层间取得了新的突破,甚至带来的新的研究的范式。

它证明了:纯强化学习产生的长思维链涌现,能够打破数据的瓶颈

举个例子,对于给定问题,Deepseek可以通过强化学习的框架,生成多条思维链,针对每一个题有很多不同解法,突破了人类知识库的限制,从而产生了更多的数据,这就是打破了数据的瓶颈,让Scaling Law得以延续。

继续增加大模型的网络规模,还可以看到在强化学习帮助下,网络的性能还能够得到持续的提升。所以强化学习它也能够突破人类固有的极限。

自然而然给自动驾驶带来了新的启示。

有了强化学习的加持,就能够用世界模型跟端到端自动驾驶模型进行协同交互

这是一种新技术路线。

如果把车辆当成一个智能体,背后是端到端模型支撑,那么在启动的时候它需要一些冷启动的数据,让模型能够达到一个基础水平,然后就进入强化学习阶段。

端到端模型输出的轨迹,又作为一个模拟仿真器的输入,这个仿真器背后是由世界模型作为支撑的,它能够去模拟仿真下一个时刻环境的变化,各种多摄像头里面观察到的视频的变化。

如此循环往复,世界模型就可以产生一个时间序列里轨迹的变化以及周围环境的变化。

端到端用来生成多种不同轨迹,世界模型去模拟各种不同轨迹影响下,周边环境的变化,同时仿真器还会通过reward方式,针对各种不同的轨迹、不同的环境的变化打分,找到一个最佳的驾驶行为。

所以在这种这个强化学习的范式下,整个自动驾驶系统就能够去通过小样本多监督、多阶段的学习,降低数据的门槛。

强化学习的长思维链可以充分探索多元场景里不同的驾驶风格。但是需要一个非常关键的要素——强大的世界模型。

商汤绝影怎么做?

2024年11月,商汤绝影发布了用于量产智驾的世界模型——开悟

它有几个核心能力,第一个就是真实度高,能够理解真实的世界,生成的视频天然遵循物理法则和交通规则。

另外是准确度好,能够同时保持11个摄像头在150 秒内的时空一致性,而且是高分辨率。

第三点是可控性强,包括天气、路况,不同的轨迹, 3D目标等等都能够精细的控制、编辑,然后根据不同元素的变化生成视频。

最后是泛化性广,开悟世界模型能够生成各种不同场景下的图像视频轨迹,结合强化学习,加速端到端模型的训练和演进。

目前,开悟世界模型已经有1024类的不同的场景,生成千万级别的这样的一个场景库。

可以清楚看到单纯端到端自动驾驶,和基于强化学习、世界模型与端到端协同交互模式的不同。

一个是简单的模仿学习,另外一个是多阶段:首先通过端到端冷启动训练,达到一个比较好的基模型。

第二阶段,端到端模型和世界模型去协同交互,通过强化学习不断的更新演进。

第三个阶段从云端到车端,通过知识的蒸馏得到更灵巧的车端模型去节省算力、硬件的成本。

背景补充:商汤开悟模型

开悟模型可以理解为自动驾驶专用版的Sora大模型,用来解决端到端研发体系中的仿真问题。

具体来说,生成的视频基于11个摄像头, 11V保持时空一致的时间间隔,最长可以达到 150 秒,分辨率能够达到1080P。

同时开悟生成的场景也是可控的,能够细微的做到元素级别。

晴天下周边环境的投影、夜间车辆远近近光的投射,都是符合物理法则的真实呈现。

这种感觉有点像游戏工业著名的虚幻引擎,但开悟世界模型的的不同之处在于,它通过海量数据的学习物理法则,而且同时还学会了交通规则,比如车辆刹车的时候视屏中车辆会适当的保持车距并合理启停。

而与行业内其他先发的世界模型相比,开悟的优势在于多视角和清晰度。

目前业内最好的水平现在是6V视角,而开悟通过行人车辆3D框和时空轨迹作为精准的输入,控制信号来生成 11V 的视频数据,保证了11个摄像头在仿真空间中的时空一致性。

另外,开悟生成的是1080P视频会更加清晰,更加方便模型进行训练。借助商汤日日新原生多模态的基模型,开悟可以达到元素级别的精准度,可以生成不同的场景和各种的 corner case,比如同一路段雨天变晴天、增加车辆种类数目等等。

图片

目前绝影智驾研发中20%的数据,都是由开悟世界模型生成。在一块A100 GPU上,世界模型平均每天可以生产大约2万个bundle,相当于100台路测车的数据采集能力,或500 台量产车回传有效数据的效率。

而这样的GPU,商汤一共有超过5.4万块,另外世界模型生成的训练数据,往后还会进一步占比达到80%。

这其实才是“绝影”真正一日千里的核心,也是车企和AI公司无法“独赢”的底层逻辑。

— 联系作者 —

智能车2024年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车年度人物

· 十大智能车车型

· 十大智能车技术方案/产品

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车车型是:

<< 左右滑动查看更多车型>>


—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~


智能车参考 在这里读懂智能汽车变革
评论 (0)
  •   基于 2025 年行业权威性与时效性,以下梳理国内知名软件定制开发企业,涵盖综合型、垂直领域及特色技术服务商:   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转型、新能源软件、光伏软件、汽车软件,ERP,系统二次开发,CRM等领域有很多成功案例。   五木恒润科技有限公司:是一家专业的部队信
    华盛恒辉l58ll334744 2025-05-12 16:13 236浏览
  •         信创产业含义的“信息技术应用创新”一词,最早公开信息见于2019年3月26日,在江苏南京召开的信息技术应用创新研讨会。本次大会主办单位为江苏省工业和信息化厅和中国电子工业标准化技术协会安全可靠工作委员会。        2019年5月16日,美国将华为列入实体清单,在未获得美国商务部许可的情况下,美国企业将无法向华为供应产品。       2019年6
    天涯书生 2025-05-11 10:41 194浏览
  • 在全球供应链紧张和国产替代需求推动下,国产存储芯片产业快速发展,形成设计到封测一体化的完整生态。北京君正、兆易创新、紫光国芯、东芯股份、普冉股份和佰维存储等六大上市公司在NOR/NAND Flash、DRAM、嵌入式存储等领域布局各具特色,推动国产替代提速。贞光科技代理的品牌紫光国芯,专注DRAM技术,覆盖嵌入式存储与模组解决方案,为多领域客户提供高可靠性产品。随着AI、5G等新兴应用兴起,国产存储厂商有望迎来新一轮增长。存储芯片分类与应用易失性与非易失性存储芯片易失性存储芯片(Volatile
    贞光科技 2025-05-12 16:05 161浏览
  • 【拆解】+自动喷香机拆解 家里之前买了从PDD买了一个小型自动喷香机放在厕所里。来增加家里的温馨感,这东西看着确实小巧,精致。可是这东西吧,耗电就是快,没过几天就没电了。今个就让我拆开看看什么在捣鬼。如下是产品的实物和宣传图: 由于螺丝孔太小和限位很深。对于我的螺丝刀套装没用。只能使用那种螺丝刀细头,同时又长的小螺丝刀进行拆解 拧下三颗螺丝钉,用一字螺丝刀撬开外壳,内部结构就呈现在眼前。 内部构造相当简单,部件没多少。就是锂电池供电,通过MCU实现按键控制,段码屏控制,LE
    zhusx123 2025-05-10 19:55 164浏览
  • 文/Leon编辑/cc孙聪颖‍2025年1月至今,AI领域最出圈的除了DeepSeek,就是号称首个“通用AI Agent”(智能体)的Manus了,其邀请码一度被炒到8万元。很快,通用Agent就成为互联网大厂、AI独角兽们的新方向,迅速地“卷”了起来。国外市场,Open AI、Claude、微软等迅速推出Agent产品或构建平台,国内企业也在4月迅速跟进。4月,字节跳动、阿里巴巴、百度纷纷入局通用Agent市场,主打复杂的多任务、工作流功能,并对个人用户免费。腾讯则迅速更新腾讯元器的API接
    华尔街科技眼 2025-05-12 22:29 107浏览
  • 感谢面包板论坛组织的本次测评活动,本次测评的对象是STM32WL Nucleo-64板 (NUCLEO-WL55JC) ,该测试板专为LoRa™应用原型构建,基于STM32WL系列sub-GHz无线微控制器。其性能、功耗及特性组合经过精心挑选,支持通过Arduino® Uno V3连接,并利用ST morpho接头扩展STM32WL Nucleo功能,便于访问多种专用屏蔽。STM32WL Nucleo-64板集成STLINK-V3E调试器与编程器,无需额外探测器。该板配备全面的STM
    无言的朝圣 2025-05-13 09:47 103浏览
  • 【拆解】+CamFi卡菲单反无线传输器拆解 对于单反爱好者,想要通过远程控制自拍怎么办呢。一个远程连接,远程控制相机拍摄的工具再合适不过了。今天给大伙介绍的是CamFi卡菲单反无线传输器。 CamFi 是专为数码单反相机打造的无线传输控制器,自带的 WiFi 功能(无需手机流量),不但可通过手机、平板、电脑等设备远程连接操作单反相机进行拍摄,而且还可实时传输相机拍摄的照片到 iPad 和电视等大屏设备进行查看和分享。 CamFi 支持大部分佳能和尼康单反相机,内置可充电锂离子电池,无需相机供电。
    zhusx123 2025-05-11 14:14 346浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 233浏览
  • 在 AI 浪潮席卷下,厨电行业正经历着深刻变革。AWE 2025期间,万得厨对外首次发布了wan AiOS 1.0组织体超智能系统——通过AI技术能够帮助全球家庭实现从健康检测、膳食推荐,到食材即时配送,再到一步烹饪、营养总结的个性化健康膳食管理。这一创新之举并非偶然的个案,而是整个厨电行业大步迈向智能化、数字化转型浪潮的一个关键注脚,折射出全行业对 AI 赋能的热切渴求。前有标兵后有追兵,万得厨面临着高昂的研发成本与技术迭代压力,稍有懈怠便可能被后来者赶
    用户1742991715177 2025-05-11 22:44 175浏览
  • ‌磁光克尔效应(Magneto-Optic Kerr Effect, MOKE)‌ 是指当线偏振光入射到磁性材料表面并反射后,其偏振状态(偏振面旋转角度和椭偏率)因材料的磁化强度或方向发生改变的现象。具体表现为:1、‌偏振面旋转‌:反射光的偏振方向相对于入射光发生偏转(克尔旋转角 θK)。2、‌椭偏率变化‌:反射光由线偏振变为椭圆偏振(克尔椭偏率 εK)。这一效应直接关联材料的磁化状态,是表征磁性材料(如铁磁体、反铁磁体)磁学性质的重要非接触式光学探测手段,广泛用于
    锦正茂科技 2025-05-12 11:02 282浏览
  •   电磁数据展示系统平台解析   北京华盛恒辉电磁数据展示系统平台是实现电磁数据高效展示、分析与管理的综合性软件体系,以下从核心功能、技术特性、应用场景及发展趋势展开解读:   应用案例   目前,已有多个电磁数据展示系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据展示系统。这些成功案例为电磁数据展示系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与预处理   智能分析处理   集成频谱分析、时频变换等信号处理算法,自动提取时域频域特征;
    华盛恒辉l58ll334744 2025-05-13 10:20 277浏览
  •   定制软件开发公司推荐清单   在企业数字化转型加速的2025年,定制软件开发需求愈发多元复杂。不同行业、技术偏好与服务模式的企业,对开发公司的要求大相径庭。以下从技术赛道、服务模式及行业场景出发,为您提供适配的定制软件开发公司推荐及选择建议。   华盛恒辉科技有限公司:是一家专注于高端软件定制开发服务和高端建设的服务机构,致力于为企业提供全面、系统的开发制作方案。在部队政企开发、建设到运营推广领域拥有丰富经验,在教育,工业,医疗,APP,管理,商城,人工智能,部队软件、工业软件、数字化转
    华盛恒辉l58ll334744 2025-05-12 15:55 308浏览
  • 体积大小:14*11*2.6CM,电气参数:输入100V-240V/10A,输出16V24A。PCB 正面如下图。PCB 背面如下图。根据实际功能可以将PCB分成几部分:EMI滤波,PFC电路,LLC电路。EMI滤波区域,两级共模电感,LN各用了保险丝加压敏电阻,继电器(HF32FV-G)用来切除NTC的,为了提高效率点,如下图。PFC电路区域,如下图。LLC电路区域,如下图。详细分析一下该电源用的主要IC还有功率器件。AC侧采用了两颗整流桥进行并联,器件增加电流应力,如下图。共模电感都有放电针
    liweicheng 2025-05-10 20:03 263浏览
  •   电磁数据管理系统深度解析   北京华盛恒辉电磁数据管理系统作为专业的数据处理平台,旨在提升电磁数据的处理效率、安全性与可靠性。以下从功能架构、核心特性、应用场景及技术实现展开分析:   应用案例   目前,已有多个电磁数据管理系统在实际应用中取得了显著成效。例如,北京华盛恒辉和北京五木恒润电磁数据管理系统。这些成功案例为电磁数据管理系统的推广和应用提供了有力支持。   一、核心功能模块   数据采集与接入:实时接收天线、频谱仪等设备数据,兼容多协议接口,确保数据采集的全面性与实时性
    华盛恒辉l58ll334744 2025-05-13 10:59 212浏览
  • 递交招股书近一年后,曹操出行 IPO 进程终于迎来关键节点。从 2024 年 4 月首次递表,到 2025 年 4 月顺利通过中国证监会境外发行上市备案,并迅速更新招股书。而通过上市备案也标志着其赴港IPO进程进入实质性推进阶段,曹操出行最快有望于2025年内完成港股上市,成为李书福商业版图中又一关键落子。行路至此,曹操出行面临的挑战依然不容忽视。当下的网约车赛道,早已不是当年群雄逐鹿的草莽时代,市场渐趋饱和,竞争近乎白热化。曹操出行此时冲刺上市,既是背水一战,也是谋篇布局。其招股书中披露的资金
    用户1742991715177 2025-05-10 21:18 100浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦