理想开卷新榜单:4篇论文入选AI顶会CVPR

智能车参考 2025-03-05 13:18
一凡 发自 副驾寺
智能车参考 | 公众号 AI4Auto

AI正在成为车企竞争的新战场。

CVPR 2025放榜,智能车参考最新获悉,其中理想汽车中稿了4篇。

CVPR(Computer Vision and Pattern Recognition)是计算机视觉领域的顶级学术会议,今年竞争较之以往更加激烈。

据了解,此次共有13008篇工作进入了评审流程,最终只录用了2878篇。

录用率仅为22.1%,相比2024年再度下降了1.5个百分点

在这样的条件下,一家车企竟然杀出重围,也难怪DeepSeek经过深度思考后,会做出这样的评价:

中稿的4篇工作,主要是自动驾驶模拟仿真方面的创新:

  • StreetCrafter:利用车载传感器收集数据,生成高保真街景视图

  • DriveDreamer4D:利用世界模型合成新视频片段,补充现实数据集

  • ReconDreamer:修复场景生成时大幅度动作导致的“伪影”问题

  • DrivingSphere:搭建多智能体场景,训练自动驾驶算法

StreetCrafter

首先是StreetCrafter,由理想、浙江大学和康奈尔大学合作,提出了一种利用车载传感器采集的数据,生成高保真街景视图的方法。

具体来说,StreetCrafter输入激光雷达点云数据和校准图像后,先将相邻帧的激光雷达点云聚合为全局点云,然后在给定相机姿态下,将其渲染为彩色图像。

这些渲染而成的彩色图像,会在模型生成新的视频帧时,作为限制条件,来确保生成视频帧的几何一致性,精确控制相机姿态。

同时,得益于激光雷达点云提供了精确的几何信息,当调整输入模型的相机姿态时,模型能够生成与输入新姿态一致的新视图。

即便相机姿态偏离了原有的训练轨迹,依然能够生成高质量的视图,解决了以往工作的一大痛点。

值得一提的是,StreetCrafter生成的场景还支持自定义,可以对图像中的对象进行平移、替换和移除。

这项工作在Waymo Open Dataset和PandaSet进行了实验对比,超越了过去的传统方法。

DriveDreamer4D

然后是DriveDreamer4D,整合了世界模型的先验知识,生成新的车辆行驶轨迹视频数据,用来补充现实世界的驾驶数据集

相比NeRF和3D高斯散射(3DGS)等方式,DriveDreamer4D能处理更多样化的复杂场景,比如变道、加速和减速,提升4D场景的生成质量和时空一致性。

核心工作有两项,新轨迹生成模块NTGM数据训练策略CDTS

其中,NTGM(Novel Trajectory Generation Module)提供两种输入方式生成新的行驶轨迹。

一种是文本描述(Text-to-trajectory),通过文本自动生成包括变道、加速或减速等操作下的轨迹。

一种是自定义设计(Custom-designed),根据特定需求,手动定制设计行驶路径。

输出行驶轨迹后,NTGM还会负责对齐,将轨迹输入仿真环境比如CARLA,模拟车辆运动并检测碰撞风险,以及使用预测模型,评估与其他车辆的交互是否安全。

最后,在世界模型的驱动下,检查合格的安全轨迹会转换为刹车、转向和踩油门等控制信号,结合环境状态信息,比如车辆位置、光照等,生成行车视频。

CDTS(Cousin Data Training Strategy)则与NTGM的工作相辅相成。

NTGM生成的轨迹和视频会被“打包”成合成数据集,然后CDTS引入正则化损失确保合成的数据集与真实数据的感知一致性。

其中存在的误差会反馈给NTGM,促进其轨迹生成策略迭代。

DriveDreamer4D的评估基准比较多样,包括数据集的对比测试和用户调研等形式。

在与PVG、S^3Gaussian、以及Deformable-GS对比后,DriveDreamer4D的时空一致性和真实性均有所提升。

此外,作者还让用户比较不同方法生成的驾驶视频,场景包括变道和加减速,视频左右对照,随机分配,让用户选出其中最优的结果,评价汇总如下:

DriveDreamer4D能够处理常规场景,但是应对更复杂的变化有点力不从心,比如跨多车道变道时,一跨跨6米,类似这种大幅度动作,重建起来会出问题。

因此,极佳、北大、中科院自动化所和理想等单位联合,推出了适用于“大动作”场景的方法。

ReconDreamer

重建动态驾驶场景时,较大幅度的动作会引起场景出现扭曲、模糊和细节丢失等问题,称作“伪影”,具体表现为远方小树扭曲和前景车辆部分遮挡等。

针对这一类问题,ReconDreamer依然是利用世界模型的知识,通过在线修复(DriveRestore)和渐进数据更新策略( Progressive Data Update Strategy以下简称PDUS)两大手段,解决复杂动作的渲染质量问题。

第一步,构建一个修复数据集

首先用开放数据集中的特定片段,做一个原始轨迹数据集,训练出一个动态场景重建模型。

由于该模型仅适配了原始轨迹,因此当其去渲染新生成的轨迹时,即便轨迹跨度比较小,假设为1.5米,仍然会出现带有“伪影”的“残次视频”。

然后拿着这些渲染出的“残次视频”,与其对应的正常视频片段逐帧比对,找出有问题的“退化帧”,一一对应形成这样的修复数据集{(正常帧1,退化帧1),(正常帧2,退化帧2),(正常帧i,退化帧i)…}。

第二步,用修复数据集训练DriveRestorer

将修复数据集和结构条件比如3D box序列或者高精地图,输入DriveRestorer训练,目标是让模型学会修复“伪影”,修复过程有点像扩散模型中的去噪。

在一过程中引入了脱敏策略,重点针对问题严重区域的“伪影”,比如远景和天空,更有效地修复这些区域的“伪影”提升渲染质量。

通过最小化正常帧和退化帧之间的损失,优化DriveStorer的参数。

当DriveStore完成微调后,模型已经初步学会怎么修复视频了。

第三步,将早前的“残次视频”和结构条件输入模型中,输出修复后的高质量视频。

再将修复后的视频放入原始数据集,实现数据集扩大。

接下来,在数据集中生成更大跨度的轨迹,比如第一轮是1.5米,接下来可以是3米,然后6米,重复上述步骤,渐进更新数据,让模型适应更复杂的机动场景,直至模型收敛。

这是因为引入了渐进数据更新策略,因此DriveRestorer在处理大幅度机动动作时,相较之前的DriveDreamer4D有更好的表现。

DrivingSphere

最后,是自动驾驶系统的验证问题。

DrivingSphere,一种生成式闭环仿真框架,构建了一个多智能体环境,智能体主要有两类:

  • 主智能体:被测试的自动驾驶系统

  • 环境智能体:各种交通参与者

框架主要通过两大模块和一个机制,为智能体构建了高保真4D世界,评估自动驾驶算法。

两大模块,包括构建动态环境的DEC模块(Dynamic Environment Composition module),以及合成视觉场景的VSS模块Visual Scene Synthesis module)

首先,DEC将BEV图像和文本描述输入到模型OccDreamer中。

OccDreamer是基于占用网络的扩散模型,利用扩散模型迭代去噪,逐步生成高保真的静态场景,并且支持城市场景的无缝扩展。

然后,DEC会根据语义相似性或者随机从“演员库”(Actor Bank)中选择车辆和行人,作为动态的交通参与者,也就是环境智能体,与主智能体交互。

每个环境智能体具有唯一的ID和时空位置,根据控制信号动态更新,反映其在不同时间帧下的位置变化。

最后,DEC会将静态的背景、动态的参与者以及他们的位置,整合为一个完整的4D世界,相比传统方式还原细节更丰富,场景更真实。

DEC的任务到此基本完成,VSS接力将生成的4D世界转换为多视角下的高保真视频,用于自动驾驶感知:

核心是视频扩散模型VideoDreamer

首先,VideoDreamer采用双路径条件编码策略,在全局分支下,使用预训练的4D编码器从4D世界中提取出几何信息和时空关系,获取全局特征,确保静态场景的整体结构和动态元素的位置和交互关系正确。

然后还有局部映射分支,该分支负责生成特定视角的语义图,在像素级别上实现对齐,捕捉遮挡关系和深度变化。

这种策略解决的是时空一致性的问题,确保视觉一致性,VSS还有一套ID识别演员编码机制。

前面提到,每个环境智能体都具有唯一的ID号码,该机制将参与者的ID、语义描述和位置信息进行傅里叶编码,将参与者的外观和ID和场景中的位置绑定起来。

这样,VSS能够在不同视角和时间帧下,确保参与者外观的一致性,从而实现时空上的视觉一致性。

为了进一步提升生成视频的流畅度和精度,模块最后还集成了ST-DiT(Spatial-Temporal Diffusion Transformer)

ST-DiT来自Open Sora,采用了时空自注意力机制、视图感知空间自注意力、交叉注意力机制、自回归生成策略和控制网络分支等技术,确保生成无伪影的帧序列。

在两大模块背后,还有一套闭环反馈机制

前面提到,DEC模块中的智能体的控制信号,就是这套格局视觉输入信号生成的,用来改变环境智能体的状态。

智能体的信号动态改变了环境,环境的变化又生成视觉输入反馈给智能体,这样智能体就能在一个动态的交互环境中测试验证。

DrivingSphere在nuScenes数据集上的对比结果如下:

一家车企在AI顶会同时中稿4篇工作,理想为什么能在2024年智驾飞升,恍然大明白了。

然而,自动驾驶只是理想AI转型的冰山一角。

理想AI赛道的隐秘布局

所有人都感知到了,理想正在All in AI:

组织架构上,李想本人重心转移,交棒整车产销供决策权,All in AI。

AI应用层,智驾模型迅速升级,VLA模型蓄势待发,1000万Clips版本推送。

李想自信迎战FSD:

欢迎和理想在全国任何地方一起对比。


细扒过年一年理想参与的AI论文,会发现更隐秘、更全面的布局。

既有Drive VLM这种引领智驾新范式的自动驾驶理论成果:

也有文本生成3D图像,AI虚拟人物一键换装等其他领域的工作:

还有AI的交叉学科应用:

这些成果主要集中在2024年下半年,有基础模型,有落地应用,还有其他行业的能力延伸。

这意味着,理想汽车正在从车企转向AI企业。

全民智驾的这一年,AI普及加速上车,车企正在从看得见的销量竞争,转向更隐秘的AI技术竞争。

论文&对应项目地址:

DriveDreamer4D

https://arxiv.org/abs/2410.135712

https://drivedreamer4d.github.io

ReconDreamer

https://arxiv.org/abs/2411.19548

https://recondreamer.github.io

DrivingSphere

https://arxiv.org/abs/2411.11252

https://yanty123.github.io/DrivingSphere/

StreetCrafter

https://arxiv.org/abs/2412.13188

https://zju3dv.github.io/street_crafter/

理想开源项目地址:

https://github.com/LiAutoADhttps://github.com/LiAutoAD

— 联系作者 —

智能车2024年度评选结果

在经过广泛征集、专业推荐,以及智能车参考垂直社群的万人票选后,智能车2023年度评选结果正式发布。涵盖三类奖项:

· 十大智能车年度人物

· 十大智能车车型

· 十大智能车技术方案/产品

在汽车工业迎来百年未有之大变局时,我们希望能以此提供智能维度的参考和注脚。

其中,十大智能车技术方案/产品是:

<< 左右滑动查看更多>>

—  —

智能车参考】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星,么么哒~

智能车参考 在这里读懂智能汽车变革
评论 (0)
  • 温度传感器的工作原理依据其类型可分为以下几种主要形式:一、热电阻温度传感器利用金属或半导体材料的电阻值随温度变化的特性实现测温:l ‌金属热电阻‌(如铂电阻 Pt100、Pt1000):高温下电阻值呈线性增长,稳定性高,适用于工业精密测温。l ‌热敏电阻‌(NTC/PTC):NTC 热敏电阻阻值随温度升高而下降,PTC 则相反;灵敏度高但线性范围较窄,常用于电子设备温控。二、热电偶传感器基于‌塞贝克效应‌(Seebeck effect):两种不同
    锦正茂科技 2025-05-09 13:31 312浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 669浏览
  • 文/Leon编辑/cc孙聪颖‍《中国家族企业传承研究报告》显示,超四成“企二代” 明确表达接班意愿,展现出对家族企业延续发展的主动担当。中国研究数据服务平台(CNRDS)提供的精准数据进一步佐证:截至 2022 年,已有至少 280 家上市家族企业完成权杖交接,其中八成新任掌门人为创始人之子,凸显家族企业代际传承中 “子承父业” 的主流模式。然而,对于“企二代” 而言,接棒掌舵绝非易事。在瞬息万变的商业环境中,他们既要在白热化的市场竞争中开拓创新、引领企业突破发展瓶颈,又需应对来自父辈管理层的经
    华尔街科技眼 2025-05-06 18:17 64浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 515浏览
  • 这款无线入耳式蓝牙耳机是长这个样子的,如下图。侧面特写,如下图。充电接口来个特写,用的是卡座卡在PCB板子上的,上下夹紧PCB的正负极,如下图。撬开耳机喇叭盖子,如下图。精致的喇叭(HY),如下图。喇叭是由电学产生声学的,具体结构如下图。电池包(AFS 451012  21 12),用黄色耐高温胶带进行包裹(安规需求),加强隔离绝缘的,如下图。451012是电池包的型号,聚合物锂电池+3.7V 35mAh,详细如下图。电路板是怎么拿出来的呢,剪断喇叭和电池包的连接线,底部抽出PCB板子
    liweicheng 2025-05-06 22:58 697浏览
  • 在过去的很长一段时间里,外卖市场呈现出美团和饿了么双寡头垄断的局面。美团凭借先发优势、强大的地推团队以及精细化的运营策略,在市场份额上长期占据领先地位。数据显示,截至2024年上半年,美团外卖以68.2%的市场份额领跑外卖行业,成为当之无愧的行业老大。其业务广泛覆盖,从一线城市的繁华商圈到二三线城市的大街小巷,几乎无处不在,为无数消费者提供便捷的外卖服务。饿了么作为阿里本地生活服务的重要一环,依托阿里强大的资金和技术支持,也在市场中站稳脚跟,以25.4%的份额位居第二。尽管市场份额上与美团有一定
    用户1742991715177 2025-05-06 19:43 134浏览
  • 后摄像头是长这个样子,如下图。5孔(D-,D+,5V,12V,GND),说的是连接线的个数,如下图。4LED,+12V驱动4颗LED灯珠,给摄像头补光用的,如下图。打开后盖,发现里面有透明白胶(防水)和白色硬胶(固定),用合适的工具,清理其中的胶状物。BOT层,AN3860,Panasonic Semiconductor (松下电器)制造的,Cylinder Motor Driver IC for Video Camera,如下图。TOP层,感光芯片和广角聚焦镜头组合,如下图。感光芯片,看着是玻
    liweicheng 2025-05-07 23:55 566浏览
  • Matter协议是一个由Amazon Alexa、Apple HomeKit、Google Home和Samsung SmartThings等全球科技巨头与CSA联盟共同制定的开放性标准,它就像一份“共生契约”,能让原本相互独立的家居生态在应用层上握手共存,同时它并非另起炉灶,而是以IP(互联网协议)为基础框架,将不同通信协议下的家居设备统一到同一套“语义规则”之下。作为应用层上的互通标准,Matter协议正在重新定义智能家居行业的运行逻辑,它不仅能向下屏蔽家居设备制造商的生态和系统,让设备、平
    华普微HOPERF 2025-05-08 11:40 451浏览
  • 飞凌嵌入式作为龙芯合作伙伴,隆重推出FET-2K0300i-S全国产自主可控工业级核心板!FET-2K0300i-S核心板基于龙芯2K0300i工业级处理器开发设计,集成1个64位LA264处理器,主频1GHz,提供高效的计算能力;支持硬件ECC;2K0300i还具备丰富的连接接口USB、SDIO、UART、SPI、CAN-FD、Ethernet、ADC等一应俱全,龙芯2K0300i支持四路CAN-FD接口,具备良好的可靠性、实时性和灵活性,可满足用户多路CAN需求。除性价比超高的国产处理器外,
    飞凌嵌入式 2025-05-07 11:54 116浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 241浏览
  • 在印度与巴基斯坦的军事对峙情境下,歼10C的出色表现如同一颗投入平静湖面的巨石,激起层层涟漪,深刻印证了“质量大于数量”这一铁律。军事领域,技术优势就是决定胜负的关键钥匙。歼10C凭借先进的航电系统、强大的武器挂载能力以及卓越的机动性能,在战场上大放异彩。它能够精准捕捉目标,迅速发动攻击,以一敌多却毫不逊色。与之形成鲜明对比的是,单纯依靠数量堆砌的军事力量,在面对先进技术装备时,往往显得力不从心。这一现象绝非局限于军事范畴,在当今社会的各个领域,“质量大于数量”都已成为不可逆转的趋势。在科技行业
    curton 2025-05-11 19:09 58浏览
  • 硅二极管温度传感器是一种基于硅半导体材料特性的测温装置,其核心原理是利用硅二极管的电学参数(如正向压降或电阻)随温度变化的特性实现温度检测。以下是其工作原理、技术特点及典型应用:一、工作原理1、‌PN结温度特性‌硅二极管由PN结构成,当温度变化时,其正向电压 VF与温度呈线性负相关关系。例如,温度每升高1℃,VF约下降2 mV。2、‌电压—温度关系‌通过jing确测量正向电压的微小变化,可推算出环境温度值。部分型号(如SI410)在宽温域内(如1.4 K至475 K)仍能保持高线性度。
    锦正茂科技 2025-05-09 13:52 331浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 405浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦