极越01:用「纯视觉」挑战自动驾驶技术极限

原创 焉知新能源汽车 2023-11-02 10:23

2023 年 10 月 27 日,蛰伏了 3 年之久的极越 01 正式上市,相比于已经曝光到几乎明牌的整车,我更对极越 01 所搭载的这套辅助驾驶系统更感兴趣。 主要有两个点:

  • Apollo 高阶自动驾驶能力全面赋能
  • 单挑特斯拉,中国唯一的量产纯视觉方案

这两个点提取一个关键词最终都落在了「纯视觉」上,如果长期研究辅助驾驶技术的对纯视觉辅助驾驶方案都不陌生,这是目前仅有特斯拉一家量产应用上车的智驾方案。

在 2023 年新能源汽车行业如此内卷的态势下,极越 01 作为一个新选手要用什么姿态来夺得大众的目光?

显然智驾是一个比较好的选择,不管是华为、蔚来、理想、小鹏都明确了自家要在智能化这条道上比拼到底,而这中间最核心的部分当属智驾。

智驾比拼是一个确定性的答案,可是在国内没有一家说要完全切换到纯视觉,当然除了极越。

这是一个很有趣的现象,一方面是国内各家不敢切换还是不想切换;另一方面纯视觉究竟有什么魔力,让特斯拉和其他厂商分歧如此之大。

对于中国路况,其他主机厂给出的答案是要用激光雷达解决多复杂场景,实现安全容易,而极越的选择是用「纯视觉」挑战技术极限。

01

先了解整车

极越 01 目前推出两个版本:

极越 01 MAX

  • CLTC 续航 550km
  • 后驱电机最大功率 200 kW
  • 标配高通 8295、2 颗 Orin X 等支持城市辅助驾驶的智驾硬件
  • 售价 24.99 万元(1.9 万上市权益包后 23.09 万
  • 选装 100 度电池包,续航可达 720km

极越 01 MAX Performance

  • 标配 100 度电池包,CLTC 续航 660km
  • 四驱双电机 200kW + 200kW
  • 标配高通 8295、2 颗 Orin X 等支持城市辅助驾驶的智驾硬件
  • 标配可升降尾翼
  • 售价 33.99 万元(1.9 万元上市权益包后 32.09 万元

从实际体验来看,作为一个新品牌,新产品极越 01 的完成度是不错的,以智能化为整体差异化的方式虽然很难,但路径选择道也合理,整车设计并没有出现过于哗众取宠的点。

可是极越 01 最大的难点在于,一上市就遇到了汽车行业史无前例的价格战,特别是整车的优惠权益让很多潜在用户看不懂的情况下,24.99 万的起售价显得并不是很有冲击力。

但真的如此吗?

先说一个现象:「极越 01 整体优惠后的价格其实非常有诚意,但是极越对于权益的策略制定却非常混乱,这个混乱导致很多真实的潜在用户根本看不懂。」

一个一个说:

一,现金优惠

这个优惠是实打实的现金权益,是直接抵扣在车价里面的,这里面包含两个部分:

  • 1.9 万元上市权益金:9000 元盲订膨胀金 + 5000 元大定立减金 + 5000 元邀请奖励(4000 元京东卡加上 10000 积分)
  • 1.5 万元选装基金:如果选择收费选装项目可以立减 1.5 万元

也就是,1.9 万元和 1.5 万元叠加使用后,可综合优惠 3.4 万元

二,整车权益

在 11 月 30 日之前的定购的用户,均可享受三个非常划算的权益:

  • 终身整车及三电质保、道路救援:价值 8000 元
  • 直流家充桩或 2 年免费充电:价值 7500 元
  • ROBO Drive MAX 6 个月免费订阅:价值 5880 元

也就是说,购买极越 01 MAX 550km 版叠加完权益后只需要 23.59 万元,同时还能免费拿一套舒享套装。

但智驾权益里面有一个小细节,按照目前的权益策略是买断 1.99 万元、订阅 980 元/月,但如果你用选装基金买断智驾系统的话只需要 4900 元买断。

但你需要注意一个细节,如果你用 1.5 万元选装基金去抵扣智驾买断,那么你也会失去舒享套装。

总结则是,舒享套装和智驾系统你只能白嫖一个。

讲完整车,下面智驾才是极越 01 的核心。

02

智驾最终要回归到硬件的合理性上

硬件堆叠并不能保证最终的体验

在讲极越 01 的纯视觉方案之前,先说一个背景:

我们都知道市面上将智驾分为「纯视觉」和「激光雷达融合」方案两种,可是对于这两种方案区别性的解释,往往只归结在有无激光雷达硬件这一个维度上。

显然,这么理解对于辅助驾驶的解释即不明确也不立体。

我们先理解辅助驾驶系统包含的核心两个能力,很好理解:一个是硬件,包含计算平台、感知传感器、定位等;另一个则是算法,一个系统运行的基本神经网络系统。

纯视觉和激光雷达方案,除了字面意思理解到的感知传感器的区别,还有就是算法对于摄像头和激光雷达数据处理的方式。

简单说就是,即使使用了激光雷达,但激光雷达数据的融合方式也决定了系统整个能力的表现,有些厂商的方案是视觉数据和激光雷达数据是分别处理的,融合过程在各自输出结果的层面上完成,也就是自动驾驶领域常说的 「后融合」

这样做可以尽可能地保证两个系统之间的独立性,并为彼此提供安全冗余。

但后融合也导致神经网络,无法充分利用两个异构传感器之间数据的互补性,来学习最有价值的特征。

这也是异构感知传感器系统,为什么大部分都存在「时间上的感知不连续、空间上的感知碎片化」的问题。」

我回想起 2021 年,车企争相宣布摆脱供应商方案,选择自动驾驶「全栈自研」,彼时辅助驾驶赛道还是 Mobileye 的天下,大部分车企的辅助驾驶方案都来自于 MobilEye 的能力,乃至于国内第一个高速导航辅助驾驶量产方案蔚来 NOP 也是基于 MobilEye 视觉方案进行的二次开发。

从供应商切换到自研意味着一切从零开始,但是要很快追平原有方案的体验。

但是新产品的上市,只留给了车企们两年的时间,而 Mobileye 成立于 1999 年,2008 年就提供了 Eye Q1 芯片,目前出货量已经超过一亿片。

到了 2020 年 Eye Q4 已经是全球出货量最大的智驾芯片,Mobileye 的 L2 方案几乎拿下来国内外大部分顶级厂商,蔚来、理想、宝马等等。

这种竞争并不公平。

好在我们有一条清晰的捷径 「激光雷达」,它可以提供珍贵的距离真值,给出了相对直接的世界描述,给开发提供了极大便利。

也正因如此,一切就显得水到渠成,众多车企开始比拼激光雷达的数目。铺天盖地的宣传下「硬件性能不等于最终体验」这件事却被有意忽略了。

硬件只是基础,算法的能力决定了系统的上限。

到 2023 年,消费者开始发现,即使摄像头和激光雷达遍布全车,更高阶的辅助驾驶功能并没有如期而至。

车企的算法能力没有因为硬件的堆叠而得到质的飞跃,而特斯拉依然靠着几乎普通的感知硬件,用纯视觉始终保持在辅助驾驶第一阵营。

纯视觉通往高阶辅助驾驶的最优解?

人靠视觉就能开车,那么视觉就能完成辅助驾驶。这是马斯克的第一性原理,特斯拉死磕纯视觉的理由。

那么技术上是怎么实现的?

我们在路上看到一辆车能够知道,这可能是一个障碍物,同时我们也可以大概估计这辆车离我们有多远。

纯视觉算法也是如此。

本质上是通过对图像信息的特征进行广泛的训练,让神经网络获得视觉估计距离的能力。

经过大量数据训练的算法,能够得到前方障碍物的类型,同时得到一个位置估计,提供给下游规划控制算法。

当然,这里最重要的是:「精确的真值标注」和「大量的数据」

这不是一件简单的事情。

需要用数据压榨算法的能力,在弱硬件上得到足够好的性能,逐渐逼近算法的上限。

03

纯视觉算法的上限在哪?

纯视觉估计距离具备足够的数学理论基础

这里举一个例子,双目测距,假设我们有一个点 P,但是我们用不同的摄像头去拍摄这个点,那么这个点会分别在左边和右边的图片上分别形成一个点。

如果我们对这两个点的位置寻找得足够准确的话,根据图片上这两个点 p_l,p_r 的位置差别,我们可以按照相似三角形的原理,计算出 P 点在世界中的位置。

当然,这里有许多局限,在图片上的点进行搜索时,我们并不总能如愿找到精确两个点对,所以传统双目测距会有一定的局限性。

但是,这种数学原理也告诉我们,视觉算法的上限是足够高的。

本质原理即:多个摄像头之间的视觉特征互相验证,能够获得相对精确的距离信息。

实际上目前主流的 BEV 的网络,某种程度上也可以看作将视觉特征投影到 BEV 俯视图下,各视角的特征进行互相自动验证,最终得到一个相对精确的结果的。

但即使业界认为视觉的上限很高,但执行量产的动作却是一个地狱级别的难度,那么纯视觉难度在何处?

「纯视觉」企业工程师的噩梦

从传统双目视觉的角度看,我们无法如愿找到精确的两个点对,而从深度学习的角度看,我们无法保证神经网络内部的多个摄像头的视觉互相验证时正确的。

算法一直都在不断演进,例如 BEV 视角去进行自动驾驶感知,Transformer 结构也获得了很多关注。

但是在特斯拉验证可行之前,没有人这么做量产。

因为需要大量的数据进行神经网络的训练,来逐步提升距离估计的精确。

特斯拉用强大的工程能力完成数据闭环,示范这件事情可行。回想起 2021 年看特斯拉 AI Day 那个夜晚,行业惊呼特斯拉的工程能力之强,也惊呼纯视觉的上限竟然如此高。

那么需要怎么做?

为了保证辅助驾驶的可靠性,工程师需要一个对周围障碍物估计的网络,这样就车辆能够看到周围交通参与者,并且能够对它们进行及时的反应。

这就是 BEV 动态网络,本质上俯视图,将所有的摄像头信息都投影到这个俯视图上,由于每个摄像头之间有互相的信息补齐,这样对遮挡的物体也能够较好的识别,并且当引入时序信息。

也就是说,将这一个时间段前面的信息也融合进来也能够多一些信息进行推理,这样会给 PNC 带来更好的障碍物轨迹预测结果,进而带来更安全且顺滑的体验。

视频截图是基于极越 01 前段时间在上海市区,基于 BEV Transformer 的纯视觉架构跑出来的效果,展现出的足够高的精度和足够远的感知距离,可以证明极越的纯视觉方案已经有比较高的完成度。

但是这还不够。

除了障碍物,系统还需要车道线和道路拓扑结构的识别,同样的,将周围的摄像头转换到BEV 空间下,将周围的地图绘制出来,这就是常说的实时绘制地图。

这些部分完成之后,最难的部分来了。

这些本质上到目前所感知到的障碍物还是白名单物体,并且还是物体级的识别。当在城市中驾驶时,很多物体需要被更精确的描述,而且很多物体在并不在常见的白名单中。

这里出现了一个新的词:白名单。

其实你就简单理解成,这个时候系统所感知到的障碍物都是通过标准完成的,工程师将感知到的数据进行数据标准,形成一个可用数据包然后通过云端和实时感知进行数据比对,这样系统在驾驶开启时所感知到的物体都是经过标注后的。

但这有个问题,即使今天自动标注也已经逐步量产,但在真实物理世界里所出现的障碍物也不能被穷尽,同时数据标注的精度不够高,也不能描述具体物体的 3D 信息。

一句话总结则是:白名单里的物体都是工程师标注后系统已知的物体。

那系统不知道的物体呢?

这里就需要一个「占用网络」。

简单来说就是,纯视觉将世界感知分为无数个网格体,每个网格体里面代表被占据的概率。

在极越 01 上市之前,极越官方释放了一个基于 OCC 占用网络的视频 demo,可以看到视频里包含的感知内容:一个常规的周围环境实时显示;另一个通用占用网络。

这便是极越的辅助驾驶方案:动态 BEV + 静态 BEV + 占用网络。

这条路与特斯拉基本一致,不同的是极越的摄像头是 800 万像素,而特斯拉的摄像头是 200 万。对于相对较远的物体,极越这套硬件可以分配到更多的像素理论上限会更高。

BEV 动态识别网络 + BEV 静态网络做地图构建,这是相对常规的内容,头部的几家也基本上完成了 BEV 的量产。

为什么占用网络上车才能证明纯视觉最终能走通?

占用网络将世界感知为相对比较小的占用空间,每个空间里面有被占据的概率。相较于常规的画一个 3D 或者 2D 框来描述某一个具体的物体,占用网格的描述更加细腻。

(特斯拉占用网络演示截图)

例如一个两节的大公交车,常规的描述是一个 3D 长宽高, 但是当这辆公交正在进行转向的时候描述就显得不够精确了。

如果将这辆公交车分割成很多块,这样即使运动起来,描述也足够精准。



极越这里也展现了不是画一个 2D 框,显示这个是一辆车,而是显示这是一些被占据的空间。

这样更加精细地描述了感知世界之后,逻辑就可以变成:

如果道路上没有被占据就是可行驶空间,这就完全跳脱出原来识别是一个具体物体(人,车,锥桶等),然后再考虑能不能开的逻辑,而是有障碍物影响就需要做绕行或者新的路径规划。

这就规避了穷举道路上所有目标的问题。

为什么纯视觉占用网络不像 BEV 一样,提出之后被大量跟进,到目前国内也只有极越宣布今年 12 月上车?

因为二者的技术迭代路线已经出现了显著的分歧,大部分高度重视激光雷达的算法方案,都在研究如何将激光雷达的真值更好地使用。

激光雷达可以相对天然得到一个占用网格结果,尤其是在前视部分。

比如华为提出的 GOD,从某种意义就是 Lidar 点云作为基础,得出的占用网络结果,通过 3D 点获得 3D 占用网络,再通过视觉进行一定的融合表现也很好。

相较于 Lidar 直接获得真值,纯视觉这条路要靠多摄像头直接推导出距离信息,这中间的难度极大。

但是纯视觉这条路得出占用网络(Occupancy Grid 3D)并不是终局。

之后还会有:

  • 「Occupancy Flow 」:就是对占用网络运动状态相关的估计,这个格子的自身运动状态是什么。例如视频里第二张图中的红色圈出的部分,估计出非刚体的不同部分的运动状态,蓝色运动,红色静止;

  • Occupancy prediction:对占据网格预测相关的估计,这个格子下一步怎么走

也就是说,以前目标级别的任务,在更细粒度上的占用网格上都可以做一遍,占据网络对周围世界的理解,不是目标级别的感知可以比拟的。

写在最后

极越选了一条非常难并且不一样的路,在选择的过程中一定会伴随着质疑,但是极越还是勇敢地站出来。

当视觉能力足够强时,足够完成城区高阶辅助驾驶。

若无必要,勿增实体,这是互联网产品圈非常流行的一句话。

极越方案里的纯视觉选择就是这么出现的,不看硬件,只关注体验。

纯视觉的核心是:

构建以视觉为中心的辅助驾驶系统,不被其他的传感器分掉研发精力,并且构建出一个非常精简的数据闭环系统,在之后的方案迭代中能够保证数据的高度可复用性。

也期待极越使用纯视觉完成端到端的方案构建。

这条路很难,但是选择最难的这条路,或许是通向未来的最正确的一条路。


更多阅读



我们研究了特斯拉、毫末「自动驾驶算法」的秘密

Momenta CEO曹旭东:自动驾驶没有百亿美金公司,要么千亿美金、要么被收购或淘汰

2022,车载高规激光雷达量产元年

焉知新能源汽车 新能源科技、智车科技
评论 (0)
  • ‌一、高斯计的正确选择‌1、‌明确测量需求‌‌磁场类型‌:区分直流或交流磁场,选择对应仪器(如交流高斯计需支持交变磁场测量)。‌量程范围‌:根据被测磁场强度选择覆盖范围,例如地球磁场(0.3–0.5 G)或工业磁体(数百至数千高斯)。‌精度与分辨率‌:高精度场景(如科研)需选择误差低于1%的仪器,分辨率需匹配微小磁场变化检测需求。2、‌仪器类型选择‌‌手持式‌:便携性强,适合现场快速检测;‌台式‌:精度更高,适用于实验室或工业环境。‌探头类型‌:‌横向/轴向探头‌:根据磁场方向选择,轴向探头适合
    锦正茂科技 2025-05-06 11:36 360浏览
  • 随着智能驾驶时代到来,汽车正转变为移动计算平台。车载AI技术对存储器提出新挑战:既要高性能,又需低功耗和车规级可靠性。贞光科技代理的紫光国芯车规级LPDDR4存储器,以其卓越性能成为国产芯片产业链中的关键一环,为智能汽车提供坚实的"记忆力"支持。作为官方授权代理商,贞光科技通过专业技术团队和完善供应链,让这款国产存储器更好地服务国内汽车厂商。本文将探讨车载AI算力需求现状及贞光科技如何通过紫光国芯LPDDR4产品满足市场需求。 车载AI算力需求激增的背景与挑战智能驾驶推动算力需求爆发式
    贞光科技 2025-05-07 16:54 115浏览
  • 二位半 5线数码管的驱动方法这个2位半的7段数码管只用5个管脚驱动。如果用常规的7段+共阳/阴则需要用10个管脚。如果把每个段看成独立的灯。5个管脚来点亮,任选其中一个作为COM端时,另外4条线可以单独各控制一个灯。所以实际上最多能驱动5*4 = 20个段。但是这里会有一个小问题。如果想点亮B1,可以让第3条线(P3)置高,P4 置低,其它阳极连P3的灯对应阴极P2 P1都应置高,此时会发现C1也会点亮。实际操作时,可以把COM端线P3设置为PP输出,其它线为OD输出。就可以单独控制了。实际的驱
    southcreek 2025-05-07 15:06 163浏览
  • 某国产固态电解的2次和3次谐波失真相当好,值得一试。(仅供参考)现在国产固态电解的性能跟上来了,值得一试。当然不是随便搞低端的那种。电容器对音质的影响_电子基础-面包板社区  https://mbb.eet-china.com/forum/topic/150182_1_1.html (右键复制链接打开)电容器对音质的影响相当大。电容器在音频系统中的角色不可忽视,它们能够调整系统增益、提供合适的偏置、抑制电源噪声并隔离直流成分。然而,在便携式设备中,由于空间、成本的限
    bruce小肥羊 2025-05-04 18:14 208浏览
  • UNISOC Miracle Gaming奇迹手游引擎亮点:• 高帧稳帧:支持《王者荣耀》等主流手游90帧高画质模式,连续丢帧率最高降低85%;• 丝滑操控:游戏冷启动速度提升50%,《和平精英》开镜开枪操作延迟降低80%;• 极速网络:专属游戏网络引擎,使《王者荣耀》平均延迟降低80%;• 智感语音:与腾讯GVoice联合,弱网环境仍能保持清晰通话;• 超高画质:游戏画质增强、超级HDR画质、游戏超分技术,优化游戏视效。全球手游市场规模日益壮大,游戏玩家对极致体验的追求愈发苛刻。紫光展锐全新U
    紫光展锐 2025-05-07 17:07 153浏览
  • 文/郭楚妤编辑/cc孙聪颖‍相较于一众措辞谨慎、毫无掌舵者个人风格的上市公司财报,利亚德的财报显得尤为另类。利亚德光电集团成立于1995年,是一家以LED显示、液晶显示产品设计、生产、销售及服务为主业的高新技术企业。自2016年年报起,无论业绩优劣,董事长李军每年都会在财报末尾附上一首七言打油诗,抒发其对公司当年业绩的感悟。从“三年翻番顺大势”“智能显示我第一”“披荆斩棘幸从容”等词句中,不难窥见李军的雄心壮志。2012年,利亚德(300296.SZ)在深交所创业板上市。成立以来,该公司在细分领
    华尔街科技眼 2025-05-07 19:25 78浏览
  • 2024年初,OpenAI公布的Sora AI视频生成模型,震撼了国产大模型行业。随后国产厂商集体发力视频大模型,快手发布视频生成大模型可灵,字节跳动发布豆包视频生成模型,正式打响了国内AI视频生成领域第一枪。众多企业匆忙入局,只为在这片新兴市场中抢占先机,却往往忽视了技术成熟度与应用规范的打磨。以社交平台上泛滥的 AI 伪造视频为例,全红婵家人被恶意仿冒博流量卖货,明星们也纷纷中招,刘晓庆、张馨予等均曾反馈有人在视频号上通过AI生成视频假冒她。这些伪造视频不仅严重侵犯他人权
    用户1742991715177 2025-05-05 23:08 54浏览
  • 5小时自学修好BIOS卡住问题  更换硬盘故障现象:f2、f12均失效,只有ESC和开关机键可用。错误页面:经过AI的故障截图询问,确定是机体内灰尘太多,和硬盘损坏造成,开机卡在BIOS。经过亲手拆螺丝和壳体、排线,跟换了新的2.5寸硬盘,故障排除。理论依据:以下是针对“5小时自学修好BIOS卡住问题+更换硬盘”的综合性解决方案,结合硬件操作和BIOS设置调整,分步骤说明:一、判断BIOS卡住的原因1. 初步排查     拔掉多余硬件:断开所有外接设备(如
    丙丁先生 2025-05-04 09:14 111浏览
  • 多功能电锅长什么样子,主视图如下图所示。侧视图如下图所示。型号JZ-18A,额定功率600W,额定电压220V,产自潮州市潮安区彩塘镇精致电子配件厂,铭牌如下图所示。有两颗螺丝固定底盖,找到合适的工具,拆开底盖如下图所示。可见和大部分市场的加热锅一样的工作原理,手绘原理图,根据原理图进一步理解和分析。F1为保险,250V/10A,185℃,CPGXLD 250V10A TF185℃ RY 是一款温度保险丝,额定电压是250V,额定电流是10A,动作温度是185℃。CPGXLD是温度保险丝电器元件
    liweicheng 2025-05-05 18:36 231浏览
  • 你是不是也有在公共场合被偷看手机或笔电的经验呢?科技时代下,不少现代人的各式机密数据都在手机、平板或是笔电等可携式的3C产品上处理,若是经常性地需要在公共场合使用,不管是工作上的机密文件,或是重要的个人信息等,民众都有防窃防盗意识,为了避免他人窥探内容,都会选择使用「防窥保护贴片」,以防止数据外泄。现今市面上「防窥保护贴」、「防窥片」、「屏幕防窥膜」等产品就是这种目的下产物 (以下简称防窥片)!防窥片功能与常见问题解析首先,防窥片最主要的功能就是用来防止他人窥视屏幕上的隐私信息,它是利用百叶窗的
    百佳泰测试实验室 2025-04-30 13:28 636浏览
  • 浪潮之上:智能时代的觉醒    近日参加了一场课题的答辩,这是医疗人工智能揭榜挂帅的国家项目的地区考场,参与者众多,围绕着医疗健康的主题,八仙过海各显神通,百花齐放。   中国大地正在发生着激动人心的场景:深圳前海深港人工智能算力中心高速运转的液冷服务器,武汉马路上自动驾驶出租车穿行的智慧道路,机器人参与北京的马拉松竞赛。从中央到地方,人工智能相关政策和消息如雨后春笋般不断出台,数字中国的建设图景正在智能浪潮中徐徐展开,战略布局如同围棋
    广州铁金刚 2025-04-30 15:24 369浏览
  • 想不到短短几年时间,华为就从“技术封锁”的持久战中突围,成功将“被卡脖子”困境扭转为科技主权的主动争夺战。众所周知,前几年技术霸权国家突然对华为发难,导致芯片供应链被强行掐断,海外市场阵地接连失守,恶意舆论如汹涌潮水,让其瞬间陷入了前所未有的困境。而最近财报显示,华为已经渡过危险期,甚至开始反击。2024年财报数据显示,华为实现全球销售收入8621亿元人民币,净利润626亿元人民币;经营活动现金流为884.17亿元,同比增长26.7%。对比来看,2024年营收同比增长22.42%,2023年为7
    用户1742991715177 2025-05-02 18:40 206浏览
我要评论
0
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦