干掉ISP(图像信号处理器),特斯拉“纯视觉路线”的关键一跃

汽车电子与软件 2022-02-16 19:08

对特斯拉死磕的“纯视觉路线”,笔者一直是持质疑态度的。质疑的点在于:算法的进步,能弥补摄像头物理性能的局限性吗?比如,视觉算法足够牛逼时,摄像头就有测距能力了?晚上就能看见了?

 

前一个疑问,在2021年7月份被打消——当时,特斯拉被曝已开发出“纯视觉测距”技术。而后一个疑问,则持续存在。

 

笔者甚至一度认为,如果把摄像头类比为人眼、把视觉算法类比为人的大脑中“跟眼睛配合的那一部分功能”,那么,“视觉算法足够牛逼时,就可以不需要激光雷达”这种观点就相当于说“只要我的脑子足够聪明,眼睛高度近视也没关系”。

 

但前段时间,马斯克提到的HW 4.0将“干掉ISP”的计划,却颠覆了笔者的认知。在接受Lex采访时,马斯克说,接下来特斯拉全车摄像头的原始数据不会再经过 ISP 的处理,而直接输入 FSD Beta 的 NN 推理这将让摄像头变得超紧急强大。

 

带着这一话题,笔者跟地平线BPU算法负责人罗恒、于万智驾CTO刘煜、均联智行首席架构师汪浩伟、挚途科技首席科学家黄浴、车右智能联合创始人等诸多业内专家都做了一系列交流,然后明白,自己先前的那些质疑,纯属“自作聪明”。

 

视觉算法的进步,确实在一步步拓展着摄像头物理物理性能的边界。

 

一.何为ISP?


ISP 的全称 Image Signal Processor,即图像信号处理器,是车载摄像头的重要构成组件,主要作用是对前端图像传感器CMOS输出的信号进行运算处理,把原始数据“翻译”成人眼可以看懂的图像。

 

通俗地说,只有依赖于ISP,驾驶员才能借助摄像头“看”到现场细节。

 

基于第一性原理,自动驾驶公司也用ISP,主要是根据周围环境的实际情况对摄像头数据进行白平衡、动态范围调整、滤波等操作,以获得最佳质量的图像。例如,调节曝光以适应明暗变化,调节焦距以专注在不同距离的物体等等,尽量地让相机性能接近人眼。

(图为特斯拉的FSD芯片)

 

不过,让相机“尽量接近人眼”显然还无法满足自动驾驶的需求——算法需要摄像头在强光及弱光等人眼也“失灵”的场合下也能正常工作。为了实现这一目标,有的自动驾驶公司不得不专门定制能增强摄像头在强光、弱光及干扰情况下性能的ISP

 

20204月8日,阿里达摩院宣布依托其独有的3D降噪和图像增强算法自主研发出用于车载摄像头的ISP,保障自动驾驶车辆在夜间拥有更好的“视力”,“看”得更清晰。

 

据达摩院自动驾驶实验室的路测结果显示,使用该ISP,车载摄像头在夜间这个最富有挑战的场景下,图像物体检测识别能力相比业内主流处理器有10%以上的提升,原本模糊不清的标注物也得以清晰识别。

 

二.干掉ISP的动机及“可行性”

 

然而,ISP的设计初衷是为了在多变的外部环境下获得一张“好看”的图片,但这究竟是不是自动驾驶最需要的图片形式,业界尚无定论。按马斯克Elon 的说法,神经网络不需要漂亮的图片,它需要的是传感器直接获取的原始数据、是原始光子计数(Raw photon counts)。

 

在马斯克看来,无论ISP采用何种处理方法,总有一部分原始光子在通过镜头到达CMOS、转换成可见光子的过程中会被丢失。

 

关于原始光子丢失与未丢失的差别,挚途首席科学家黄浴说:“光子转化成电子信号时候,确实有噪声被抑制了,更不用说ISP对原来的电信号做了很多处理。”

 

车右智能联合创始人在《From photon to control——从光子到控制,Tesla的技术口味越来越重》一文中拿人眼对感知信息的处理做类比,做了比较详尽的解释,在此摘要如下:

图片摘自公众号“车右智能”)
如上图所示,人类的视觉系统和电子成像系统在逻辑上是完全一致的。视网膜颜色和像素矩阵其实是更可以代表外部客观世界的信息,而真正的人类感知颜色,是需要大脑(等同于ISP和更高层的后端处理)的参与的。

图片摘自公众号“车右智能”)

上图左侧是一幅标准的带有饱和度渐变和强度渐变的颜色图,右侧是其对应的带元颜色的原始图幅。对比可见,以人类视觉感官为核心而设计的成像系统会给我们提供愉悦和符合人类主观的图像信息,却未必全真反映客观的真实世界。

马斯克认为,为了做得“更好看”、更适合“给人看”,很多原本很有用的数据却在ISP负责的“后期处理”环节被处理掉了。但如果只是为了给机器看,这些被处理掉了的数据其实也是有用的,因此,如果“后期处理”这一步可以被省略,则有效信息量便会增加。

 

按于万CTO刘煜的解释,马斯克的逻辑是:

1.由于有了更丰富的原始数据,未来,相机的探测范围可能比人眼大,即光照强度很低或者很高的时候,我们人眼可能就看不见了(因为太黑或者太亮),但机器仍然可以测光子数量,因而仍然能有图像输出;

2.相机对光照强度的分辨率可能更高,即看上去很类似的两个光点,人眼可能分辨不出那么细小的亮度或者颜色差别,但是机器或许可以。

 

AI四小龙工程师的解释是:好的摄像头的动态范围比人眼大很多(在相对静止状态下),摄像头能观测到的“从最亮到最暗”的范围,比人眼所能观测的更宽。在极暗的条件,人眼看不到什么东西(几乎没有光子),但是摄像头的CMOS可以接收到很多光子,因而能看到黑暗状态下的事物。

 

多位专家在接受《九章智驾》采访时均表述认可马斯克的逻辑。

 

地平线BPU算法负责人罗恒解释道:“特斯拉现在的数据标注有人工标注和机器自动标注两种,其中,人工标注其实并不全是基于当前的图像信息,也包含了人类对世界的知识,这种情况下,机器同样有概率利用信息更丰富的原始数据;而机器自动标注是结合事后观测、结合大量几何分析一致性得出的,如果使用原始数据,机器有很大概率找到更多的相关性,做出更准确的预测。”

 

除此之外,均联智行首席架构师汪浩伟解释道:“特斯拉在原始图像数据进入DNN网络前就对其做了拼合,因此,就不需要对每个摄像头的感知结果做后处理。”

 

通过干掉ISP来提升摄像头在夜间的识别能力,这看起来跟阿里达摩院自研ISP的思路是相反的啊。那么,这两者矛盾吗?

 

据曾某自动驾驶公司视觉算法专家解释:两家的诉求其实是相同的。在本质上,无论阿里达摩院还是特斯拉,都是希望通过芯片和算法的配合来提升摄像头的能力。

 

但两者的区别在于,阿里达摩院的思路是,为了人眼能看到,对原始数据进行了各类算法处理和增强;而特斯拉则是去除了算法中为了“照顾”人眼所做的那部分数据处理,转而开发了用于增加摄像头在弱光下及强光等环境下的算法所需的数据及相应能力。

 

除此之外,马斯克还说,不经 ISP 处理可以实现 13 毫秒的延迟下降,因为有 8 个摄像头,每个摄像头 ISP 处理会产生 1.5 - 1.6 毫秒的延迟。

 

一旦马斯克这一设想经过实践验证是可行的,其他芯片厂商应该也会“跟进”。甚至,有的芯片厂商已经在这么做了。

 

如安霸中国区总经理冯羽涛1月份在接受焉知采访时就提到:“如果客户想把原始数据直接喂进神经网络进行处理,CV3 完全可以支持这种方法”。

 

三.摄像头的“物理性能”也需要提升

 

并非所有人都完全相信马斯克这一计划。

 

某头部Robotaxi公司技术VP说:“特斯拉说的也没错,但我觉得算法的开发难度会非常大、周期会很长,然后开发的时间可能会非常久。如果加个激光雷达,首先可以直接把三维的问题解决了,拿纯视觉去构建三维当然也可以,但要消耗很多算力。”

 

车右智能联合创始人认为,马斯克是个“煽动大师”,“他的宣传方式是把你搞晕,让你不由自主地产生技术崇拜”。

 

他说:“有的图像学专家认为放弃所有ISP级别的后处理是不现实的,比如获取强度和颜色的debayer图像,会给后续的NN识别head造成很多困难。”

 

在《车右智能》最近的一篇文章中提到,原始数据染过ISP直接进入神经网络的方案在哪种场景下可行?是可以兼容特斯拉现有的摄像头还是需要更好的视觉传感器?是否存在于FSD beta全部的NN head任务还是局部NN head任务?这都是不确定的答案。

 

我们再回头笔者开头提出的那个问题:视觉算法的提升,能突破摄像头的物理性能本身的瓶颈吗?

 

某视觉算法背景的Robotaxi公司CEO说:“逆光或者是车辆从隧道里出来突然面对强光时的感知,人眼很难解决,摄像头也不行,这个时候,就必须要有激光雷达了。”

 

刘煜认为,理论上,如果你不计成本,可以造一个摄像头,性能是可以超过人眼的,“但我们现在这些车上用的这种低成本的摄像头,似乎还远没有达到这个性能级别。”

 

言外之意,解决摄像头在弱光或强光下的感知,并不能仅靠视觉算法的提升,还得围绕着摄像头的物理性能“做文章”。

 

如摄像头若要在夜间探测目标,就无法通过可见光成像,而是得基于红外热成像原理来做(夜视摄像头)。

 

“AI四小龙”工程师认为,photon to control非常有可能意味着特斯拉跟HW 4.0芯片搭配的摄像头会升级成多光谱。

 

这位工程师说:当前,行车摄像头都将非可见光部分滤去,但现实中,物体发出的光线光谱非常广泛,可以用来进一步区分物体特征。比如白色的货车和白云,在红外波段可以被轻易区分;有行人或者大型动物防撞,用红外摄像头会比较容易,因为恒温动物身体发出的红外线是很容易区分的。

 

《车右智能》在文章中也提到了这样一个问题:Tesla是否会针对photon to control的概念而更新相机硬件,推出真正的光量子相机,或者还是基于现有的camera进行ISP旁路? 与此同时,作者也指出,如果摄像头硬件也要升级,“那特斯拉将不得不从头开始完全重新训练其神经网络算法,因为输入是如此的不同”。

 

此外,无论摄像头技术如何进步,可能都无法摆脱鸟屎、泥水等脏污的影响。

 

激光雷达采用的是主动光源,先发光、再接收光,像素点很大,一般的脏污很难将其完全遮挡掉。据某激光雷达厂商提供的数据,在表面有脏污的情况下,其激光雷达的探测距离只衰减15%以内;而且,有脏污的时候,系统会自动发出警报。但摄像头是被动传感器,每个像素点很小,很小的灰尘技能挡住几十个像素,因此,在表面有脏污的时候就直接“瞎了”。

 

如果不能解决这个问题,那试图通过视觉算法的进步来省掉激光雷达的成本,岂不是个妄想?

 

几点补充:

 

1.芯片厂商怎么设计只是问题的一个方面,但客户如果没能力充分利用好原始数据,他们也无法绕过ISP

 

2.哪怕芯片厂商和客户都有能力绕过ISP,在今后相当长一段时间里,多数厂商仍然会保留ISP,一个关键原因在于,在L2阶段,驾驶责任主体依然是人,而ISP处理后的信息显示到屏幕上,方便交互,也可以给驾驶员“安全感”。

 

3.要不要绕过ISP,仍然是“纯视觉派”与“激光雷达派”两种技术路线之争的延续,对此,上文提到的Robotaxi公司技术VP的观点很有启发性:

其实纯视觉方案跟激光雷达方案并不是拼“谁行谁不行”,真正拼的就是纯视觉方案算法开发能开发到激光雷达方案这种水平要多长时间,以及激光雷达的成本降到跟纯视觉方案成本差不多的时候需要多长时间。简言之,是前者的技术进步快,还是后者的成本降得更快。

 

当然,若日后纯视觉派需要增加传感器,而激光雷达派需要减少传传感器,算法受到的影响有多大、修改算法需要多长时间、成本如何,这些都是有待进一步观察的问题。

 

 参考文章:


马斯克最新访谈:自动驾驶最难的是建立向量空间,特斯拉FSD或年底达到L4|阿尔法讲故事

https://mp.weixin.qq.com/s/rSrN6FV3W4GRSSkfF9K_kg


特斯拉选择纯视觉:摄像头测距已成熟,雷达缺陷不可弥补

https://m.ithome.com/html/564840.htm



汽车电子与软件 主要介绍汽车电子软件设计相关内容,每天分享一篇技术文章!
评论
  • 故障现象 一辆2007款日产天籁车,搭载VQ23发动机(气缸编号如图1所示,点火顺序为1-2-3-4-5-6),累计行驶里程约为21万km。车主反映,该车起步加速时偶尔抖动,且行驶中加速无力。 图1 VQ23发动机的气缸编号 故障诊断接车后试车,发动机怠速运转平稳,但只要换挡起步,稍微踩下一点加速踏板,就能感觉到车身明显抖动。用故障检测仪检测,发动机控制模块(ECM)无故障代码存储,且无失火数据流。用虹科Pico汽车示波器测量气缸1点火信号(COP点火信号)和曲轴位置传感器信
    虹科Pico汽车示波器 2025-01-23 10:46 40浏览
  • 随着消费者对汽车驾乘体验的要求不断攀升,汽车照明系统作为确保道路安全、提升驾驶体验以及实现车辆与环境交互的重要组成,日益受到业界的高度重视。近日,2024 DVN(上海)国际汽车照明研讨会圆满落幕。作为照明与传感创新的全球领导者,艾迈斯欧司朗受邀参与主题演讲,并现场展示了其多项前沿技术。本届研讨会汇聚来自全球各地400余名汽车、照明、光源及Tier 2供应商的专业人士及专家共聚一堂。在研讨会第一环节中,艾迈斯欧司朗系统解决方案工程副总裁 Joachim Reill以深厚的专业素养,主持该环节多位
    艾迈斯欧司朗 2025-01-16 20:51 260浏览
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 137浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 347浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 109浏览
  • 日前,商务部等部门办公厅印发《手机、平板、智能手表(手环)购新补贴实施方案》明确,个人消费者购买手机、平板、智能手表(手环)3类数码产品(单件销售价格不超过6000元),可享受购新补贴。每人每类可补贴1件,每件补贴比例为减去生产、流通环节及移动运营商所有优惠后最终销售价格的15%,每件最高不超过500元。目前,京东已经做好了承接手机、平板等数码产品国补优惠的落地准备工作,未来随着各省市关于手机、平板等品类的国补开启,京东将第一时间率先上线,满足消费者的换新升级需求。为保障国补的真实有效发放,基于
    华尔街科技眼 2025-01-17 10:44 230浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 138浏览
  • 80,000人到访的国际大展上,艾迈斯欧司朗有哪些亮点?感未来,光无限。近日,在慕尼黑electronica 2024现场,ams OSRAM通过多款创新DEMO展示,以及数场前瞻洞察分享,全面展示自身融合传感器、发射器及集成电路技术,精准捕捉并呈现环境信息的卓越能力。同时,ams OSRAM通过展会期间与客户、用户等行业人士,以及媒体朋友的深度交流,向业界传达其以光电技术为笔、以创新为墨,书写智能未来的深度思考。electronica 2024electronica 2024构建了一个高度国际
    艾迈斯欧司朗 2025-01-16 20:45 682浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 115浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 204浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 178浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 180浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 140浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 275浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 604浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦