谈谈特斯拉FSDV12,基于自动驾驶算法从业者视角

谈思汽车 2023-08-31 11:40

 智能汽车安全新媒体 


日前,特斯拉CEO马斯克在其个人账号上直播测试了特斯拉最新版本的FSD自动驾驶系统,此次直播并未经过任何的剪辑处理,并为观众们带来了更加详细的讲解。

最新版本的FSD系统不再依赖于传统的高精地图和导航数据,而是完全依靠车载摄像头和神经网络来识别道路和交通情况,并做出相应的决策。

在驾驶过程中,马斯克提到,特斯拉的工程师没有为减速带、停车标志或环形交叉路口编写程序。但是车辆仍然能够很好地处理这些情况。通过使用视频对系统进行训练,让车辆自主学习。

从此次的直播来看,车辆整体表现还算优秀,但是在一个红路灯路口,特斯拉在绿灯时并没有按照路线左转,所以马斯克不得不对车辆进行了接管。不过,虽然此次自动驾驶还是令人印象深刻。

当时,想要直行的车辆在路口已经等了很久红灯,而在对面信号灯刚刚转为左转状态时,Model S竟突然跟着启动。


不过马斯克和旁坐的工程师反应迅速,连忙干预制止。



有意思的是,马斯克此次测试的地点,正是马克·扎克伯格的豪宅所在地,在直播的过程中,马斯克还调侃道,如果我们会遇到扎克伯格,我们可以挑战一下,打一架,让气氛变得更有趣”。

其实挺惊讶对这次demo的评价目前看来还是比较负面的,从消费者角度其实这可以理解,毕竟19min就接管一次,还是闯红灯这种极其普遍的驾驶场景中的致命错误,不过要知道这并非发布的用户版本,而是研发内测的Alpha版本,说一个研发版本不够完善稳定我个人感觉是有点吹毛求疵了。

作为技术从业者,我们更应该从更加技术的角度去看待FSD Version 12的这次demo,我个人认为这次demo给我带来的冲击和引起的思考是比较大的,甚至不输于以往的几次AI Day和Autonomous Day。 

首先要知道为什么大家对V12如此感兴趣。原因是老马在今年5月份就爆了一剂猛料,FSD V12会彻底转向端到端的自动驾驶技术方案,并且他还说V12会令FSD走出Beta阶段彻底成为一个正式版的产品,这个消息的噱头有多大呢,我感觉吧,其实不输于2020年公布FSD Beta将于当年10月发布,毕竟端到端的自动驾驶长期以来一直局限于学术研究中,Tesla之前唯二的先行者Comma仅仅只能进行高速方面的简单驾驶动作,Wayve则局限于英国少数地区的内部测试,而要知道FSD可是在广大的北美大陆可以任意开启的,这需要端到端系统体现的泛化性可以说和前两者相比要高出一个层级。


老马5月宣布Version12将转为端到端系统的Twitter(X)

业内普遍共识,端到端的自动驾驶系统理论上有比现今模块化的自动驾驶系统更高的能力上限,那么端到端系统为什么并没有成为业界主流呢?原因是端到端系统在提高模型上限的同时也无限放大了神经网络黑盒的不可解释的问题,而不可解释性会给研发迭代和问题解决造成巨大的负面影响,同时业界也没有端到端系统的成功先例,对于这种处于前沿科技无人区的技术方案绝大多数公司是没有勇气和实力敢为天下先的。

那作为端到端的V12首次公开亮相,我认为这次demo是毫无疑问的成功的,甚至是惊艳的,我的理由主要有以下三点:

1. 本次Demo展现了FSD V12端到端系统的成熟度

很多国内外的网友质疑这次Demo的路况场景都十分简单,Palo Alto的交通即使在下班高峰看起来也远远比不了国内大城市道路的拥挤繁杂,在这种情况下甚至还有一次严重问题接管,其实算不上优秀,对于这个观点我其实很认同。

然而作为自动驾驶的算法从业者,我对于这次demo的关注点其实不在场景的困难程度,因为理论上端到端的系统自然比基于规则和搜索的现今主流自动驾驶系统上限高很多,其核心问题在于下限可能很低。

端到端系统起步慢但上限高

今年CVPR 小鹏的Patrick有这样一个图表很好的说明了端到端系统的特性,可以看到端到端的系统最大问题在于模型能力起步较慢,同时黑盒不可解释不可控的性质会导致系统虽然能够处理复杂场景,但是简单场景很可能相比目前主流系统会产生退步,甚至是犯很多“弱智”的错误,同时因为业界缺乏端到端系统的工程实践经验,一些看似简单的fix无法通过增加规则代码迅速解决,因此尝试端端到端的方案大多数时候可能会是死在起跑线。

实际上我甚至认为如果哪家公司能够利用端到端的新技术架构来获得一个功能稳定性匹敌现有技术架构的自动驾驶系统,那么基本可以证明端到端系统是未来方向,因为理论上端到端系统在达到现有技术水平的那个时间点之后会很快继续提高水平将现有技术栈甩在身后,所以上图红蓝线交叉的点我认为可以称作端到端系统正收益的爆发点,一旦达到这一点基本上主流的技术范式就会被颠覆。

所以考虑到Tesla V12应该研发时间不长,我对于V12首秀能在随机选取的测试路线上在众多基础的转弯,变道,环岛,与行人交互等场景表现十分稳定平顺其实是非常惊讶的,而FSD V12的这次初次亮相部分说明了Tesla已经比较接近这个爆发点了,而这是我认为本次Demo传递的十分重要的信号。

2. 透漏了Tesla端到端自动驾驶的一些重要的思路,理念和实践经验

这次Demo另一个关键意义在于,通过Demo的一些细节以及直播过程中老马和Ashok的聊天透漏了很多Tesla对于端到端系统的实操经验和理解,而在端到端系统严重缺乏行业最佳实践的现在,这毫无疑问是对技术从业者具有启发意义的。

比如说很多人以为端到端是一个中间完全不透明的黑盒,但是实际上目前大多数比较深入的端到端实践都表明保持端到端系统中间结果的可解释性是很重要的。今年CVPR Best Paper UniAD就设计了一个端到端可导但是保留了中间子网络输出的端到端系统,而从直播中可以发现V12几乎完整的保留了当前FSD的感知结果输出,很显然至少在目前阶段Tesla的端到端技术方案也是保留中间功能子网络的路径。

那这个方案和普通的模块化方案有什么区别呢?其实重要区别在于各模块都去除了基于规则的代码,使得整个系统端到端可导,这使得整个系统作为一个整体直接对于驾驶动作进行训练优化成为可能。而传统的自动驾驶架构由于模块化以及并非端到端可导,使得各个功能模块只能通过各自训练优化自己的任务,最终结果是多个局部最优无法实现整个系统的全局最优。

CVPR 2023 Best Paper UniAD保留了整个系统中间的各个功能网络

V12几乎保留了全部的FSD感知结果可视化效果,但是似乎没有红绿灯可视化

这样的方案其实比较好理解,保留中间结果相当于通过人类先验知识把人类觉得有用的驾驶概念提取出来,给到端到端下游网络,同时给到网络的还有可能包括更加前端基础的输入,由下游决策规划网络自由选择使用哪些信息进行判断,这样的技术方案通过人类先验加快了端到端系统训练时性能起步速度,但是又保留了原始信息直接输入下游,减少了传统模块话系统中间输输出导致的信息损失。同时对中间结果进行分析也有助于确定系统犯错时问题的原因,提高解决问题的效率。

另外马斯克和Ashok在聊天过程中反复强调V12没有显式的把车道线,环岛,减速带等概念的处理办法灌输给系统,对于这点我的理解是V12并不是没有检测这些内容,而是在规控网络中没有显式的添加如何应对这些概念的规则,应对方法是由网络自己通过驾驶员视频学习得到的,例如软件没有显示要求自车要在车道线居中,模型自己从人类驾驶视频中学习何时应该居中,何时可以适当偏离中线以达成更加拟人的驾驶决策。

3. 展现了端到端自动驾驶系统相比传统架构优势的一些闪光点

虽然上面说了,我更加关注的是V12相比现有FSD是否在基础功能上存在性能回退,但是在这次Demo中我们也看到了很多V12的闪光点。这次的一个大家容易忽略的亮点其实就发生在老马第19min红绿灯接管之前。

当时的场景是这样的,直行的绿灯亮起但是前方路口拥堵,这时比较合理的驾驶决策是不要进入路口,等待目标路口空间出现再选择通过路口,而FSD V12也正是这样做(不要纠结国内国情,实际上我国的交规也是这样建议的,虽然很少有人按照执行),不过这也导致了这次绿灯V12没能通行,一直到绿灯变红,再下一次左转绿灯亮起的时候V12出现了误判,原因是V12目前似乎并不直接检测红绿灯的状态(可视化界面中好像不再出现红绿灯检测结果),而是综合参考了红绿灯情况和周围其他这辆行为来判断是否应该通行,所以当有红灯变绿,且周围左转车辆开始移动的时候,V12产生了错误判断,认为直行也已经可以通行,造成接管。

直行绿灯但路口拥堵,V12选择等待,没有进入路口

第二个亮点出现在一次途径点到达过程中,V12可以进行靠边停车的操作,而这也是目前的FSD所不具备的功能。而且Ashok在直播过程还透露,未来FSD甚至可以响应用户语音指令输入,例如用户可以告诉FSD向左换道,或者告诉FSD带自己到达前面沃尔玛,FSD就会根据语音指令分析其中语义信息并执行相应动作。

这里我的猜测是有可能在V12的模型中也有文字模态的加入,这也是目前自动驾驶系统中很少使用的新技术,随着大语言模型的爆炸式发展,在自动驾驶中融入语言模型这一方向也给人很大的遐想空间。

总之这次FSD V12的Demo可以说是自动驾驶行业内一次具有颠覆性的事件,虽然本次demo依然存在问题,也还无法完全证明端到端系统就是自动驾驶未来的前进方向,但是随着本次demo的展示,我相信端到端的自动驾驶很可能将摆脱空中楼阁的尴尬境地,有潜力成为未来几年内行业争先投入的重点。

作为行业领军的Tesla(也许有人不认同,但是我身边的从业者绝大多数对此是承认或者默认的)再次扮演了敢为天下先的角色,后续自动驾驶技术范式到底如何迭代,这次demo的意义可能比很多人想象的更加深远。


内容来源:

mp.weixin.qq.com/s/YisB7tMJt-o5VQ9UibFbrg

-  THE END  -

因文章部分文字及图片涉及到引用,如有侵权,请及时联系17316577586,我们将删除内容以保证您的权益。

谈思汽车 智能汽车安全新媒体
评论
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 116浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 69浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 141浏览
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 222浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 58浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 92浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 106浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 202浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 119浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 61浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 164浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦