特斯拉自动驾驶的底层逻辑

美股研究社 2021-08-26 18:47

Dojo上马,特斯拉补齐了自动驾驶三要素。


来源 | 锦缎
作者 | 小葵

如果机器人有大脑,会是什么样?
 
在科幻电影《机械姬》里,全球最大搜索引擎公司“蓝皮书”CEO纳森向观众展示了自己发明的机器人大脑,并留下这么一句话:“人们认为搜索引擎是人们思考的事物,但其实那是人们思考的方式。”
  

该影片上映于2015年,被誉为人工智能爱好者必看的电影之一,拿下包括奥斯卡金像奖在内等多项国际电影大奖。但在众多奖项中,单项之冠是“最佳女配角”,艾丽西卡·维坎德,也正是影片中智能机器人“艾娃”的扮演者。
 
“艾娃”是纳森给“她”取的名字,为制造出能独立思考的人工智能,纳森利用自家搜索引擎“蓝皮书”的算法来构建艾娃大脑的“思维”,使之学会人类思考方式。
 
无独有偶,想让机器有人类思维,同样见之于特斯拉打造的自动驾驶AI上。2019特斯拉自动驾驶日上,安德鲁·卡帕西(Andrej Karpathy,特斯拉AI总负责人)曾明确地向大众传达特斯拉自动驾驶是在模仿人类驾驶,因为现行的交通系统是基于人类视觉和认知系统来设计的。
 
由此,特斯拉开发出“人工神经网络”,并利用大量有效的行车数据来训练它,在这一过程中不断完善并迭代视觉算法,终于在今年年中拿掉毫米波雷达,而随着超算Dojo浮出水面,长期被诟病只能算辅助驾驶的特斯拉,离真正的自动驾驶又近一步。
 
从学会开车,到比人类更懂开车、开得更好,当一名优秀的“老司机”,是特斯拉自动驾驶持续优化的底层逻辑。
 


“云端司机”的神经网络

 
纯视觉自动驾驶方案是特斯拉的独门绝技,但需建立对计算机视觉深度训练之上。
 
计算机视觉是一种研究机器如何“看”的科学,当人类看到一张图片时,能清晰辨析图片里的事物,比如说美丽的风景照、或者一张小狗的照片,然而计算机看到的却是像素(pixel),像素是指由图像的小方格组成的,这些小方块都有一个明确的位置和相对应的色彩数值,计算机“记住”的就是这堆数字字符,而不是具体事物。
 
如果想让计算机能像人类一样快速准确识别出图片里的事物,机器也有了人工大脑,来模拟人脑处理加工图像信息过程,分为输入层、隐藏层、输出层,里面有许多人工神经元,可视作人脑初级视觉皮层中的锥体细胞和中间神经元。
 
整个训练过程亦可类比小孩看图识物,通过一次次输入、对比、纠正,完成机器图像认知。通常在训练初期,人工神经网络识别结果的准确度非常低,输出结果和实际值相似度可能只有10%;为了提高准确度,需要再将两者误差从输出层反向传播至输入层,并在反向传播中,修正神经网络隐藏层的参数值,经过上百万次的训练,误差逐渐将收敛,直至输入和输出端匹配度达到99%。 
 

上述过程是理解特斯拉自动驾驶AI的关键,只不过特斯拉开发的人工神经网络专注于驾驶领域,做一名专职云端司机。对它来说,最好的学习材料就是行车数据,大量、多样化、来自真实世界的驾驶训练数据集(training dataset)是自动驾驶AI能应对各种路况、交通问题的百宝书。
 
在影子模式的支持下,特斯拉全球百万车队每时每刻的行车数据都成为这位云端“老司机”提升自身驾驶能力的养分。时至今日,特斯拉Autopilot已经能瞬间完成道路上各种动静目标、道路标识、交通符号的语义识别,反应速度甚至比人脑条件反射更快。
 
 
除了应对日常驾驶场景外,AI司机还需要处理一些较为少见的长尾情况(Corner cases)。在2020年Matroid机器学习大会上,卡帕西以交通指标STOP为例,讲解Autopilot应对这些长尾情况的具体方法。
 
在日常驾驶过程中,车辆总会经过形形色色的STOP指标,最为正常的情况就是一个立在路旁或者路中、红底白字的STOP标识,但现实生活总会有些预料之外的情况发生,驾驶员偶尔会碰上一些奇奇怪怪、需要结合具体背景来理解意涵的指标,包括不限于以下:
 
无效STOP指标,比如被某人拿在手上,却无意义;下方附带文字说明的STOP指标,比如不限制右行;STOP字母被树枝、建筑物遮挡的指标…这都是些出现频次不高却不胜枚举的情况。
 
遇到上述情况,人类驾驶员可以轻松识别出绝大部分情况下的“STOP”,并很快作出行动反应。但对计算机来说,情况就变得复杂起来,毕竟它看到的不是具体的"STOP",而是一堆无意义的数字代码,如果遇到现有训练数据集中没出现的情况,比如一些上述奇奇怪怪、较为少见的指标,自动驾驶神经网络就不能处理。
 
 
这部分少见的长尾数据通常无穷尽,但又必须在尽可能短的时间内学会应对,如果一切都让人工操作,无疑需要耗费巨大的时间成本和资源。尽管在8月20日AI大会上,卡帕西透露目前特斯拉标注团队规模已达千人级别,但在海量行车数据面前,千人还是显得杯水车薪,对此特斯拉内部开发了数据离线自动标注(Data Auto Labeling)以及自动训练框架“数据引擎(Data Engine)”。
  
 
首先,特斯拉神经网络团队在对这些长尾情况有所了解后,会先编成一个样本数据集,并为此创造一个局部小型神经网络来学习、训练(与其他神经网络并行),通过OTA方式部署到全球英语地区特斯拉车辆上。
 
再利用车辆影子模式,但凡遇到实际驾驶情况和自动驾驶AI决策不一致的情况,这部分行车数据会自动上传至特斯拉后台数据引擎中,在被自动标注后,重新纳入已有的数据训练集中,继续训练原本的神经网络,直到新的数据被掌握。
 
就这样,在大量训练数据的喂养下,神经网络变得“见多识广”、更加聪明,可以识别不同条件状况下的STOP标识,精确度逐渐从40%提升至99%,完成单一任务学习。
 
不过,这仅仅是学习一个静态的信号,在汽车驾驶过程中会涌现无数静态和动态的信号,静态如路边大树、路障、电线杆等,动态的有行人、车辆等,而这些信号由摄像机捕捉到后交由神经网络训练、学习。目前特斯拉的自动驾驶神经网络已发展出九大主干神经(HydraNet)和48个神经网络,识别超过1000种目标。
 
然而,仅仅让自动驾驶AI学会开车还不够,还得让它开得像人类老司机一般驾轻就熟、安全又平稳。


摆脱拐杖,Autopilot初长成

 
任何一位经验老道的司机,都能在不同路况下,轻易判断出前方车辆与我们的距离,从而为保障行车安全而留出一定车距。
 
但对传感器而言,要想判断物体远近必须要理解物体的深度,不然在他们眼中,距离我们10米和5米的两辆完全一样的车,就会被认为是一大一小的关系。
 
对此,有些车厂选择激光雷达路线来探测深度,而特斯拉则选择了纯视觉算法,模仿人类视觉来感知深度,不过特斯拉先是打造了毫米波雷达+视觉传感融合路线,直到今年5月,才正式官宣,拿掉毫米波雷达,上线纯视觉版本Autopilot。
 
此事一出,社会各界一片哗然,很多人不能理解特斯拉为何要拿掉单价才300元、又能为行车安全增添保障的高性价比雷达。殊不知,在特斯拉早期多传感器融合路线中,毫米波雷达的存在就犹如小孩的学步车,只是帮助神经网络来学习训练深度标注(annotate)。
 
在2019年自动驾驶发布会上,卡帕西是这样介绍毫米波雷达的,他说:“要想让神经网络学会预测深度,最好的方式还是通过深度标注的数据集进行训练,不过相对于人工标注深度,毫米波雷达反馈的深度数据精准度更高”,因此,引入毫米波雷达,实质是用以训练和提高神经网络对深度的预测。
 
值得一提的是,在他讲解时的背景幻灯片右下角上,清晰地注明了带有毫米波雷达的自动驾驶算法是“Semi-Automonous Self Driving”,翻译过来是,半自动驾驶,明显彼时的特斯拉Autopilot只是个半成品。
 
 
直到特斯拉视觉算法在预测物体的深度、速度、加速度的表现,达到可替代毫米波雷达的水平,特斯拉的视觉算法才算真正独立。
 
在2021年6月CVPR大会上,卡帕西曾表示毫米波雷达收集数据中曾出现“间歇性翻车”、甚至误判等情况。他举了三个具体例子,前方车辆急刹车、大桥下前车行驶速度以及对路边静止卡车的判断。
 
情况一:前方车辆出现急刹,毫米波雷达短时间内出现6次跟丢目标车的情况,跟丢状态下前车的位置、速度和加速度都归于零。
 
情况二:在行驶的汽车从大桥下通过时,雷达把一静一动的物体都当作静止物体;此时视觉传感却计算出行驶车辆的速度和位移,导致数据融合后的曲线传递出“前车在减速并且刹车”的错误信息。
 
情况三:在高速路旁停着一辆白色大卡车,纯视觉算法在距目标车180m处就发现白色卡车,并作出预报,但融合算法直到110m处才作出反馈,足足延迟5秒。
 
上述案例里,纯视觉算法均输出稳定且大幅优于雷达+视觉融合算法,精准地跟踪到前车行驶状况并作出深度、速度、加速度等数据。
 
不仅如此,纯视觉算法还可以在雾、烟、尘等环境里保持对前方车辆的测速、测距工作,如此一来拿掉毫米波雷达也不奇怪了。根据特斯拉AI Day上最新发布的信息,目前特斯拉每周能够获得一万个人们恶劣环境下驾车的短视频,包括大雨、大雪、大雾、黑夜、强光等等情况,神经网络通过学习训练这些已经标注好的材料,实现在没有毫米波雷达的情况下,也可以精准感知前方车辆距离。
  

可以说,特斯拉宣布拿掉毫米波雷达的底气,是对自己纯视觉算法成熟的自信,并且在无监督自学的加持下,特斯拉纯视觉算法迭代和完善明显提速。
 
今年7月10日,特斯拉纯视觉版本的FSD正式在美开启内测,2000名受邀车主通过OTA方式升级到FSD Beta V9.0版本,他们大多是特斯拉的粉丝兼中小型KOL,Youtube博主Chunk Cook(以下简称CC)就是其中之一,他还略懂工程学和航天学专业知识。
 
系统更新一结束,CC开启新版FSD道路测试,并把测试视频上传至油管。视频中他来到一个车辆较多、车速较快的T路口进行转弯测试,结果显示,7次中只有1次,FSD顺利完成自动驾驶,其余都需要人工接管方向盘来完成驾驶。
 
但很快,随着7月底FSD推送新版本V9.1,CC发现升级后的FSD表现出乎他的意料。他又在相同道路进行了七次自动驾驶测试,结果显示,7次中4次都较为顺利完成自动驾驶,但在转弯速度上有些“磨蹭”,没有展现老司机应有的果断,但在综合得分上,新版本Autopilot优于旧版本。
 
8月16日,特斯拉FSD又升级至新版本V9.2,CC同样抢先测试并上传视频,还是一个路段,不过测试时间改为夜间,他公开表示,此次最明显的改进是Autopilot的加速表现,在转弯时能像人类驾驶员一样果断加速。
 
前后一个月的时间,纯视觉Autopilot在同一条道路的表现进步迅速,身后正是人工神经网络强悍自学能力的体现。马斯克表示,FSD beta V9.3、9.4都已在筹备中,会根据车主使用情况不断进行细节优化,改善用户体验,并预备在V10版本做出现重大的变化。


Dojo上马,模拟极限

 
需要注意的是,大家惊艳特斯拉纯视觉Autopilot各种老司机操作时,也不能忘记这些路测大部分发生在北美地区,而在非英语地区,比如人口稠密的亚洲地区,其城市道路交通复杂度与地广人稀的北美迥异,而如何让神经网络学会应对各种路况交通,更值得思考。
 
收集实地数据是方法之一,但前提是你有大量车队在该地区驾驶,另一种解决方法则是对自动驾驶进行仿真测试。仿真,简单讲就是利用现实数据,将真实世界的实时动态景象,在计算机系统实现重新构建和重现。
 
除了能模拟不同城市的交通路况,而且仿真测试还能模拟一些极限场景,比如各种突发交通事件或者极为罕见的交通路况。在AI DAY上,特斯拉工程师举了具体例子,包括有行人在高速路上奔跑、行人数量庞大、或者非常狭窄的驾驶道路。
 
这些案例往往非常极端,在日常驾驶场景中出现的概率也微乎其微,但正因为此,通过仿真来训练神经网络才有真正价值,而只有通过训练,神经网络才能学会正确应对。
 
为了能真正起到训练作用,这些仿真测试必须充分还原现实场景,包括道路上各种行人、车辆、绿化林、路障、信号灯等等,几乎包含你在路上见到的所有交通要素。目前特斯拉已创建了3.71亿张车内网络训练的图像,以及4.8亿个标签,并且数据规模还在快速扩张中。 
 

要知道,仿真测试可达到的逼真程度,与计算机可提供的数据处理能力成正比。特斯拉AI的仿真越强,对硬件算力、读写速度的要求越高。
 
马斯克曾在2020WAIC大会上表示,当下计算机视觉已经超越人类专家水平,但要保证计算机视觉实现的关键是算力的大小,为此特斯拉则准备好了顶级超算Dojo,保证一切运算都能高效、准确完成。
 
在AI day上,超算Dojo揭开了庐山真面目,内置了3000颗Dojo 1芯片,并组装成峰值算力达到1.1EFLOPS的ExaPOD,超越目前世界上最快的超算日本富岳,就成了全球第一。在发布会后,马斯克在推特上回复网友提问时表示,ExaPOD的运算能力足以模拟人脑。
 
现阶段,Dojo这台性能猛兽专注于训练特斯拉自动驾驶神经网络,有了它,神经网络的学习潜力一下子变得深不可测,而至此,特斯拉也集齐自动驾驶三要素,数据、算法、算力,为推进L5级别自动驾驶做好软硬件准备。
 
不过要想快进至自动驾驶终局,特斯拉还有很长的路要走,包括来自法律和道德层面的考验。 


美股研究社 美股研究社,一个专注研究美股的平台,专业的美股投资人都在这.想了解美国股市行情、美股开户、美股资讯、美股公司;
评论
  • 这篇内容主要讨论三个基本问题,硅电容是什么,为什么要使用硅电容,如何正确使用硅电容?1.  硅电容是什么首先我们需要了解电容是什么?物理学上电容的概念指的是给定电位差下自由电荷的储藏量,记为C,单位是F,指的是容纳电荷的能力,C=εS/d=ε0εrS/4πkd(真空)=Q/U。百度百科上电容器的概念指的是两个相互靠近的导体,中间夹一层不导电的绝缘介质。通过观察电容本身的定义公式中可以看到,在各个变量中比较能够改变的就是εr,S和d,也就是介质的介电常数,金属板有效相对面积以及距离。当前
    知白 2025-01-06 12:04 214浏览
  • 「他明明跟我同梯进来,为什么就是升得比我快?」许多人都有这样的疑问:明明就战绩也不比隔壁同事差,升迁之路却比别人苦。其实,之间的差异就在于「领导力」。並非必须当管理者才需要「领导力」,而是散发领导力特质的人,才更容易被晓明。许多领导力和特质,都可以通过努力和学习获得,因此就算不是天生的领导者,也能成为一个具备领导魅力的人,进而被老板看见,向你伸出升迁的橘子枝。领导力是什么?领导力是一种能力或特质,甚至可以说是一种「影响力」。好的领导者通常具备影响和鼓励他人的能力,并导引他们朝着共同的目标和愿景前
    优思学院 2025-01-08 14:54 56浏览
  • By Toradex 秦海1). 简介嵌入式平台设备基于Yocto Linux 在开发后期量产前期,为了安全以及提高启动速度等考虑,希望将 ARM 处理器平台的 Debug Console 输出关闭,本文就基于 NXP i.MX8MP ARM 处理器平台来演示相关流程。 本文所示例的平台来自于 Toradex Verdin i.MX8MP 嵌入式平台。  2. 准备a). Verdin i.MX8MP ARM核心版配合Dahlia载板并
    hai.qin_651820742 2025-01-07 14:52 105浏览
  • 故障现象一辆2017款东风风神AX7车,搭载DFMA14T发动机,累计行驶里程约为13.7万km。该车冷起动后怠速运转正常,热机后怠速运转不稳,组合仪表上的发动机转速表指针上下轻微抖动。 故障诊断 用故障检测仪检测,发动机控制单元中无故障代码存储;读取发动机数据流,发现进气歧管绝对压力波动明显,有时能达到69 kPa,明显偏高,推断可能的原因有:进气系统漏气;进气歧管绝对压力传感器信号失真;发动机机械故障。首先从节气门处打烟雾,没有发现进气管周围有漏气的地方;接着拔下进气管上的两个真空
    虹科Pico汽车示波器 2025-01-08 16:51 64浏览
  • 村田是目前全球量产硅电容的领先企业,其在2016年收购了法国IPDiA头部硅电容器公司,并于2023年6月宣布投资约100亿日元将硅电容产能提升两倍。以下内容主要来自村田官网信息整理,村田高密度硅电容器采用半导体MOS工艺开发,并使用3D结构来大幅增加电极表面,因此在给定的占位面积内增加了静电容量。村田的硅技术以嵌入非结晶基板的单片结构为基础(单层MIM和多层MIM—MIM是指金属 / 绝缘体/ 金属) 村田硅电容采用先进3D拓扑结构在100um内,使开发的有效静电容量面积相当于80个
    知白 2025-01-07 15:02 140浏览
  • 本文介绍编译Android13 ROOT权限固件的方法,触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。关闭selinux修改此文件("+"号为修改内容)device/rockchip/common/BoardConfig.mkBOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG_ARGS :=BOARD_PREBUILT_DTB
    Industio_触觉智能 2025-01-08 00:06 88浏览
  •  在全球能源结构加速向清洁、可再生方向转型的今天,风力发电作为一种绿色能源,已成为各国新能源发展的重要组成部分。然而,风力发电系统在复杂的环境中长时间运行,对系统的安全性、稳定性和抗干扰能力提出了极高要求。光耦(光电耦合器)作为一种电气隔离与信号传输器件,凭借其优秀的隔离保护性能和信号传输能力,已成为风力发电系统中不可或缺的关键组件。 风力发电系统对隔离与控制的需求风力发电系统中,包括发电机、变流器、变压器和控制系统等多个部分,通常工作在高压、大功率的环境中。光耦在这里扮演了
    晶台光耦 2025-01-08 16:03 52浏览
  • 在智能家居领域中,Wi-Fi、蓝牙、Zigbee、Thread与Z-Wave等无线通信协议是构建短距物联局域网的关键手段,它们常在实际应用中交叉运用,以满足智能家居生态系统多样化的功能需求。然而,这些协议之间并未遵循统一的互通标准,缺乏直接的互操作性,在进行组网时需要引入额外的网关作为“翻译桥梁”,极大地增加了系统的复杂性。 同时,Apple HomeKit、SamSung SmartThings、Amazon Alexa、Google Home等主流智能家居平台为了提升市占率与消费者
    华普微HOPERF 2025-01-06 17:23 198浏览
  • 根据环洋市场咨询(Global Info Research)项目团队最新调研,预计2030年全球无人机锂电池产值达到2457百万美元,2024-2030年期间年复合增长率CAGR为9.6%。 无人机锂电池是无人机动力系统中存储并释放能量的部分。无人机使用的动力电池,大多数是锂聚合物电池,相较其他电池,锂聚合物电池具有较高的能量密度,较长寿命,同时也具有良好的放电特性和安全性。 全球无人机锂电池核心厂商有宁德新能源科技、欣旺达、鹏辉能源、深圳格瑞普和EaglePicher等,前五大厂商占有全球
    GIRtina 2025-01-07 11:02 118浏览
  • 彼得·德鲁克被誉为“现代管理学之父”,他的管理思想影响了无数企业和管理者。然而,关于他的书籍分类,一种流行的说法令人感到困惑:德鲁克一生写了39本书,其中15本是关于管理的,而其中“专门写工商企业或为企业管理者写的”只有两本——《为成果而管理》和《创新与企业家精神》。这样的表述广为流传,但深入探讨后却发现并不完全准确。让我们一起重新审视这一说法,解析其中的矛盾与根源,进而重新认识德鲁克的管理思想及其著作的真正价值。从《创新与企业家精神》看德鲁克的视角《创新与企业家精神》通常被认为是一本专为企业管
    优思学院 2025-01-06 12:03 155浏览
  • 大模型的赋能是指利用大型机器学习模型(如深度学习模型)来增强或改进各种应用和服务。这种技术在许多领域都显示出了巨大的潜力,包括但不限于以下几个方面: 1. 企业服务:大模型可以用于构建智能客服系统、知识库问答系统等,提升企业的服务质量和运营效率。 2. 教育服务:在教育领域,大模型被应用于个性化学习、智能辅导、作业批改等,帮助教师减轻工作负担,提高教学质量。 3. 工业智能化:大模型有助于解决工业领域的复杂性和不确定性问题,尽管在认知能力方面尚未完全具备专家级的复杂决策能力。 4. 消费
    丙丁先生 2025-01-07 09:25 113浏览
  • 每日可见的315MHz和433MHz遥控模块,你能分清楚吗?众所周知,一套遥控设备主要由发射部分和接收部分组成,发射器可以将控制者的控制按键经过编码,调制到射频信号上面,然后经天线发射出无线信号。而接收器是将天线接收到的无线信号进行解码,从而得到与控制按键相对应的信号,然后再去控制相应的设备工作。当前,常见的遥控设备主要分为红外遥控与无线电遥控两大类,其主要区别为所采用的载波频率及其应用场景不一致。红外遥控设备所采用的射频信号频率一般为38kHz,通常应用在电视、投影仪等设备中;而无线电遥控设备
    华普微HOPERF 2025-01-06 15:29 162浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦