2022TeslaAIDay-特斯拉自动驾驶FSD的进展和算法软件技术之数据以及虚拟

原创 Vehicle 2022-10-08 21:00
人工智能算法犹如电影的主演,我们很多时候看电影只看到主演们的精彩,但其实电影的创意和呈现都来自于背后的导演和制片等团队。而人工智能算法背后的有关数据的软件,设施,虚拟犹如电影的导演和制片等团队。他们是塑造算法,成就算法的核心力量。
本文我将通过2022特斯拉AI Day发布的信息,继上文Tesla AI Day -特斯拉自动驾驶FSD的进展和算法软件技之算法
1. 路径以及运动规划算法:
当算法植入到终端(车或者机器人),终端通过算法感知环境,规划路径,确保安全,平顺前进。
2. 环境感知算法:
- Occupancy 算法,也就是可活动空间探测
- Lane & Objects 车道以及物体算法,交通中的信息语义层也就是车道线,物体识别以及运动信息。
之后分享下算法背后的数据以及相关软件设施大体框架如下:
3. 训练算法设施以及软件:
- 训练数据的设施,超算中心用来支持数据处理,算法训练。
- 人工智能算法的编译器以及推理,就是训练算法的框架以及软件方法。
4. 数据标注,采集和虚拟:
- 自动标注算法,训练环境感知算法必须需要已经具有标签的数据,自动标注算法就是标注数据,训练环境感知算法识别这类场景或者物体。
- 环境虚拟,合成制造虚拟场景。
- 数据引擎,现实场景车辆,测试软件获取真实场景环境数据,闭环数据引擎,更正标签等。

3. 训练算法设施以及软件
算法都是基于数据训练出来的,也就是需要大数据喂出来。特斯拉表示需要训练Occupancy Networks算法,特斯拉目前已经从采集视频中提取出14.4亿张图片,需要训练这些数据,需要10万个GPU满负荷工作一个小时到90度的计算。
但现实中特斯拉构建的3个超算中心,采用了1.4万个GPU,其中4000个用于自动标注数据,其中10000个用于训练算法。
目前有30PB分布式视频缓存,1PB=1048576GB你想想30PB多大。其中抽取了1600亿张图片。而且这些数据不是静态的,是动态流转的,每天50万个视频轮流缓存更替,每秒40万个视频转化。
所以显然,特斯拉当前这数据中心按照正常的方法肯定行不通,同时可想而知特斯拉对于GPU超算的饥渴程度,另外特斯拉还想加速他的计算能力,这样决定了特斯拉必须自己搞芯片。但是仅仅有了芯片就行了?显然海量数据的管理和训练方法都是难题。
那么怎么最优的训练这庞大的数据呢?
难点在哪里?
就成了特斯拉现在考虑的问题,特斯拉给出的答案是从数据的存储,到数据的加载,最后处理,形成一个倒漏洞的形状,最大限度的压榨计算资源。
要实现这些,必须考虑数据量的分配,数据流的带宽,CPU,内容,机器学习的框架,而多台GPU同步运算你要考虑延迟,考虑GPU之间的带宽。这是非常复杂的。
特斯拉的方案是:
首先视频是动态和复杂的,不是简单的图片机器学习,特斯拉的视频到图片再到学习处理过程是动态,所以第一步加速视频库可以增加30%的训练速度。
特斯拉采用Pytorch ,进行视频压缩类的工作,加速视频库,例如下图中I 帧(帧内编码图片)是完整的图像,例如JPG或BMP图像文件。P帧(预测图片)仅保存图像与前一帧相比的变化。例如,在汽车穿过静止背景的场景中,只需要对汽车的运动进行编码。编码器不需要在 P 帧中存储不变的背景像素,从而节省空间。P 帧也称为增量帧。
另外就是视频数据的归类,说实话比较复杂,以后有时间有价值再仔细看吧。
总的来讲通过这种方式,特斯拉实现了2.3倍的训练速度增加,现在特斯拉用1024块GPU可以实现几天内从头开始聚合这些数据。
另外数据源源不断的压进计算中心,就轮到了计算芯片,如何最优处理算法呢?这里就提到了算法编译器compiler以及reference推理。
什么是算法编译器以及推理?
了解这节时候我们先要了解什么是算法编译器compiler,他将AI算法模型映射到高效的指令集和数据流。它还执行复杂的优化,例如层融合、指令调度和尽可能重用片上内存。
为什么要优化编译器?
其实特斯拉的人工智能算法代码运行会并行,重复以及回滚,那么特斯拉想要解决的问题是,如何高效的让代码运行在芯片上面,例如不重复计算,计算之间编排紧凑不空闲不堵塞,这样可以减少延迟,降低功耗。
怎么做?
特斯拉设计了一个Arc Max 以及一个中央操作来将稀疏(例如车道的空间位置)编码到首页,然后选择学习算法过程链接到首页。然后在静态内存SRAM中构建一个查询表格,把重复算法存入缓存,这样就不需要重复计算,只需要查询调用。
所以特斯拉表示就在FSD车道识别算法中,这项编码提升了其算法9.6ms的延迟,能耗大概只有8w。
特斯拉表示这种编码的思维贯穿到整个特斯拉FSD算法中,特斯拉构建了一个新的算法编译器用来编译超过1000多个算法信号
这样特斯拉通过编译器和推理的优化,确保优算力,低功耗,低延迟的AI 计算,这也就是大家常说的不拼算力,拼算法软件。
那么分享完算法优化,计算优化,接下来就是关于数据。
4.数据标注,采集和虚拟
数据标注,这个毋庸置疑,人工智能的基础就是基于现实数据,总结出规律,然后产生公式用于预测,这就是形成了算法。数据喂的越多,那么算法公式也就越精准。所以海量数据是精准算法的基础,而海量数据的前提是这些数据需要有标签也就是告诉机器这些数据是什么?
数据标注有两种方法,第一种就是人类标注,依靠人给数据打标签,这是非常庞大的耗时耗人力的方式,但现实中确实是这么干的,还有些只有是人干。第二种就是自动标注,还记得之前文章《被美国禁售的A100和H100 ,MI250人工智能芯片能干啥?》中人工智能算法三个基础数学,其中有一个是cluster你可以认为他是归类,自动标注就是用归类方法去标注。自动标注显然是省时省力的事情,所以看特斯拉如何利用自动标注。
困难点在哪里?
拿上文的车道算法举例,特斯拉认为他要实现十字路口车道算法,大概需要几千万个驾驶旅程,经过大概百万个十字路口。特斯拉目前大概每天有50万个旅程,但是要把这些旅程转化成可训练的数据是非常难的课题,特斯拉表示尝试了各种人工和自动标注方法,显然不太可能。
所以特斯拉开发的新自动标注算法对一万个驾驶旅程的12个小时自动标注,可以抵充500万个小时的人工标注。
特斯拉怎么做到的?
特斯拉表示其车道算法的自动标注,主要采用以下三个步骤来实施:
首先通过车辆获取车辆的高精轨迹信息,之后通过算法将多旅程重构到一张地图中然后自动标注车道信息网络。详细步骤如下:
1. 高精轨迹获取,上面提到特斯拉每天可以获取到50万个旅程,这些旅程的采集信息为车辆的视频,车辆运动IMU陀螺仪,速度作为原始信号输入,之后在车上的2个CPU线程(所有开通FSD的车辆产生这些信息)去跟踪优化,特征提取输出车辆6个自由度100hz的运动轨迹以及3D结构的道路细节。
2. 多旅程重构,因为所有的车辆信息都是来自于不同的车辆,所以需要基于他们的高精轨迹信息,进行旅程的道路信息的匹配,重构,接缝优化,包面优化,最后人工分析师最后把关,形成了多重旅程的轨迹信息。
3. 自动标注旅程,当然自动标注只会去标注新添加的旅程,而不是去重构所有的片段,所以大概半个小时标注一段旅程而不是人工标注的几个小时。
特斯拉宣称,这种标注方式极其容易规模化,只需要有计算单元以及驾驶旅程信息,如上图所示,就视屏的时间内,来自于53台车的数据,就自动标注了50组数据。当然特斯拉也表示自动标注的方法应用在特斯拉算法的各个方面。
但特斯拉表示现实的数据,获取困难同时很难去标注,但是传统的3D的场景的重构却异常缓慢。 
所以特斯拉表示在虚拟验证方面其应用新的方法5分钟就能够构建3D虚拟场景。
虚拟验证能做什么?
特斯拉的建模是首先把场景的真值(Ground truth)输入3D建模软件Houdini,先开始构建道路的边缘,在构建路面地理特征,之后将车道信息投影进入路面,接下来使用道路中间的边缘形成绿化岛。这样基本的主要特征形成,那么道路两边的树以及建筑物都可以随机构建。

有了这些基础之后,引入地图交通信息,例如红绿灯和停车,车道信息,甚至道路的真实名字。
之后偶发性的引入行人,车辆交通形成了场景的基础。再后可以去改变场景的天气,光线等形成模拟无穷无尽的场景,供自动驾驶验证。
当然特斯拉表示以上仅仅为基本的,这个其实应该很多自动驾驶公司都能做到例如之前文章《Cruise以及其自动驾驶技术》中提到通用的Cruise 也采用,特斯拉更进一步去改变道路的真值形成新的场景,例如之前算法中将到的十字路口车道线场景,可以改变里面的车道信息,创建更多基于真实场景的变种场景,来帮助算法训练,而不是只能通过现实采集
所以特斯拉有了虚拟数据,可以快速的进行各种场景的虚拟测试去优化算法,而省去实际测试费时费力的时间。
如何做到的呢?
特斯拉表示其主要创新和亮点是虚拟验证的架构,他可以确保所有的东西串起来运行。
如上文介绍虚拟世界的建模,先有道路交通真值信息,然后元素创造者将交通信息标签转换成元素,例如上文将到的车道线,马路牙子,建筑物等都属于元素。再通过元素提取工具将这些信息分成几何信息和交通实例元素放到150平米Geohash中,并给他命名ID 方便使用加载调用。
这样建模信息更加简洁,更容易加载和渲染,然后使用元素加载器工具,特斯拉可以使用Geohash ID编码去加载任意数量的缓存切片,一般虚拟的时间就加载感兴趣的地点以及周边。最后是虚拟引擎生成场景。


这样特斯拉就让一个工程师工作2周就可以生成旧金山的街道虚拟世界,而非几个月甚至年来做单位。同样特斯拉可以利用此项PDG技术快速拓展到其他地方或者城市国家,或者更新原有的虚拟世界,确保数据依据现实动态发展。
数据引擎 - 现实数据采集器
为什么?
其实在看这一章的时候,想了想特斯拉的仿真能力这么强,还要现实跑车去采集数据干啥?其实很多corner case 极端的场景,都需要通过真实场景去发现,然后优化数据,帮助解决人员介入。
首先看这个场景,特斯拉的FSD正在进入弯路口,通过这里的时候,看到旁边有一个车子,现有算法下的特斯拉会认为有车子在等待通行,所以特斯拉自动驾驶车子会减速,但现实这是一个没有人在里面的奇怪停车。
这种场景估计任何脑洞大开的虚拟验证都不会想到,必须要有实际场景来识别这类corner case极端场景,所以自动驾驶真实场景数据的收割必须要有,而且还是动态发展的,不同时间,不同城市,不同文化的数据都会不一样。
所以特斯拉构建了一个工具去识别错误的判断并去纠正标签,并把这个片段归类为需要重新评估的系列。这个场景特斯拉把它诊断为挑战性的在转弯处有停车的场景,目前特斯拉识别了126个这样的场景,挖掘以及促进训练了1.39万视频数据,来提升预测准确性。
需要解决这类场景,特斯拉需要挖掘成千上万这种场景,而特斯拉可以利用数据采集车辆(客户的车,或者自己试验车),以及设备去采集和更正标签来解决这种琐碎的场景。
特斯拉把这种数据引擎框架实施到所有算法的持续优化中,特斯拉的数据引擎,是一个完整的从实验车型,虚拟验证,终端用户的流。无论它们是 3D多机位视频数据,是否人工标记 自动标记或模拟数据无论是离线模型还是在线模型。


特斯拉能够大规模的的使用数据引擎的基础设施为特斯拉的算法提供数据食物,的主要原因还有其庞大的车队:终端用户汽车影子模式传输客户使用FSD时候的介入信息,实验车队的再确认数据。
总结
看完这个特斯拉的算法,数据等结构之后,我的第一想法是“高级的码农玩的是思维方式和艺术结构,而不是按照规则去交付”。当然我肯定无法评价这个算法结构是好还是坏,但可以肯定的是特斯拉的智能驾驶算法是一种坚定的态度思维。
特斯拉的算法态度和思维是“基于视觉的人工智能算法,一定能够汽车或机器人自动驾驶和导航,犹如人类仅仅使用眼睛和大脑实现安全驾驶或行走到达目的地”。这种态度和思维如人工智能算法的数学基础“任意两点之间一定存在一条可以将他们连接起来的直线”。
当然特斯拉的最终理想是将此类算法拓展到AGI(Artificial general intelligence,通用人工智能( AGI ) 理解或学习人类可以完成的任何智力任务的能力。),让我们拭目以待,不过可以肯定的是这条道路必定是坎坷的,每一个人类基本上花大概18年才成年才具备进入社会独立的能力,而且一生都不断的接触新东西不断学习,所以何况是刚刚起步的人工智能。

参考文章以及图片


  1. 特斯拉AI Day视频

    *未经准许严禁转载和摘录-获取参考资料方式:

加入我们的知识星球Vehicle 可以下载公众号海量参考资料包含以上参考资料。

>>>>

相关推荐


  • Tesla 特斯拉AI day - 关于特斯拉机器人的进展和技术

  • Tesla AI Day -特斯拉自动驾驶FSD的进展和算法软件技术之算法

  • 保时捷IPO -给追梦人的汽车品牌的资本追梦

  • 2000TOPs的英伟达和高通要把智能汽车带向何方?

  • 大疆能否在智驾赛道“能上天”?

  • 安霸的智能汽车芯片软件布局和雄图

  • 芯片产业链101

  • 从大众新CEO的十个工作重点看大众汽车电气化,软件定义汽车的方向和方法

  • 芯片和操作系统 - 当前汽车供应链面临的关键问题思考

  • 五图看懂自动驾驶AI半导体生态链


Vehicle 不断奔跑才能应对变化,与汽车业内企业个人一起成长
评论
  • 2024年12月3日至5日,中国电信2024数字科技生态大会在广州举行,通过主题峰会、多场分论坛、重要签约及合作发布等环节,与合作伙伴共绘数字科技发展新愿景。紫光展锐作为中国电信的战略合作伙伴受邀参会,全面呈现了技术、产品创新进展,以及双方在多领域的合作成果。紫光展锐董事长马道杰受邀出席大会主论坛,并在大会期间发表视频致辞。  深化战略合作,共建数字未来马道杰董事长在视频致辞中指出,紫光展锐作为世界一流芯片设计企业,依托在芯片、通信和软硬件集成领域的深厚积累,与中国电信密切合
    紫光展锐 2024-12-05 14:04 40浏览
  • ~同等额定功率产品尺寸小一号,并保证长期稳定供应~全球知名半导体制造商ROHM(总部位于日本京都市)在其通用贴片电阻器“MCR系列”产品阵容中又新增了助力应用产品实现小型化和更高性能的“MCRx系列”。新产品包括大功率型“MCRS系列”和低阻值大功率型“MCRL系列”两个系列。在电子设备日益多功能化和电动化的当今世界,电子元器件的小型化和性能提升已成为重要课题。尤其是在汽车市场,随着电动汽车(xEV)的普及,电子元器件的使用量迅速增加。另外,在工业设备市场,随着设备的功能越来越多,效率越来越高,
    电子资讯报 2024-12-05 17:03 64浏览
  • 在电子工程领域,高速PCB设计是一项极具挑战性和重要性的工作。随着集成电路的迅猛发展,电路系统的复杂度和运行速度不断提升,对PCB设计的要求也越来越高。在这样的背景下,我有幸阅读了田学军老师所著的《高速PCB设计经验规则应用实践》一书,深感受益匪浅。以下是我从本书中学习到的新知识和经验分享,重点涵盖特殊应用电路的PCB设计、高速PCB设计经验等方面。一、高速PCB设计的基础知识回顾与深化 在阅读本书之前,我对高速PCB设计的基础知识已有一定的了解,但通过阅读,我对这些知识的认识得到了进一步的深
    金玉其中 2024-12-05 10:01 170浏览
  • 热电偶是zui常用的温度传感器类型。它们用于工业、汽车和消费应用。热电偶是自供电的,可以在很宽的温度范围内工作,并且具有快速的响应时间。热电偶是通过将两条不同的金属线连接在一起制成的。这会导致塞贝克效应。塞贝克效应是两种不同导体的温差在两种物质之间产生电压差的现象。正是这种电压差可以测量并用于计算温度。有几种类型的热电偶由各种不同的材料制成,允许不同的温度范围和不同的灵敏度。不同的类型由zhi定的字母区分。zui常用的是K型。热电偶的一些缺点包括测量温度可能具有挑战性,因为它们的输出电压小,需要
    锦正茂科技 2024-12-05 14:22 33浏览
  • DT640系列硅二极管温度传感器选用了专门适用于低温温度测量的硅二极管。相比普通硅二极管,具有重复性好、离散性小、精度更高温度范围更宽、低温下电压相对高而易于测量等特点。所有此款温度计都较好地遵循一个电压-温度(V-T)曲线,因而具有更好的可互换性。很多应用中都不需要单独的标定。DT640-BC型裸片温度计,相比市场上的其它温度计,具有尺寸更小、热容更小、响应时间更短的特点。在尺寸、热容以及响应时间有特殊要求的应用中具有du特的优势。   以下是二极管温度传感器的测
    锦正茂科技 2024-12-05 13:57 25浏览
  • 应用环境与客户需求蓝牙设备越来越普及,但在高密度使用环境下,你知道里面潜藏的风险吗?用户在使用蓝牙配件(如键盘、鼠标和耳机)时,经常面临干扰问题,这主要是因为蓝牙设备使用的2.4GHz频段与许多其他无线设备(如Wi-Fi、Thread等)重迭,导致频段拥挤,进而增加干扰的可能性。【常见干扰情境】客服中心:客服中心通常有大量的工作站,每个工作站可能都配备有蓝牙键盘、鼠标和耳机。由于这些设备都使用4GHz频段,客服中心内部的频段拥挤会增加讯号干扰的可能性。再加上中心内部可能有多个无线网络设备和其他电
    百佳泰测试实验室 2024-12-05 16:17 63浏览
  • 车前大灯总成是一个集成了多种灯光功能的复杂系统,由于功能需求不同,其内部的灯珠串联或并联的数量也会有所差异。通过采用BOOST CV+BUCK CC两级供电方式,大灯控制器能够更好地适应智能大灯系统的需求,确保在各种负载瞬态变化下,大灯都能获得稳定、合适的电力供应。在汽车上,电池提供的电压通常是12V或24V,但是车大灯可能需要一个更稳定、更适合它工作的电压。这时候,DC/DC Converter就派上用场了。它可以把电池提供的电压转换成车大灯需要的电压,确保车大灯能够稳定、明亮地发光。此时就需
    时源芯微 2024-12-04 17:46 30浏览
  • 这个设计的目标是产生一个隔离的DAC输出。12V供电,产生0~5V的输出。达到10000约13.3位的分辨率。要求DAC输出在改变设置后1S内能稳定。需要能长时间保持稳定和低噪声。能达到要求的DAC只能是14位以上的。价格较贵。通常是I2C或SPI接口,实现隔离需要多个通路。对于I2C接口,实现数据线双向隔离也有难度。考虑直接使用单片机PWM输出,配合光耦隔离,加上滤波实现。如图,PWM信号直接驱动光耦的二极管,PWM为高时,TL431被供电,产生 2.5V电压。PWM为低时,输出被下拉到地。这
    southcreek 2024-12-04 16:32 40浏览
  • 延续前一篇「抢搭智慧家庭生态圈热潮(一) 充满陷阱的产品介绍」系列文章,购买智能家电时需留意是否标有Works With Alexa (WWA)标章,然而,即使有了WWA标章后,产品难道就不会发生问题了吗?本篇由百佳泰将重点探讨在Alexa智能家居设备应用的实验中所遭遇到的问题。智能家庭隐忧浮现:智能家电APP使用状态不同步在先前的文章中,我们有提过建构Alexa智能家庭的三个主要元素:Alexa Built-in Devices(ABI)、Alexa Connected Device,以及Al
    百佳泰测试实验室 2024-12-05 15:26 37浏览
  • 在阅读了《高速PCB设计经验规则应用实践》后,对于PCB设计的布局经验有了更为深入和系统的理解。该书不仅详细阐述了高速PCB设计中的经验法则,还通过实际案例和理论分析,让读者能够更好地掌握这些法则并将其应用于实际工作中。布局是走线的基础,预先的规划再到叠层的选择,电源和地的分配,信号网络的走线等等,对布局方面也是非常的关注。布局规划的重要性: 在PCB设计中,布局规划是至关重要的一步。它直接影响到后续布线的难易程度、信号完整性以及电磁兼容性等方面。因此,在进行元件布局之前,我们必须对PCB的平
    戈壁滩上绽放 2024-12-05 19:43 63浏览
  • ①辐射发射测试(RE):评估电子、电气产品或系统在工作状态下产生的电磁辐射干扰程度,确保其不会干扰其他电子设备,同时可以确保产品的电磁辐射水平在安全范围内,从而保护用户免受电磁辐射的危害。消费类常见测试标准:EN55032 (RE&CE)、 CLASS A和CLASS B ②传导发射测试(CE):评估电子、电气产品或系统在工作状态下传导电磁骚扰的水平,是确保产品符合电磁兼容性(EMC)要求的重要步骤,保护其他设备免受干扰。常见测试标准:国标18655(RE&CE) 分为5个等级,常规的是过3等级
    时源芯微 2024-12-05 15:16 48浏览
  • RK3506单板机(卡片电脑)是一款高性能三核Cortex-A7处理器,内部集成Cortex-M0核心,RK3506单板机具有接口丰富、实时性高、显示开发简单、低功耗及多系统支持等特点,非常适合于工业控制、工业通信、人机交互等应用场景。 多核异构3xCortex-A7+Cortex-M0 外设接口丰富,板载网络、串口、CAN总线 支持Buildroot、Yocto系统,支持AMP混合部署 支持2D硬件加速,适用于轻量级HMI目前RK3506主要分为3种型号
    万象奥科 2024-12-05 16:59 64浏览
  • 本文介绍RK3566/RK3568开发板Android11系统,编译ROOT权限固件的方法。触觉智能Purple Pi OH鸿蒙开发板演示,搭载了瑞芯微RK3566四核处理器,Laval鸿蒙社区推荐开发板,已适配全新OpenHarmony5.0 Release系统,SDK源码全开放!关闭Selinux修改以下路径文件:adevice/rockchip/common/BoardConfig.mk修改代码如下:BOARD_BOOT_HEADER_VERSION ?= 2BOARD_MKBOOTIMG
    Industio_触觉智能 2024-12-05 10:27 26浏览
  • CS5466AUUSB-C  (2lanes)to HDMI2.1 8K@30HZ(4K@144) +PD3.1  CS5563DP  (4lanes) to HDMI2.1 10k@60Hz CS5565USB-C  (4lanes) to HDMI2.1 10k@60Hz CS5569USB-C (4lanes) to HDMI2.1 10k@60Hz +PD3.1CS5228ANDP++ to HDMI(4K
    QQ1540182856 2024-12-05 15:56 83浏览
  • 现在最热门的AI PC,泛指配备了人工智能AI的个人电脑,虽然目前的AI功能大多仅运用于增加个人电脑的运算力及用户使用体验。然而,各家AI PC厂商/品牌商却不约而同针对Webcam的AI功能大作文章,毕竟这是目前可以直接让消费者感受到、最显著、也是最有感觉的应用情境!目前各家推出Webcam 的AI功能包括有:● 背景虚化● 面部识别和追踪。● 自动调节● 虚拟化和滤镜● 安全和隐私面临的困境:惊吓大于惊喜的AI优化调校由于每款AI PC的相机都有自己的设定偏好及市场定位,一旦经过AI的优化调
    百佳泰测试实验室 2024-12-05 15:30 39浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦