为了自家的汽车,特斯拉真是什么都能做,先是自己开发了全自动驾驶芯片FSD,为了加强机器学习能力,近日又公布了自研的新型超级计算机。新机器是特斯拉的第三个超级计算机集群,为还未发布的超级计算机Dojo(发音源自日语,意为 “道场”)的原型机)。性能上,就每秒浮点运算 (FLOPS)而言,它是世界上排名第五的超级计算机……

为了自家的汽车,特斯拉真是什么都能做,先是自己开发了全自动驾驶芯片FSD,为了加强机器学习能力,近日又公布了自研的新型超级计算机。

新机器是特斯拉的第三个超级计算机集群,为还未发布的超级计算机Dojo(发音源自日语,意为 “道场”)的Prototype(原型机)。性能上,就每秒浮点运算 (FLOPS)而言,它是世界上排名第五的超级计算机。

一切顺利的话,超级计算机Dojo将超越目前世界排名第一的日本超级计算机富岳(Fugaku,富士山的别名)。

Dojo PPT参数曝光

以上消息来自特斯拉人工智能与自动驾驶视觉总监(Director of AI and Autopilot Vision) Andrej Karpathy 在2021 年计算机视觉和模式识别会议 (CVPR 2021)上所作的报告。在2019年的特斯拉自动驾驶开放日(Autonomy Day)上,特斯拉CEO埃隆·马斯克(Elon Musk)曾“剧透”了Dojo项目——专门用于大规模的图像和视频数据处理,其浮点运算能力达到了每秒百万万亿次(exaFLOP)级别。

Karpathy谈论新的超级计算机

超级计算机通常是体量巨大、造价高昂的设备,拥有数以万计的处理器,旨在执行专业性强、计算密集型的任务,可完成极端尺度的宇宙模拟、为药物反应预测寻找新途径、发现可用于制造高效有机太阳能电池的新材料等任务,应用于人工智能、生物医药和智慧城市建设等多个领域。

Andrej Karpathy是计算机视觉和深度学习领域的顶级专家之一,博士毕业于斯坦福AI实验室,师从华人AI学者李飞飞。Karpathy的主要研究方向是卷积神经网络结构,自然语言处理,以及其在计算机视觉上的应用。

Karpathy表示,“我们展示的是使用720个80GB版本的8x A100节点构建的集群。这是一台巨大的超级计算机,就每秒浮点(FLOPS)运算次数而言,我认为它可能是全球第五的超级计算机。第五位目前由英伟达公司的 Selene 集群占据,该集群拥有非常相似的架构和类似的 GPU 数量(4480个,比特斯拉的5760个少一点)”。

他于论坛中公布了新超级计算机的能力:总算力达1.8 EFLOPS(EFLOPS指每秒百亿亿次浮点运算),由5760个算力为321TFLOPS(TFLOPS指每秒万亿次浮点运算)的A100显卡组成720个节点,有10PB的存储空间,读写速度为1.6TBps。

  • 720个80GB 8x A100 节点(共5760 个GPU);  
  • 1.8 EFLOPS(720节点* 312 TFLOPS-FP16-A100 * 8 gpu/节点);  
  • 10 PB“热层”NVME存储@ 1.6 TBps;  
  • 总交换容量为640 Tbps。

一家汽车生产商为什么要做超级计算机?

Karpathy解释道,如果想要让计算机以人类的方式对新环境做出反应,需要一个巨大的数据集,以及超级计算机的处理能力。“ 我们有一个神经网络架构网络和一个1.5 PB的数据集,需要大量的计算。对我们而言,计算机视觉是使自动驾驶成为可能的基本要素。为了让其更好地工作,我们需要掌握来自车队的数据,训练大量的神经网络,并进行大量实验。”

这样做能够利用从整个车队收集来的数据训练和改进特斯拉自动驾驶功能(Autopilot),为下一代自动驾驶人工智能(AI)提供动力的神经网络。这也是为什么这个超算机群取名为“道场”的原因,在中文里翻译为训练场更合适,这个训练场就是专门用来训练特斯拉汽车的。

而在所有自动驾驶公司中,特斯拉尤为需要超级计算机。

目前,全球自动驾驶领域主要分为两派,即纯视觉路线与高精地图+雷达路线。后者认为,多传感器与摄像头可以优势互补,更可依靠高精度地图与多激光雷达来完成全自动驾驶。而作为纯视觉路线领头者的特斯拉,则坚定的认为,纯视觉是唯一正确的出路。

马斯克主张采用纯视觉的自动驾驶方法,其依靠摄像头和机器学习来支持其高级驾驶辅助系统和自动驾驶,而非采用激光雷达(LiDAR)、摄像头和雷达。在纯视觉自动驾驶方法下想改进这套自动驾驶AI达到足够的可靠性,自研适应计算需要的超级计算机便极为必要。

马斯克推文:“当雷达和摄像头不一致时,你相信哪一个?视觉的精度要高得多,所以比多传感器融合更加可靠。”

有望减少特斯拉车主反馈的问题

Dojo超算的人工智能还会自动标记物体,通过它可以自动标记车辆在特斯拉相机上拍摄的数百万视频中的道路危险和其他物体。之前的大型 AI 数据集通常需要大量手动标记,这非常耗时,而Dojo将配合无监督学习算法(unsupervised learning,即无需人工对训练数据集进行标注,系统可以自行根据样本间的统计规律对样本集进行分析。如不给任何额外提示的情况下,仅依据一定数量“狗”的图片特征,将“狗”的图片区分出来),来减少特斯拉对于数据人工标注的工作量,进而帮助其数据训练效率实现指数级提升。

这些数据包括信号灯、车道线、动物、行人、天气、马路牙子、指示牌、路灯、桩桶、可行车区域、不可行车区域等等,通过8个摄像完成360度环影,以鸟瞰的方式来展示一个4D视图(三维空间+时间戳)。目前已经解决了之前特斯拉车主反馈较多的一些问题,比如:

  • 桥下阴影造成的无故刹车;
  • 高速跟车时,自动刹车踩得太死;
  • 遇到路边占用部分车道停放车辆的规避问题。

另外,特斯拉车辆并不会将每分每秒的视频数据都发送给Dojo,也不会随机发送视频数据,更多的情况是发送一个“案例”(10秒)。比如在Autopilot驾驶时,驾驶员突然介入,改为人工驾驶,Dojo就会分析这个视频案例,试图找出驾驶员中断Autopilot的原因,又或者司机在高速路上突然刹车、堵车时有人插队、雷达与摄像头判断结果不一致、车辆发生事故/险些发生事故等等,将这些具体的案例,交给Dojo来分析。

 

在演示中,Karpathy还展示了被称为踏板误用纠正的功能:当车辆检测到前方有行人或者道路变窄的情况时,当驾驶员把油门当做刹车踩下,车辆则不会加速。

这项功能推出后不知道那些关于特斯拉失控的报道会不会有所减少……

马斯克立下Flag:世界第一超算

“Dojo使用我们自己的芯片和针对神经网络训练而优化的计算机架构,而不是GPU集群。如果我没弄错,这将是世界上最好的,”马斯克在2019年的特斯拉自动驾驶开放日(AutonomyDay)上曾这样说到。

 

2020年,马斯克在推特(Twitter)发文表示,特斯拉的Dojo超级计算机能够实现每秒千万亿次浮点运算(1000 PFLOPS),这将使得Dojo成为一款真正的尖端超级计算机。马斯克称,特斯拉未来的Dojo超级计算机算力将要达到每秒钟exaFLOP(百亿亿次,是千万亿次PFLOPS的1000倍)的级别,并且运算速度要超过富岳(Fugaku),成为世界第一。

2020超级计算大会(SC20)的测算数据显示,日本的富岳是世界上速度最快的超级计算机,浮点计算的峰值速度达到442PFLOPS(PFLOPS指的是每秒1千万亿次浮点运算),最高性能超过1000 PFLOPS。在机器学习应用上的算力超频之后是2.15EFLOPS,默频是1.95EFLOPS。

不过与其他使用显卡的超算不同,“富岳”使用的是基于Arm架构的A64FX处理器。

  2020超级计算大会(SC20):日本超级计算机“富岳”世界第一,美国的 Summit 位列第二,第三是美国的Sierra,第四为中国的“神威·太湖之光” ,第五位是美国的Selene。

Karpathy不愿详细介绍Dojo项目,但他表示,与特斯拉目前的集群相比,Dojo将是一台更适合神经网络训练的超级计算机。目前,特斯拉已开始向纯视觉自动驾驶路线转变,甚至从上月开始,部分在北美生产的特斯拉车型,已停止安装雷达传感器,而全新的FSD Beta V9.0(完全自动驾驶测试版)也将在近期更新,而这一切的背后,都离不开Dojo。

马斯克此前还表示,特斯拉计划最终将其超级计算机服务提供给其他公司,以便这些公司训练自己的神经网络。

责编Luffy Liu

本文内容参考特斯拉新闻发布会视频、马斯克Twitter、澎湃新闻、盖世汽车

 

阅读全文,请先
您可能感兴趣
CXL的目标主要是为了解决CPU和设备、设备和设备之间的内存鸿沟,解决内存分割造成的较大浪费、不便和性能下降。目前来看,高性能计算、存储加速、AI加速、大规模虚拟化,是最适于CXL应用的领域。
对于股价波动的原因,寒武纪表示,除了公司经营层面的因素外,还可能受到其他因素的影响。寒武纪还提醒投资者,应甄别信息来源,具体情况以公司公告为准。
Xockets认为,英伟达凭借侵犯该企业专利的DPU产品垄断了AI GPU服务器市场,而微软则垄断了支持GPU的AI平台领域。此外,Xockets还称这两家科技公司就授权费建立了垄断同盟。
OpenAI认为,在美国建设更多基础设施对于推进人工智能并使其优势广泛普及至关重要。
英伟达的CUDA生态系统和高性能AI GPU仍将作为核心竞争力,但要支撑其像以往那样的飞速的发展态势,必然要面临更大的挑战,或者已到增长的天花板。
CXL的内存缓存一致性不但允许CPU和加速器共享内存资源,还能实现部署新的内存层,帮助弥合主内存和固态硬盘存储之间的延迟差距。这些新内存层会增加带宽的容量,提供更高效率,并降低总拥有成本。这就是业界正在坚定地将CXL作为处理器、内存和加速器的高速缓存一致性互连技术的根本原因所在。
• 得益于西欧、关键亚洲市场和拉丁美洲市场的增长,以及中国品牌的持续领先,全球折叠屏手机出货量在2024年第二季度同比增长了48%。 • 荣耀凭借其在西欧特别强劲的表现,成为最大的贡献者,成为该地区排名第一的品牌。 • 摩托罗拉的Razr 40系列在北美和拉丁美洲表现良好,为其手机厂商的出货量贡献了三位数的同比增长。 • 我们预计,头部中国手机品牌厂商的不断增加将至少在短期内抑制三星Z6系列在第三季度的发布。
AI技术的发展极大地推动了对先进封装技术的需求,在高密度,高速度,高带宽这“三高”方面提出了严苛的要求。
奕斯伟计算2024首届开发者伙伴大会以“绿色、开放、融合”为主题,从技术创新、产品应用、生态建设等方面,向开发者、行业伙伴等相关方发出开放合作倡议,加速RISC-V在各行各业的深度融合和应用落地,共同推动RISC-V新一代数字基础设施生态创新和产业发展。
2024年 Canalys 中国云计算渠道领导力矩阵冠军厂商分别是:阿里云、华为云和亚马逊云科技(AWS)
在全球智能手机竞争日益激烈的情况下,谁能在高端市场站稳脚跟,谁就占据了主动权。一直以来全球智能手机市场格局都是,苹果专吃高端,其他各大厂商分食全球中低端市场。但现在市场正在其变化。根据Canalys最
文|沪上阿YI路特斯如今处在一个什么样的地位?吉利控股集团高级副总裁、路特斯集团首席执行官冯擎峰一直有着清晰的认知:“这个品牌的挑战依然非常大。首先,整个中国市场豪华汽车整体数据下滑了30%~40%,
‍‍近期,IC 设计大厂联发科宣布了2024年上半年度的员工分红计划,与8月份薪资一起发放。据外界估算,按照上半年税前盈余约648.66亿新台币(约 144.42 亿元人民币)进行估算,此次分红总额接
会议预告向世界展示中国最具创新力、领导力和品牌化的产品与技术!9月27号,“第6届国际移动机器人集成应用大会暨复合机器人峰会”将在上海举行,敬请关注!逐个击破现有痛难点。文|新战略半导体行业高标准、灵
近日,又一国产SiC企业宣布实现了主驱突破,并将出口海外。据“行家说三代半”的追踪统计,自2022年起,国内主驱级SiC器件/模块开始在多款车型中得到应用,尤其是2024年,本土供应商的市场份额显著上
‍‍据龙芯中科介绍,近日,基于龙芯3A6000处理器的储迹NAS在南京师范大学附属小学丹凤街幼儿园、狮山路小学、南京大学附属中学等学校相继落地。储迹NAS是基于最新的龙芯CPU--3A6000,其代表
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了骄成超声等十余家企业,深入了
8月28-30日,PCIM Asia 2024展在深圳举行。“行家说”进行了为期2天的探馆,合计报道了200+碳化硅相关参展企业(.点这里.)。其中,“行家说”还重点采访了长飞先进等众多企业,深入了解
9月6日,“智进AI•网易数智创新企业大会”在秦皇岛正式举行,300+企业高管及代表、数字化技术专家齐聚一堂,探讨当AI从技术探索迈入实际应用,如何成为推动组织无限进化的新引擎。爱分析创始人兼CEO金