上周,英特尔发布采用其10nm工艺的第三代至强可扩展处理器Ice Lake。本周一,被英特尔收购的以色列自动驾驶芯片公司Mobileye宣布与自动驾驶(AV)初创公司Udelv 合作,采用其EyeQ 5芯片和全栈AV系统平台开发无人驾驶货运车Transporters。
同样在本周一,英伟达发布基于Arm架构的数据中心处理器Grace,同时发布自动驾驶(AV)平台DRIVE Hyperion 8和AV芯片DRIVE Atlan(号称性能高达1000TOPS)。
在服务器CPU市场,Intel拥有超过90%的份额,AMD霄龙系列服务器CPU始终无法撼动Intel的地位。英伟达与Arm联合开发的Grace能否对抗英特尔?英伟达最高性能的自动驾驶芯片和平台能否胜过英特尔旗下的Mobileye?
在全球两大最高性能计算和最热门需求的市场上—数据中心和自动驾驶,英伟达开始正面对决英特尔。多年生活在英特尔阴影下的英伟达这次能否与英特尔平分秋色,称霸全球高性能计算(HPC)市场?在回答这个问题之前,让我们先看看两家公司各自的“当家武器”。
英伟达AV平台Hyperion 8和AV芯片DRIVE Atlan
英伟达CEO黄仁勋在GTU虚拟大会上宣布了DRIVE Atlan,这款计划2025年量产的下一代DRIVE SoC将提供高达1,000 TOPS的性能,集成有CPU、GPU和深度学习加速器(DLA),并为下一代AV提供最新的网络和安全性。
Nvidia自动驾驶芯片DRIVE Atlan。 (来源: Nvidia)
英伟达同时发布了自动驾驶开发平台DRIVE Hyperion 8,以及数字孪生仿真工具DRIVE Sim。该公司声称已经签署价值80亿美元的汽车合作开发协议,合作伙伴包括沃尔沃汽车、奔驰、蔚来、上汽、TuSimple、Zoox、Cruise、法拉第未来和VinFast等公司传统车厂及造车新势力。
DRIVE Hyperion 8 AV平台可以支持数据采集、AV开发和测试。(来源: Nvidia)
在英伟达发布的所有技术和产品中,EETimes汽车专栏作家和资深汽车行业分析师Egil Juliussen认为Hyperion 8可能是最有价值的。这个AV开发平台可能吸引更多汽车OEM厂商、自动驾驶初创公司和运输公司因为它可以极大地简化AV系统设计流程,并为未来产品的开发铺平道路。这类似于IC设计行业的开发系统,或者基于AI的自动驾驶行业的云计算平台。在主题演讲中,黄仁勋确实提到了分别与亚马逊AWS和Google Cloud达成的合作协议。
Drive Atlan展示出英伟达基于GPU持续提升其自动驾驶SoC的一贯做法,但Linley调研公司高级分析师Mike Demler注意到,英伟达似乎越来越早地宣布其未来处理器产品,这难道是让业界和竞争对手毫无喘息之力吗?Orin都还没有量产,他们现在又发布了下一代产品Atlan。Atlan原理图和1,000 TOPS性能规格可能只是顶层设计目标罢了。
Nvidia的DRIVE SoC规划图。(Source: Nvidia)
Mike Demler提出质疑,采用320 TOPS Xavier的Drive Pegasus是L5系统,然后Orin升级到400 TOP,现在Atlan更是跃升至1000 TOPS?英特尔旗下的Mobileye提供的同类AV芯片大约是“ TOPS”性能评级的1/10,而功耗却低得多,显然TOPS不是一个可靠的衡量标准。他补充道,赢得奔驰和沃尔沃的设计是很不错的,但是不到量产阶段就毫无意义。
Juliussen也表示认同,1,000 TOPS固然很好,但这几乎不可能达到。他认为TOPS应该代表极度乐观的处理器速度(Totally Optimistic Processor Speed),加上功耗才有意义。
Demler还对Atlan的SoC架构提出了质疑,英伟达希望Atlan一颗芯片就能集成仪表盘、信息娱乐、ADAS/AV、驾驶员监控(DMS),以及网络网关等全部汽车驾驶功能。在英伟达看来,汽车就是有轮子的服务器。但是,与数据中心不同的是,自动驾驶汽车没有无限的电力供应。现在尚不清楚将所有这些功能都集成在一块芯片上是否最好的方法,尽管英伟达会推出一系列Atlan芯片。
Mobileye采取系统级AV策略
英伟达如何领先汽车市场?凭借其完善的生态系统(硬件、软件和AI模型),以及性能不断提升的SoC。而Mobileye则采取系统级AV策略,其秘密武器是“真正的冗余(true redundancy)”。
与Mobileye合作的AV初创公司Udelv计划到2028年生产3.5万辆Transporter无人驾驶货运车,均采用Mobileye的全栈自动驾驶系统。据Udelv联合创始人兼CEO Daniel Laury称,他们最初采用百度的Apollo平台,但最终还是选择了Mobileye,主要是看重后者的“冗余自动驾驶”功能,因为这是“真正的冗余”。Mobileye还采用了一种独特的方法,将传感器分离为两个通道-一个用于摄像头,另一个用于雷达和激光雷达。其理念是让每个通道独立地证明各自的安全性,然后在将两个通道融合。相比之下,竞争对手的方法是部署互补性传感器,即从一开始就将它们融合在一起,以创建一个单一的模型。
Udelv的Transporter无人驾驶货运车采用Mobileye全栈自动驾驶系统。(来源: Udelv)
Udelv还喜欢Mobileye“道路体验管理”(REM)众包地图方案,可以支持广泛的地图覆盖范围。 Mobileye声称,他们每天可以绘制超过800万公里的道路,而且已经绘制了将近10亿公里的道路。该公司预计到2024年,每天可以绘制100万公里的地图。
英特尔至强Xeon处理器通吃云端、网络和智能边缘
据英特尔宣传,与前一代产品相比,最新的第三代至强可扩展处理器在主流数据中心工作负载上性能平均提升46%,同时增加了针对AI加速的深度学习加速技术(DL Boost)。采用10nm工艺的至强可扩展处理器可以加速云端、人工智能、企业端、高性能计算、网络、安全和边缘应用上的部署。
英特尔执行副总裁兼数据平台事业部总经理Navin Shenoy发布第三代英特尔至强可扩展处理器。(来源:Intel)
据英特尔2021年第一季度业绩显示,该处理器出货量已经超过20万颗。其中,全球范围内大型的云服务提供商即将部署服务,在50个独立OxM合作伙伴中有超过250个基于该处理器的设计,超过20个高性能计算(HPC)实验室和HPC即服务环境正在利用全新至强可扩展处理器。
英伟达基于 Arm 架构的数据中心 CPU 处理器“Grace”
在GTC2021大会上,英伟达 发布其首款基于 Arm 架构的数据中心 CPU 处理器“Grace”,在最复杂的 AI和高性能计算工作负载下,可实现 10 倍于当今最快服务器的超高性能。
分析认为,英伟达此举是直接挑战英特尔在服务器和数据中心计算领域的主导地位,因为发布会后,英特尔和AMD的股价应声下跌了几个百分点。
为什么要做这款CPU?
英伟达认为,AI模型的数据量和规模正在成倍增长。当今最大的AI模型包括数十亿个参数,并且每两个半月就会翻一番。训练它们需要一个新的CPU,可以与GPU紧密结合,以消除系统瓶颈。
英伟达创始人兼首席执行官黄仁勋表示,“NVIDIA Grace™ CPU 是超过10,000个工程年的成果,专为满足全球最先进应用的计算要求而设计。”—— 这些应用包括自然语言处理、推荐系统、AI 超级计算 —— 其所进行的海量数据分析需要超高速计算性能和大容量内存。
老黄仍然穿着他标志性的皮衣,在他们家标志性的厨房开着发布会。唯一的变化是头发长了,有人说“老黄这都是被缺货给愁的”
Grace这个名字来自美国海军少将、计算机编程先驱Grace Hopper。她是计算机科学的先驱之一,也是哈佛Mark 1的第一批程序员和第一个链接器的发明者。
Grace Hopper在20世纪50年代开创了计算机编程,发明了世界上第一个编译器,被称为“计算机软件工程第一夫人”。
这款CPU产品采用了Arm Neoverse核心,与低功耗内存子系统相结合,以高能效提供高性能。也有人认为,这英伟达是在收购Arm的关键时刻,英伟达表达诚意的一款作品。
“前沿的AI和数据科学正推动当今的计算机架构超越其极限,以处理规模难以想象的海量数据。NVIDIA 借助 Arm授权的 IP设计了 Grace,这是一款专为大规模AI和HPC设计的CPU。与GPU和DPU一起, Grace为我们提供了计算的第三种基础技术,以及为了推进AI发展重构数据中心的能力。NVIDIA现在是一家拥有三种芯片的公司。” 黄仁勋说到。
比 x86 CPU如何?
英伟达在新闻稿中描述,Grace是高度专业化的处理器,工作负载面向例如训练具有超过1万亿个参数的新一代NLP模型等。当与NVIDIA GPU紧密耦合时,搭载Grace CPU的系统速度比如今基于 NVIDIA DGX ™打造的最先进的系统(在 x86 CPU 上运行)快 10 倍。
在绝大多数数据中心由现有的CPU提供服务的同时,Grace将为计算的细分市场提供服务。
瑞士国家超级计算机中心 (CSCS) 和美国能源部洛斯阿拉莫斯国家实验室 (Los Alamos National Laboratory) 率先宣布计划构建搭载Grace的超级计算机,以支持国家科学研究工作。
NVIDIA推出Grace的背景是数据量和 AI 模型规模呈指数级增长。如今最大的 AI 模型包含数十亿个参数,并且参数数量每两个半月就会翻一番。训练这些模型需要一个与 GPU 紧密耦合的新 CPU,以消除系统瓶颈。
NVIDIA 利用 Arm 数据中心架构极大的灵活性构建了 Grace。通过推出新的服务器级 CPU,NVIDIA正在推进在AI和HPC领域中技术多样性的目标。在这些领域,更多选择是实现解决全球最迫切问题所需创新的关键。
Arm 首席执行官 Simon Segars 表示:“作为全球授权范围最广的处理器架构,Arm 每天正在以不可思议的新方式推动创新。NVIDIA 推出Grace 数据中心 CPU 明确表明Arm的授权模式如何促进一项重要创新,这将进一步支持世界各地 AI 研究人员和科学家们非凡的工作。”
Grace 的首批使用者
CSCS 和洛斯阿拉莫斯国家实验室计划将于 2023 年推出由慧与(Hewlett-Packard Enterprise)构建的、搭载Grace的Alps系统。该系统采用新的 HPE Cray EX 超级计算机产品线以及 NVIDIA HGX 超级计算平台,除了全新的Grace CPU,还包括 NVIDIA GPU 和 NVIDIA HPC SDK 。
CSCS 总监 Thomas Schulthess教授表示:“利用 NVIDIA 全新的 Grace CPU,使得我们能将 AI 技术和传统的超级计算融合在一起,来解决计算科学领域一些最难的问题。我们很高兴能够向我们的瑞士和全球用户提供这款全新 NVIDIA CPU,用于处理分析海量和复杂的科学数据集。”
洛斯阿拉莫斯国家实验室主任 Thom Mason 表示:“通过创新地平衡内存带宽和容量,新一代系统将重塑我们机构的计算策略。凭借 NVIDIA 全新 Grace CPU,我们可以在比以前更大的数据集上完成高逼真度3D仿真和分析,从而进行先进的科学研究工作。”
Alps 系统是新一代超级计算机中的一员,将取代 CSCS 现有的 Piz Daint 超级计算机。新一代超级计算机利用 GPU 加速的深度学习技术,将超级计算扩展到传统的建模和模拟领域之外。
Thomas Schulthess 表示:“深度学习只是我们添加到工具箱中的一组功能非常强大的工具而已。”
Alps 利用 NVIDIA CPU 和 GPU 之间的紧密耦合,预计仅需两天就能训练出全球最大的自然语言处理模型 GPT-3,比 NVIDIA 的 2.8-AI exaflops Selene 超级计算机快 7 倍。Selene 超级计算机目前被 MLPerf 认定为世界领先的 AI 超级计算机。
CSCS 用户能够将这种超强的 AI 性能广泛地应用到从自然语言理解中获益的新兴科学研究。例如,这包括分析和理解科学论文中提供的海量知识,以及生成用于药物发现的新分子。
实现性能突破
据英伟达方面资料,Grace基于第四代 NVIDIA NVLink® 互联技术,该技术在Grace和 NVIDIA GPU 之间提供创纪录的 900 GB/s 连接速度,使总带宽比当今领先的服务器高 30 倍。从CPU到CPU的速度超过600GB/s。
Grace 还将利用创新的 LPDDR5x 内存子系统,该子系统的带宽是 DDR4 内存的两倍,能效达 DDR4 的 10 倍。此外,新架构提供单一内存地址空间的缓存一致性,将系统和 HBM GPU 内存相结合,以简化可编程性。
Grace将获得 NVIDIA HPC软件开发套件以及全套 CUDA® 和 CUDA-X™ 库的支持,可以对 2,000 多个 GPU 应用程序加速,使得应对全球重大挑战的科学家和研究人员探索速度更快。
本文综合自:EE Times专栏文章Huang Harangue Heralds AV "Trillions" by Junko Yoshida
责编:Luffy Liu
