在全球服务器CPU市场,Intel拥有超过90%的份额。英伟达与Arm联合开发的Arm架构服务器CPU Grace能否对抗英特尔至强处理器?英伟达最高性能的自动驾驶平台DRIVE Hyperion 8和AV芯片DRIVE Atlan能否胜过英特尔旗下的Mobileye?

上周,英特尔发布采用其10nm工艺的第三代至强可扩展处理器Ice Lake。本周一,被英特尔收购的以色列自动驾驶芯片公司Mobileye宣布与自动驾驶(AV)初创公司Udelv 合作,采用其EyeQ 5芯片和全栈AV系统平台开发无人驾驶货运车Transporters。

同样在本周一,英伟达发布基于Arm架构的数据中心处理器Grace,同时发布自动驾驶(AV)平台DRIVE Hyperion 8和AV芯片DRIVE Atlan(号称性能高达1000TOPS)。

在服务器CPU市场,Intel拥有超过90%的份额,AMD霄龙系列服务器CPU始终无法撼动Intel的地位。英伟达与Arm联合开发的Grace能否对抗英特尔?英伟达最高性能的自动驾驶芯片和平台能否胜过英特尔旗下的Mobileye?

在全球两大最高性能计算和最热门需求的市场上—数据中心和自动驾驶,英伟达开始正面对决英特尔。多年生活在英特尔阴影下的英伟达这次能否与英特尔平分秋色,称霸全球高性能计算(HPC)市场?在回答这个问题之前,让我们先看看两家公司各自的“当家武器”。

英伟达AV平台Hyperion 8和AV芯片DRIVE Atlan

英伟达CEO黄仁勋在GTU虚拟大会上宣布了DRIVE Atlan,这款计划2025年量产的下一代DRIVE SoC将提供高达1,000 TOPS的性能,集成有CPU、GPU和深度学习加速器(DLA),并为下一代AV提供最新的网络和安全性。

Nvidia自动驾驶芯片DRIVE Atlan。 (来源: Nvidia)

英伟达同时发布了自动驾驶开发平台DRIVE Hyperion 8,以及数字孪生仿真工具DRIVE Sim。该公司声称已经签署价值80亿美元的汽车合作开发协议,合作伙伴包括沃尔沃汽车、奔驰、蔚来、上汽、TuSimple、Zoox、Cruise、法拉第未来和VinFast等公司传统车厂及造车新势力。

DRIVE Hyperion 8 AV平台可以支持数据采集、AV开发和测试。(来源: Nvidia)

在英伟达发布的所有技术和产品中,EETimes汽车专栏作家和资深汽车行业分析师Egil Juliussen认为Hyperion 8可能是最有价值的。这个AV开发平台可能吸引更多汽车OEM厂商、自动驾驶初创公司和运输公司因为它可以极大地简化AV系统设计流程,并为未来产品的开发铺平道路。这类似于IC设计行业的开发系统,或者基于AI的自动驾驶行业的云计算平台。在主题演讲中,黄仁勋确实提到了分别与亚马逊AWS和Google Cloud达成的合作协议。

Drive Atlan展示出英伟达基于GPU持续提升其自动驾驶SoC的一贯做法,但Linley调研公司高级分析师Mike Demler注意到,英伟达似乎越来越早地宣布其未来处理器产品,这难道是让业界和竞争对手毫无喘息之力吗?Orin都还没有量产,他们现在又发布了下一代产品Atlan。Atlan原理图和1,000 TOPS性能规格可能只是顶层设计目标罢了。

Nvidia的DRIVE SoC规划图。(Source: Nvidia)

Mike Demler提出质疑,采用320 TOPS Xavier的Drive Pegasus是L5系统,然后Orin升级到400 TOP,现在Atlan更是跃升至1000 TOPS?英特尔旗下的Mobileye提供的同类AV芯片大约是“ TOPS”性能评级的1/10,而功耗却低得多,显然TOPS不是一个可靠的衡量标准。他补充道,赢得奔驰和沃尔沃的设计是很不错的,但是不到量产阶段就毫无意义。

Juliussen也表示认同,1,000 TOPS固然很好,但这几乎不可能达到。他认为TOPS应该代表极度乐观的处理器速度(Totally Optimistic Processor Speed),加上功耗才有意义。

Demler还对Atlan的SoC架构提出了质疑,英伟达希望Atlan一颗芯片就能集成仪表盘、信息娱乐、ADAS/AV、驾驶员监控(DMS),以及网络网关等全部汽车驾驶功能。在英伟达看来,汽车就是有轮子的服务器。但是,与数据中心不同的是,自动驾驶汽车没有无限的电力供应。现在尚不清楚将所有这些功能都集成在一块芯片上是否最好的方法,尽管英伟达会推出一系列Atlan芯片。

Mobileye采取系统级AV策略

英伟达如何领先汽车市场?凭借其完善的生态系统(硬件、软件和AI模型),以及性能不断提升的SoC。而Mobileye则采取系统级AV策略,其秘密武器是“真正的冗余(true redundancy)”。

与Mobileye合作的AV初创公司Udelv计划到2028年生产3.5万辆Transporter无人驾驶货运车,均采用Mobileye的全栈自动驾驶系统。据Udelv联合创始人兼CEO Daniel Laury称,他们最初采用百度的Apollo平台,但最终还是选择了Mobileye,主要是看重后者的“冗余自动驾驶”功能,因为这是“真正的冗余”。Mobileye还采用了一种独特的方法,将传感器分离为两个通道-一个用于摄像头,另一个用于雷达和激光雷达。其理念是让每个通道独立地证明各自的安全性,然后在将两个通道融合。相比之下,竞争对手的方法是部署互补性传感器,即从一开始就将它们融合在一起,以创建一个单一的模型。

Udelv的Transporter无人驾驶货运车采用Mobileye全栈自动驾驶系统。(来源: Udelv)

Udelv还喜欢Mobileye“道路体验管理”(REM)众包地图方案,可以支持广泛的地图覆盖范围。 Mobileye声称,他们每天可以绘制超过800万公里的道路,而且已经绘制了将近10亿公里的道路。该公司预计到2024年,每天可以绘制100万公里的地图。

英特尔至强Xeon处理器通吃云端、网络和智能边缘

据英特尔宣传,与前一代产品相比,最新的第三代至强可扩展处理器在主流数据中心工作负载上性能平均提升46%,同时增加了针对AI加速的深度学习加速技术(DL Boost)。采用10nm工艺的至强可扩展处理器可以加速云端、人工智能、企业端、高性能计算、网络、安全和边缘应用上的部署。

英特尔执行副总裁兼数据平台事业部总经理Navin Shenoy发布第三代英特尔至强可扩展处理器。(来源:Intel)

据英特尔2021年第一季度业绩显示,该处理器出货量已经超过20万颗。其中,全球范围内大型的云服务提供商即将部署服务,在50个独立OxM合作伙伴中有超过250个基于该处理器的设计,超过20个高性能计算(HPC)实验室和HPC即服务环境正在利用全新至强可扩展处理器。

英伟达基于 Arm 架构的数据中心 CPU 处理器“Grace”

在GTC2021大会上,英伟达 发布其首款基于 Arm 架构的数据中心 CPU 处理器“Grace”,在最复杂的 AI和高性能计算工作负载下,可实现 10 倍于当今最快服务器的超高性能。

分析认为,英伟达此举是直接挑战英特尔在服务器和数据中心计算领域的主导地位,因为发布会后,英特尔和AMD的股价应声下跌了几个百分点。

 

 

为什么要做这款CPU?

英伟达认为,AI模型的数据量和规模正在成倍增长。当今最大的AI模型包括数十亿个参数,并且每两个半月就会翻一番。训练它们需要一个新的CPU,可以与GPU紧密结合,以消除系统瓶颈。

英伟达创始人兼首席执行官黄仁勋表示,“NVIDIA Grace™ CPU 是超过10,000个工程年的成果,专为满足全球最先进应用的计算要求而设计。”—— 这些应用包括自然语言处理、推荐系统、AI 超级计算 —— 其所进行的海量数据分析需要超高速计算性能和大容量内存。

老黄仍然穿着他标志性的皮衣,在他们家标志性的厨房开着发布会。唯一的变化是头发长了,有人说“老黄这都是被缺货给愁的”

Grace这个名字来自美国海军少将、计算机编程先驱Grace Hopper。她是计算机科学的先驱之一,也是哈佛Mark 1的第一批程序员和第一个链接器的发明者。

Grace Hopper在20世纪50年代开创了计算机编程,发明了世界上第一个编译器,被称为“计算机软件工程第一夫人”。

这款CPU产品采用了Arm Neoverse核心,与低功耗内存子系统相结合,以高能效提供高性能。也有人认为,这英伟达是在收购Arm的关键时刻,英伟达表达诚意的一款作品。

“前沿的AI和数据科学正推动当今的计算机架构超越其极限,以处理规模难以想象的海量数据。NVIDIA 借助 Arm授权的 IP设计了 Grace,这是一款专为大规模AI和HPC设计的CPU。与GPU和DPU一起, Grace为我们提供了计算的第三种基础技术,以及为了推进AI发展重构数据中心的能力。NVIDIA现在是一家拥有三种芯片的公司。” 黄仁勋说到。

比 x86 CPU如何?

英伟达在新闻稿中描述,Grace是高度专业化的处理器,工作负载面向例如训练具有超过1万亿个参数的新一代NLP模型等。当与NVIDIA GPU紧密耦合时,搭载Grace CPU的系统速度比如今基于 NVIDIA DGX ™打造的最先进的系统(在 x86 CPU 上运行)快 10 倍。

在绝大多数数据中心由现有的CPU提供服务的同时,Grace将为计算的细分市场提供服务。

瑞士国家超级计算机中心 (CSCS) 和美国能源部洛斯阿拉莫斯国家实验室 (Los Alamos National Laboratory) 率先宣布计划构建搭载Grace的超级计算机,以支持国家科学研究工作。

NVIDIA推出Grace的背景是数据量和 AI 模型规模呈指数级增长。如今最大的 AI 模型包含数十亿个参数,并且参数数量每两个半月就会翻一番。训练这些模型需要一个与 GPU 紧密耦合的新 CPU,以消除系统瓶颈。

NVIDIA 利用 Arm 数据中心架构极大的灵活性构建了 Grace。通过推出新的服务器级 CPU,NVIDIA正在推进在AI和HPC领域中技术多样性的目标。在这些领域,更多选择是实现解决全球最迫切问题所需创新的关键。

 Arm 首席执行官 Simon Segars 表示:“作为全球授权范围最广的处理器架构,Arm 每天正在以不可思议的新方式推动创新。NVIDIA 推出Grace 数据中心 CPU 明确表明Arm的授权模式如何促进一项重要创新,这将进一步支持世界各地 AI 研究人员和科学家们非凡的工作。”

Grace 的首批使用者

CSCS 和洛斯阿拉莫斯国家实验室计划将于 2023 年推出由慧与Hewlett-Packard Enterprise构建的、搭载Grace的Alps系统。该系统采用新的 HPE Cray EX 超级计算机线以及 NVIDIA HGX 超级计算平台除了全新的Grace CPU包括 NVIDIA GPU 和 NVIDIA HPC SDK 。

CSCS 总监 Thomas Schulthess教授表示:“利用 NVIDIA 全新的 Grace CPU,使得我们能将 AI 技术和传统的超级计算融合在一起,来解决计算科学领域一些最难的问题。我们很高兴能够向我们的瑞士和全球用户提供这款全新 NVIDIA CPU,用于处理分析海量和复杂的科学数据集。”

洛斯阿拉莫斯国家实验室主任 Thom Mason 表示:“通过创新地平衡内存带宽和容量,新一代系统将重塑我们机构的计算策略。凭借 NVIDIA 全新 Grace CPU,我们可以在比以前更大的数据集上完成高逼真度3D仿真和分析,从而进行先进的科学研究工作。”

Alps 系是新一代超级计算机中的一将取代 CSCS 有的 Piz Daint 超级计算机新一代超级计算机利用 GPU 加速的深度学,将超级计展到传统的建模和模拟领域之外

Thomas Schulthess 表示:深度学只是我添加到工具箱中的一功能非常强大的工具而已。

Alps 利用 NVIDIA CPU 和 GPU 之密耦合,预计仅需两天就能训练出全球最大的自然理模型 GPT-3,比 NVIDIA 的 2.8-AI exaflops Selene 超级计算机快 7 倍Selene 超级计算机目前被 MLPerf 世界先的 AI 超级计算机

CSCS 用能够将种超强的 AI 性能广泛地用到从自然言理解中益的新兴科学研究例如,包括分析和理解科学文中提供的海量知,以及生成用于发现的新分子

实现性能突破

据英伟达方面资料,Grace基于第四代 NVIDIA NVLink® 互联技术,该技术在Grace和 NVIDIA GPU 之间提供创纪录的 900 GB/s 连接速度,使总带宽比当今领先的服务器高 30 倍。从CPU到CPU的速度超过600GB/s。

Grace 还将利用创新的 LPDDR5x 内存子系统,该子系统的带宽是 DDR4 内存的两倍,能效达 DDR4 的 10 倍。此外,新架构提供单一内存地址空间的缓存一致性,将系统和 HBM GPU 内存相结合,以简化可编程性。

Grace将获得 NVIDIA HPC软件开发套件以及全套 CUDA® 和 CUDA-X™ 库的支持,可以对 2,000 多个 GPU 应用程序加速,使得应对全球重大挑战的科学家和研究人员探索速度更快。

本文综合自:EE Times专栏文章Huang Harangue Heralds AV "Trillions" by Junko Yoshida

责编:Luffy Liu

阅读全文,请先
您可能感兴趣
凭借先进的3nm制程工艺和SoIC-MH封装技术,M5芯片在性能、能效和AI能力上均实现了显著提升。首批搭载M5芯片的设备陆续上市......
随着AI模型规模越来越大,所需的训练硬件也需同步升级。然而,目前缺乏一种开放的互连标准来支持AI加速器间的高效通信。
最近发布的GeForce RTX 5080显卡晶体管数量、die size相比前代RTX 4080都没什么大变化,这真的能有性能提升吗?
基于Lunar Lake的ThinkPad X1 Carbon笔记本重量就只有984g,如果拿这台笔记本和几年前重达2kg的游戏本比玩游戏谁更强,会怎样?
欧洲在1nm和光芯片技术上的试验线启动,将有助于缩小研究与制造之间的差距,并推动整个半导体生态系统的发展。
过去四年里,美国电子制造业的投资额已经超过此前三十年的总和,整体规划投资约达4500亿美元,堪称美国史上规模最大的半导体制造扩张。
全球人形机器人领域上市公司的百强名单将人形机器人产业链区分为大脑、身体以及集成三大核心环节,覆盖全球共计100家上市公司。中国共37家企业上榜(中国大陆32家,台湾5家),其中深圳7家,占中国大陆上榜企业近四分之一,包括比亚迪、腾讯、优必选、速腾聚创、雷赛智能、兆威机电、汇川技术等......
DeepSeek模型虽降低AI训练成本,但AI模型的低成本化可望扩大应用场景,进而增加全球数据中心建置量。光收发模块作为数据中心互连的关键组件,将受惠于高速数据传输的需求。未来AI服务器之间的数据传输,都需要大量的高速光收发模块......
凭借新一代3nm制程工艺与全新架构,骁龙® 8至尊版的单核和GPU 性能提升均超过 40%,使得Find N5在性能上实现质的飞跃……
简化物联网连接:应用就绪型软件构建模块
2月10日,市场调查机构 IDC 发文称,2024 年全年中国平板电脑市场出货量为 2985 万台,同比增长 4.3%,市场迎来回暖。报道称, 2024 年第 4 季度市场出货量为 786 万台,受库
据业内人士2月11日透露,三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是,每周平均工作超过52小时的员工可获得三天带薪休假,每周工作超过60小时的员工可获得六天带薪休假。上个月,三星显示
2月10日消息,天眼查App显示,近日,杉杉控股有限公司发生工商变更,周婷卸任法定代表人,并由董事长变更为董事;周顺和接任法定代表人并担任董事长;孙伟卸任董事职务。 2月7日,杉杉集团在宁波市鄞州区人
据业内人士2月11日透露,三星显示器近期限时推出名为“平衡假期”的特别假期。具体内容是,每周平均工作超过52小时的员工可获得三天带薪休假,每周工作超过60小时的员工可获得六天带薪休假。上个月,三星显示
据IT业界9日报道,苹果公司最近进入了“可折叠iPhone”零部件供应商选择的最后阶段,据观察,三星显示器已决定独家供应初期面板量。据悉,三星将供应约1500万至2000万片,并将于明年5月开始量产,
2月10日盘后,光峰科技发布公告,于近日收到某知名车企出具的开发定点通知书,将为其旗下新时代科技品牌的SUV车型供应智能座舱显示产品,预计2025年内量产供货。光峰科技认为,随着消费者对智能座舱需求的
恩智浦 NXP 荷兰当地时间昨日宣布已同边缘 NPU 企业 Kinara 达成最终协议,计划以 3.07 亿美元现金收购后者。这笔交易预计将于 2025 上半年完成,但须满足包括监管部门批准在内的惯例
近日,摩根士丹利发布了题为《The Humanoid 100: Mapping the Humanoid Robot Value Chain》的报告,该报告公布了全球人形机器人产业链百强企业榜单。这一
新春伊始,苏州工业园区企业以新促兴,开启新一年奋进之旅。2月10日上午,哈曼汽车电子系统(苏州)有限公司车载显示智能制造工厂开业。哈曼集团在该事业领域全球布局的第一条生产线将在这里投入使用,未来满产后
据路透社报道,宁德时代计划本周提交港股上市申请,筹资至少 50 亿美元(当前约 365.4 亿元人民币)。2024年12月,宁德时代表示,经公司股东大会审议通过后,最快在 18 个月内完成在港上市,并