由于新冠肺炎疫情的影响,每年一度的GTC大会,今年采用了线上发布会的形式,而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨,将发布场地挪到了自家厨房。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗,前两天的预热视频中,黄老板是从烤箱中扛出的此次发布会新品。而在14日晚上,备受期待的7nm Ampere GPU、基于该架构的两款EGX边缘AI平台产品以及第三代工作站DGX A100都在这个厨房里发布了……

由于新冠肺炎疫情的影响,每年一度的GTC大会,今年采用了线上发布会的形式,而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨,将发布场地挪到了自家厨房。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗,前两天的预热视频中,黄老板是从烤箱中扛出的此次发布会新品……

据黄仁勋介绍,他已经在家工作四十五天了,这次的演讲视频是在家里的厨房提前录制的,本次2020 GTC的主题演讲和新品发布只用了用7个视频就完成了,也被他称作NVIDIA史上第一个“厨房 Keynote”。

5月14日晚间,在NVIDIA GTC2020大会上,英伟达发布备受期待的7纳米(nm)工艺安培(Ampere)架构GPU,以及基于该架构的两款EGX边缘AI平台产品。最后,NVIDIA还发布了相应的第三代工作站DGX A100,也可以叫个人超级计算机,支持在桌面端进行AI研究,并扩展到云端。

这次的GTC 2020大会演讲中,黄仁勋主要谈的就是HPC计算、AI人工智能、自驾驶等方面的内容。

世界上最大的7nm GPU

期盼已久的安培架构GPU——A100终于正式发布,跟2018年发布的上一代图灵(Turing)架构GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。

“A100 是迄今为止人类制造出的最大 7nm工艺芯片,集AI训练和推理于一身,并且其性能相比于前代产品提升了高达20倍。”黄仁勋说。就具体参数来看,A100 采用目前最先进的台积电(TSMC)7nm工艺,拥有 540 亿个晶体管,而且是一块CoWoS 3D 堆叠芯片,这种封装专为科学计算,云图形和数据分析而构建。芯片面积高达 826平方毫米,GPU的最大功率达到 400W

它除了拥有6912个CUDA核心,还采用第三代张量计算核心(Tensor Core
),支持TF32运算。黄仁勋对此解释道,无需任何代码改变,就可以让FP32精度下的AI性能比上一代Volta架构提升20倍,达到19.5 TFLOPS(万亿次/秒)。此外,TensorCore还支持FP64双精度运算,与HPC应用相比带来了2.5倍的性能。

除了性能提升,安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速。“A100将在提高吞吐量的同时,降低数据中心的成本。” 黄仁勋说到。

凭借这些新功能,英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100。在英伟达看来,自Volta 架构的Tesla V100推出后,业界对AI模型训练算力的需求增长了 3000 倍。这显然也是英伟达放手增加算力和吞吐量的动力所在,而当时黄仁勋就强调英伟达未来的 GPU 将对训练、推理兼顾,这是革命性的突破。

今天看来,他兑现了自己三年前的承诺。如上图英伟达给出的数据显示,A100对比前代Telsa V100,进行BERT模型训练性能提升了6倍,BERT模型推理性能提升了7倍。可是以后应该管这个叫GPU还是TPU呢?

据介绍,安培将是NVDIA的新一代GPU核心,取代Turing和Volta架构。换言之,NVIDIA新一代图形产品只有这一套核心,覆盖GeForce、Quadro、Tesla等。

Tesla A100加速卡

首款基于A100 GPU的产品是Tesla A100加速卡,据介绍,该卡支持第三代NVLINK,与服务器的双向带宽为4.8 TB/s,GPU到GPU的互连带宽为600 GB/s。Tesla A100拥有40GB的HBM2内存,显存位宽为5120-bit,TDP为400W。

除了NVIDIA产品已经广泛采用的 Tensor Core核心,Tesla A100还用到了新GPU的几个重要特性:

其一是多实例GPU-MG(Multi-instance GPU,简称MIG),这是一项创新技术,可以将一个GPU划分为七个独立的GPU,针对不同的目标提供不同的运算,最大化提高计算效率。

第二是第三代NVIDIA NVLink 互联技术,能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。

最后是结构化稀疏,这种全新效率技术利用AI数学固有的稀疏性,使性能提升了一倍。

这几个技术的创新使得Tesla A100加速卡成为苛刻工作负载的理想选择,不仅可以用于AI推理、AI训练,还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。

DGX-A100超级计算机

与此同时,NVIDIA还宣布了基于Tesla A100的DGX A100超级计算机,有8路Tesla A100加速卡,性能高达5PFLOPS,阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于DGX A100的云服务。

黄仁勋表示,“AI已经被应用到云计算、汽车、零售、医疗等众多领域,AI算法也正变得越来越复杂和多样。ResNet模型的算力需求从2016年到现在已经增加了3000倍,我们需要更好的解决方案。”

DGX-A100搭载了AMD第二代EPYC“Rome”企业级处理器,两个AMD EPYC 7742加起来总计128核/256线程,最高可达3.40 GHz boost。

DGX A100配备了八颗安培架构的Tesla A100 GPU,每一颗整合40GB HBM2高带宽(12.4TB/s)显存,总容量达320GB。

据介绍,该系统除了具备10 PETAFLOPS的运算性能外,也具备创纪录的5 PETAFLOPS AI性能。每颗GPU均支持多达12路的NVLink互连总线,GPU-GPU带宽高达600GB/s,可保证八颗GPU彼此完全互连,同时还有6颗NVIDIA NVSwitch芯片,双向带宽高达4.8TB/s。

不过从示意图上可以看出,每颗GPU周围其实有六颗HBM2显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量8GB从而组成40GB。

网络方面,配备了刚完成收购的Mellanox ConnectX-6 HDR 200Gb/s网络接口,包括八颗单端口ConnectX-6 VPI用于聚类,峰值性能200GB/s,以及一颗双端口ConnectX-6 VPI用于数据与存储网络,提供总计每秒3.6TB的双向带宽。MeLLanox网络计算和网络加速引擎,例如RDMA、GPUDirect,以 及SHARP技术,实现最高性能和可扩展性。

另外,利用A100的多实例GPU功能,每台DGXA100系统能够被分割为多达56个实例,用于加速多个小型工作负载的处理速度。凭借这些功能,企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源,加快数据分析、训练和推理等各种工作负载的速度。

有趣的是,搭配的CPU处理器这次抛弃了Intel至强,改而使用两颗AMD二代霄龙(Rome),且是顶级的64核心型号。同时搭配1TB DDR4内存、15TB PCIe Gen4.0 NVMe SSD固态硬盘,速度比 Gen3.0 NVMe SSDs 快 2 倍。

黄仁勋称这它配备了“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有45斤的重量,集成超过3万个不同组件,钻孔数量多达100万个,连接电路长达1公里。

NVIDIA宣称,DGX A100相比于高端CPU服务器,它的AI计算性能要高出150倍,内存带宽高出40倍,IO带宽也高出40倍。

NVIDIA DGX A100个人超算现已上市,售价19.9万美元(约合人民币141万元)。

目前已经开始通过合作伙伴网络销售,包括DDN Storage,戴尔,IBM,NetApp,Pure Storage 和Vast等储存设备供应商也计划将 NVIDIA DGX A100整合到其产品内。

而美国能源局的阿贡国家实验室(Argonne National Laboratory)已经宣布采用DGX A100,该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎。

黄仁勋说,通过一个价值100万美元由5个DGX A100系统组成的机架,可以取代当下价值1100万美元,由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心。并且,功耗也可以由630kW大幅降低至28kW。

难怪云服务商们下单这么快,老省电费了,就像黄老板在发布会视频中说的:“你买得越多,你越省钱。”。

GPU + SoC 扩展自动驾驶平台

自动驾驶芯片也是这次发布的重头戏。

“自动驾驶汽车是我们这个时代面临的最大的计算挑战之一。”黄仁勋说,为此英伟达也在全力推进NVIDIA DRIVE平台迭代。

而且这一次,不再是单纯的算力叠加游戏,英伟达将借助全新的安培GPU和即将推出Orin系统级芯片(SoC),对对DRIVE AGX平台进行扩展,范围覆盖从ADAS系统到DRIVEAGX PegasusRobotaxi平台。“既可以为前挡风玻璃提供5瓦的ADAS系统,还能将规模扩大到L5级Robotaxi系统。”

后者配备两个Orin SoC和两块NVIDIA安培 GPU,可实现每秒2000万亿次运算,超过上一代平台性能的6倍。同时,也能够缩小到入门级ADAS/Level 2的案例,性能达到10TOPS,功耗低至5W。

据悉,Orin SoC系列将于明年开始提供样品,在2022年下半年投入生产并向汽车制造商供应,为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。

此前,小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台,就昨天公布的信息来看,美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF 91、小马智行都计划采用英伟达DRIVE AGX Xavier平台。

由于小鹏汽车与Xavier平台具有很强的架构兼容性,这家公司也在探索对NVIDIA Orin平台的应用机会。

两款EGX边缘AI平台新品

NVIDIA还发布了两款边缘AI平台新品,据称能够在边缘提供安全、高性能的AI处理能力。

EGX A100适用于较大型商业通用服务器 ,微型EGX Jetson Xavier NX适用于微型边缘服务器。这两款产品能够在边缘提供安全、高性能的AI处理能力,适用于制造、零售、电信、医疗等多个行业。

黄仁勋介绍说,EGX A100是首个基于NVIDIA 安培架构的边缘AI产品,借助英伟达的MeLLanox ConnectX-6 Dx板载网卡,EGXA100可以每秒接收200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理。实时处理来自摄像头和其他物联网传感器的大量流式数据,可以更快地获得洞见并提高业务效率,例如同时管理机场中的数百台摄像头。

而EGX Jetson Xavier NX则没有采用最新GPU,但NVIDIA称其为全球体积最小、性能最强大的AI超级计算机,适用于微型服务器和边缘智能物联网盒。与被业界广泛采用的前代产品Jetson TX2相比,Jetson Xavier NX模块性能提高了10倍以上。通过运用云原生技术,开发人员即可利用这块仅有信用卡尺寸大小的高AI功能与高计算性能的模块。运行EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据,例如管理便利店中的少量摄像头。

具备云原生功能的Jetson Xavier NX已获得嵌入式生态系统的支持,据悉合作伙伴已提供了超过20种解决方案。Jetson Xavier NX开发者套件和Jetson Xavier NX模块现正通过NVIDIA分销渠道进行发售,售价399美元。

责编:Luffy Liu

本文综合自英伟达官方直播、新浪科技、36kr、雷锋网、量子位报道

阅读全文,请先
您可能感兴趣
CMA机构已暂时接受了芯片设计软件制造商新思科技为解决其拟议的350亿美元收购Ansys交易可能引发的竞争问题而提出的补救措施。作为条件性批准的一部分,新思科技承诺将剥离Ansys的PowerArtist业务以及出售自身的光学解决方案集团,以回应CMA对合并后实体可能减少市场竞争的担忧。这一进展标志着此笔EDA领域“世纪大收购”迈向完成的重要一步,预计整个过程将在2025年上半年内完成......
IP供应商、芯片设计服务提供商和AI专家在以AI为中心的设计价值链中的地位正变得更加突出。本文给出了四个设计用例,强调了服务于AI应用的芯片设计模型的重新调整。
芯片设计周期久,决定了AI芯片如果没有在设计之初就“压对宝”,上市时就可能已经过时。有没有什么工具能大幅加速AI芯片的设计流程?
硬件若无软件支持就毫无意义。而软件始终是Arm计算平台不可或缺的一部分,其技术已经涵盖整个软件栈的各个层面。从底层固件和操作系统的开发,到与游戏引擎、开源社区和独立软件供应商(ISV)的战略合作,确保所有这些在Arm平台上都能“开机即用”。
汪洋特别提到,第十三届芯原CEO论坛五大预测之一是2028年用于端侧微调卡和推理卡的销售额将超过用于云侧的训练卡。目前,推理和端侧微调也是芯原重点关注的领域,同时也希望在这一发展趋势中寻找新的机遇。 
随着对复杂IC的需求不断增长,供应商面临着越来越大的压力,需要在尽可能短的时间内交付最高质量的IC。本文阐述了测试工程在交付定制IC以满足这一需求方面的重要性。
大多数研发人员和导热界面材料配方设计师可能会推荐使用具备诸多优异特性的硅。然而,也存在一些例外情况。这些问题强调了在选择导热界面材料时考虑终端产品最终应用的重要性.....
在与芯科科技(Silicon Labs)首席技术官Daniel Cooley的交谈中,我们了解到该公司在物联网(IoT)和智能边缘领域所发挥的作用和未来发展。
虽然绕过产品防伪保护的手段变得越来越高级,但是最新的 NFC 芯片技术提高了信息安全性,让品牌能够保护知识产权,预防客户误买假冒商品。
西门子推出Simcenter更新版本,助力客户简化工作流程,加快航空航天认证,同时提供深入洞见
文|温风回顾完过去,再聊聊新的一年,沃尔沃从产品层面,还有哪些亟待解决的问题?首先是纯电高端化的挑战。这不是沃尔沃一家的命题,宝马i5/i7,奔驰EQE/EQS,没有一款对自身旗下传统动力车型产生强烈
本文来源:智能通信定位圈日前,瑞士物联网模组制造商u-blox表示,将在2025年逐步淘汰其亏损的蜂窝物联网业务。该部门拥有200多名员工,预计关闭后将有岗位裁撤。公司声明称:“经过仔细评估,u-bl
会议推介2025中国国际LED产业发展大会暨首届JM Insights春茗会 主办单位:JM Insights 支持单位:深圳市平板显示行业协会 论坛时间:2025年2月20日 论坛地址:深圳·国展皇
亚化咨询重磅推出《中国半导体材料、晶圆厂、封测项目及设备中标、进口数据全家桶》。本数据库月度更新,以EXCEL表格的形式每月发送到客户指定邮箱。中国大陆半导体大硅片项目表(月度更新)中国大陆再生晶圆项
尊敬的会员主联系人:为提升服务品质,自2025年1月起,IPC中国团队将定期整理会员裨益最新资讯,请将此文转发给相关同事,方便大家及时了解和使用会员裨益。一、会员免费标准下载2024年11月份发行了5
论坛信息名称:第六届半导体湿电子化学品与电子气体论坛时间:2025年3月19日地点:浙江杭州主办方:亚化咨询日程安排3月18日16:30~20:00   会议注册3月19日09:00~12:00   
文|温风2024是所有豪华品牌都不好过的一年。中国市场豪华品牌在参与价格战和不参与价格战中反复横跳,也牵动着跨国品牌全球市场的销量和财报数字。想在全球豪华市场榜单脱颖而出,就必须在销量占全球近1/3,
1月20日晚,联创电子科技股份有限公司(以下简称“联创电子”)发布了其2024年度业绩预告。           数据显示,联创电子预计2024年实现营业收入92.7亿元至103亿元,同比变化区间为-
1月21日,研究机构 Canalys 发布的报告显示,2024 年第四季度,由于厂商在节后调整库存,印度智能手机出货量下降 4%,降至 3720 万台。其中,vivo 以 750 万台的出货量和 20
会议推介2025中国国际LED产业发展大会暨首届JM Insights春茗会 主办单位:JM Insights 支持单位:深圳市平板显示行业协会 论坛时间:2025年2月20日 论坛地址:深圳·国展皇