广告

NVIDIA Blackwell平台发布,赋能万亿参数规模AI大模型

2024-04-01 阅读:
NVIDIA Blackwell 平台凭借Blackwell GPU、NVLink 和可靠性技术,可使世界各地的机构都能够在万亿参数的大语言模型(LLM)上构建和运行实时生成式 AI,Tensor Core 与 TensorRT- LLM 编译器将 LLM 推理运行成本和能耗降低多达 25 倍。

一、AI行业拉动下,GPU市场需求量激增

GPU(图形处理器)是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上运行绘图运算工作的微处理器。GPU的应用市场分为计算机,平板电脑,智能手机,游戏机,电视等。2023年,尽管智能手机市场在全球GPU市场中所占比重最高,但GPU在其他新兴领域的应用正在成为拉动GPU市场增长的重要驱动力。特别以大模型为代表的算力基础设施的完善,以及智能网联系统在新能源汽车中的普及和技术迭代,使得GPU在算力基础设施和智能网联汽车等新兴应用领域均存在大量增长空间,GPU市场前景未来可期。

GPU作为数据并行处理的核心,是AI服务器的核心增量。现阶段,GPU的发展已经越来越趋于高算力、极电池效率,逐渐成为新技术和新应用的重要处理器。近年来,全球市场正在开发更多支持GPU的AI新设备,比如低功耗的游戏机。同时,GPU在智能家居和控制系统的AI应用也在不断拓展。在AI相关行业的发展需求下,GPU市场正在快速成长。根据相关市场统计,2023年,全球GPU市场规模预计达到595.4亿美元,预计到2027年将达到1853.1亿美元。

2021-2023年全球GPU市场规模

以大模型为代表的算力基础设施不断发展,拉动GPU市场需求量持续旺盛。深度学习大模型技术迭代对GPU算力需求显著增加,应用于训练服务器、推理服务器等算力基础设施的GPU市场愈发火热。2022年底,现象级AIGC(生成式人工智能)聊天产品ChatGPT引爆新一轮“AI热”,其底层所用深度学习大模型架构Transformer自2017年推出以来经历几次迭代,参数量已从一亿量级上升到千亿量级,对算力的需求远超摩尔定律下芯片制程带来的算力提升速度。未来,GPU在云端的算力水平将直接影响下游AI文本、音频、图像、视频、游戏、策略等各应用场景的推理生成速度、精确度和智能化程度。GPU作为最适合在云端训练的芯片,在新一轮AI浪潮下需求量激增。

2023年全球GPU市场行业机构

在智能网联汽车领域,随着自动驾驶技术逐渐成熟以及智能驾舱的普及,应用于新能源汽车的GPU市场正处于增长爆发期。电动化和智能化是汽车产业未来两大趋势。随着汽车智能化水平不断提升,算力对封装在车用SoC芯片中的GPU算力提出更高的要求。L1级辅助驾驶算力小于1TOPS,L2级别算力为1-10TOPS,L3级别30-60TOPS,L4级别大于100TOPS。截至2023年末,主流汽车厂商已基本达到L3有条件自动驾驶级别,并在加快L4高级自动驾驶级别技术攻关。随着新能源汽车渗透率进一步提升,车用GPU的市场空间将进一步扩张。

二、加速计算要求提高, Blackwell 架构应运而生

GPU的微架构(Micro Architecture)一种给定的指令集和图形函数集合在处理器中执行的方法。图形函数主要用于绘制各种图形所需要的运算。当前和像素、光影处理、3D坐标变换等相关运算由GPU硬件加速来实现。相同的指令集和图形函数集合可以在不同的微架构中执行,但实施的目的和效果可能不同。优秀的微架构对GPU性能和效能的提升发挥着至关重要的作用。以英伟达此前发布的安培微架构为例,GPU微架构的运算部份由流处理器(Stream Processor,SP)、纹理单元(Texture mapping unit,TMU)、张量单元(Tensor Core)、光线追踪单元(RT Cores)、光栅化处理单元(ROPs)组成。在2024年NVIDIA GTC大会上,英伟达发布了基于Blackwell 架构的Blackwell B200 GPU。Blackwell架构以美国国家科学院首位黑人学者、杰出统计学家戴维·布莱克维尔(David Blackwell)的名字命名。随着 AI 模型的规模及参数量以指数速度持续增长,AI 计算所需的计算性能和带宽需求也不断提高。Blackwell GPU 架构正是为满足未来 AI 的工作负载而打造,它为全球各机构在万亿级大语言模型(Large Language Model,LLM)上构建和运行实时生成式 AI 提供了可能,成本和能耗比上一代的 Hopper GPU 架构降低 25 倍。

Blackwell GPU性能参数

 

 

此前,训练一个 1.8 万亿参数的模型需要 8000 个 Hopper GPU,并消耗 15 兆瓦的功率。而同样的工作只需要 2000 个 Blackwell GPU 就可以完成,而且功耗仅为 4 兆瓦。在一项训练 1.8 万亿参数的 GPT-MoE-1.8T 模型的测试中,根据英伟达官网,基于 Blackwell 架构的 GB200 芯片训练速度为 H100 的 4 倍。

除了在生成式 AI 领域,Blackwell GPU 架构或将推动包括数据处理、工程模拟、电子设计自动化、计算机辅助药物设计和量子计算等领域的突破进展。

总体来看,英伟达专为生成式 AI 打造的下一代 AI 架构 Blackwell GPU,瞄准万亿参数AI大模型,在性能上堪称 “算力核弹”。

三、引入多项开创性技术,AI性能显著提升

Blackwell 架构技术简报披露了 Tensor 核心数据。事实上,Blackwell GPU 出色的性能表现与其引入的多项开创性技术密不可分。

Blackwell GB200规格

 

 

首先,Blackwell 是目前“全球最强大的芯片”。从物理意义上来看,英伟达在本次GTC 2024发布的Blackwell GPU是当前面积最大的GPU。它由两颗Blackwell裸片拼接而成,采用台积电4nm工艺,拥有2080亿晶体管,AI性能达到20 petaflops。相比于英伟达Hopper,BlackwellGPU的AI性能提升5倍,片上存储提升4倍。从工艺上来看,Blackwell GPU采用专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,通过 10 TB/s 的片间互联,将 GPU 裸片连接成一块统一的 GPU。

其次,Blackwell新架构采用了第二代 Transformer 引擎。新一代引擎配备了新的微张量缩放支持以及集成于 TensorRT-LLM 和 NeMo Megatron 框架的动态范围管理算法,可在新型 4 位浮点 AI 推理能力下,实现算力和模型大小的翻倍。具体来看,第二代 Transformer 引擎对AI运算的浮点数精度进行动态缩放,目前覆盖了FP6和FP4。在这两种精度下,Blackwell相较Hopper的算力分别实现了2.5倍和5倍的提升。

此外,Blackwell架构还采用了第五代 NVLink 网络技术。在大量GPU共同工作时,需要保证GPU之间的信息能够进行同步和共享,这就需要GPU之间的高速连接。全新的 NVLink 能够为万亿级参数模型及混合专家 AI 模型带来明显的性能提升。它不仅向每个 GPU 提供高达 1.8TB/s 双向吞吐量,还可以保证 576 个 GPU 之间的无缝高速通信。

同时,Blackwell架构还搭载了RAS 引擎。在大规模部署AI的过程中,由于组件众多,持续运行的能力变得至关重要。Blackwell 驱动的 GPU 将专用引擎和以 AI 为基础的预防性维护功能集成,以此确保可靠性、可用性和可维护性,从而最大限度地延长系统正常运行时间并最大限度地降低运营成本。基于此,Blackwell GPU 可实现运行诊断并预测可靠性相关的问题,还能提高大规模 AI 部署的弹性,使它能够连续不间断运行数周乃至数月,同时降低运营成本。

Blackwell架构中也增加了机密计算功能来强化AI的安全性,在医疗、金融服务等高度重视数据隐私的行业中保护AI模型和客户数据,使得计算时刻处在一个可信的引擎环境中。新架构可在不影响性能的条件下,保护 AI 模型和客户数据,实现保护隐私、提供更安全AI的目标。

最后,考虑到在高速计算中数据的转移效率,Blackwell架构设置了解压缩引擎。该高线速压缩引擎将数据移入和移出计算机的速度提升了20倍,有效减少计算机运算时的算力闲置。Blackwell架构配备的专用解压缩引擎可支持最新格式,能够通过加速数据库查询来提供强大的数据分析和数据科学性能。

四、制造升级,GPU实现架构迭代和集群拓展

GPU制造的升级主要是通过发展先进制程和Chiplet技术。

就先进制程而言,先进制程能够降低每一个晶体管的成本,提升晶体管密度,在GPU Die体积不变下实现更高的性能。此外,先进制程还能够提高处理器效能,在性能不变的情况下,减少发热或在发热不变的情况下,通过提升主频来拉高性能。先进制程的主要目的是降低平面结构带来的漏电率问题,提升方案可以通过改变工艺,如采用FinFET(鳍式场效应晶体管)或GAA(环绕式栅极);或采用特殊材料,如FD-SOI(基于SOI的超薄绝缘层上硅体技术)。英伟达发布的Blackwell架构GPU采用台积电4nm工艺打造,整合两个独立制造的裸晶(Die),集成共2080亿个晶体管。

就Chiplet而言,随着先进制程突破面临极大难度(如量子隧穿效应),加之深度学习、机器学习、推理、AI驱动的图像渲染、识别等多种任务带来的算力需求可能暴增,单独集成的CPU或GPU已经无法满足算力需求。在此情况下,Chiplet技术应运而生。该技术通过将不同的“芯片处理单元”,即不同的“芯粒”集成在一起,能够满足多样性计算需求,从而更好地优化性能。此外,由于AI应用的多样性,往往需要针对特定任务进行硬件优化。不同的处理单元芯片可以专门用于特定类型的计算,如图像处理、语音识别、自然语言处理等,基于Chiplet思路的模块化设计使得能够针对每种任务选择最佳的处理单元。

在英伟达引领下,多芯微(multi chiplet)设计正在成为重要趋势。这是一种把原本单个大型芯片分割为多个较小的、具有特定功能芯粒(Chiplets)的技术。这些芯粒各自独立制造,然后通过先进的封装技术将其堆叠或并排集成在一起,从而组成一个完整的高性能GPU。这种设计的优点在于小尺寸芯粒的制造良率通常比大尺寸单芯片更高,通过组合多个良品芯粒可以提高最终产品的良率。同时它还允许不同芯粒采用不同的工艺节点进行制造,分别优化性能和能效。由于芯片中的空间更大,就可以集成更多晶体管和功能模块,提高GPU整体性能。

英伟达通过GPU制造的升级,实现了GPU的架构迭代和集群拓展,正在赋能众多合作伙伴应对算力挑战。AWS、Google Cloud、Microsoft Azure、Oracle Cloud Infrastructure 将成为首批提供 Blackwell 驱动实例的云服务提供商。同时,Applied Digital、CoreWeave、Crusoe、IBM Cloud 和 Lambda 等英伟达云合作伙伴计划的公司也将提供此类服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、Oracle EU Sovereign Cloud、Oracle US, UK, and Australian Government Clouds、Scaleway、新加坡电信、Northern Data Group 的 Taiga Cloud、Yotta Data Services 的 Shakti Cloud 和 YTL Power International 等主权 AI 云将提供基于 Blackwell 架构的云服务和基础设施;Cisco、戴尔科技、慧与、联想和 Supermicro 预计将提供基于 Blackwell 产品打造的各种服务器;Aivres、永擎电子、华硕、Eviden、Foxconn、技嘉、Inventec、和硕、QCT、Wistron、纬颖和 ZT Systems 也将提供基于 Blackwell 的服务器。此外,越来越多的软件制造商网络,包括工程仿真领域的全球领导者 Ansys、Cadence 和 Synopsys,将使用基于 Blackwell 的处理器来加速其用于设计和仿真电气、机械和制造系统及零件的软件,通过更低成本、更高能效地使用生成式 AI 和加速计算,提升相关产品的上市速度。

展望未来,随着谷歌业务进入 AI 平台转型期,Blackwell GPU 的突破性功能有望给谷歌的云客户,以及包括 Google DeepMind 在内的谷歌团队提供加速计算引擎。英伟达新一代 Grace Blackwell 超级芯片与亚马逊AWS Nitro System 的高级虚拟化和超快速 Elastic Fabric Adapter 网络强强联合,将推动AWS 成为云服务领域的最佳选择。Meta通过 NVIDIA Blackwell 训练开源 Llama 模型,有望打造下一代 Meta AI 和消费产品。微软在全球数据中心采用 GB200 Grace Blackwell 处理器,将助力世界各地的组织实现 AI 落地。Oracle 与 NVIDIA 的紧密合作将推动 AI、机器学习和数据分析领域实现质和量的突破。

本文为EET电子工程专辑 原创文章,禁止转载。请尊重知识产权,违者本司保留追究责任的权利。
您可能感兴趣的文章
相关推荐
    广告
    近期热点
    广告
    广告
    可能感兴趣的话题
    广告
    广告
    向右滑动:上一篇 向左滑动:下一篇 我知道了