从2023GTC谈NVIDIA硬核技术

智能计算芯世界 2023-03-28 00:00

2023 GTC 大会上,英伟达 CEO 发布了四个全新推理平台,每个平台都包含针对特定的 AIGC 推理工作负载优化的 NVIDIA GPU 以及专用软件:

1)用于图像渲染和 AI 视频的 L4L4 提供增强的视频解码/转码、视频流、增强现实以及生成 AI 视频等功能,可提供比 CPU 120 倍的 AI 视频性能,一台 8 L4 服务器能够替代 100 多台用于处理 AI 视频的双插槽 CPU 服务器。

2)用于 Omniverse、图像生成、文本转图像等各类生成式 AI L40L40 针对图形和支持 AI 2D、视频和 3D 图像生成进行了优化。L40 平台作为 Omniverse 的引擎,用于在数据中心构建和运行元宇宙应用程序,推理性能是云推理 GPU T4 10 倍。

3)用于大语言模型(LLM)推理的 H100 NVLH100 NVLGPU 适用于大规模部署 ChatGPT 等大型 LLMH100 NVL 通过 NVLINK 将两张 H100 PCIE 桥接在一起,其中的每张卡拥有 94GB HBM3 内存,同时内置 Transformer 引擎。与目前唯一可以在云上处理 GPT 模型的 HXG A100 相比,一台搭载四对 H100 NVL 和双 GPU NVLINK 的服务器可以将推理速度提高 10 倍。

4Grace Hopper Superchip 适用于推荐模型、向量数据库和大型语言模型的 AI 数据库,并通过 NVLink-C2C 技术为 Grace CPU Hopper GPU 之间提供高达 900GB/s 的高速连接,CPU 查询和存储巨型嵌入表,GPU 负责将收到的结果进行推理,整体是 PCIE 速度的 7 倍。

下载链接:
《143份重磅ChatGPT专业报告》
华为AI盘古大模型研究框架(2023)
英伟达GPU、DGX云、AI工厂三驾马车,AI算力和应用再迎跃进
从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新机遇
文心一言、GPT3.5及GPT-4的应用测评对比
从算力、算法、数据及应用看AIGC(2023)
人工智能深度:AIGC行业综述—开启AI新篇章(2023)
文心一言发布,国内厂商离复现ChatGPT走多远
Nvidia GTC 2023 Presentation
《英伟达GTC技术大会合集》
1、AIGC系列研究报告:从英伟达开发者大会看AI能做什么 2、英伟达GTC和Adobe发布新品,AIGC落地将提速 3、人工智能发展持续加速,从2023 GTC看电子发展新机遇
AI+平台化双轮驱动,云计算开启新纪元
人工智能研发运营体系(MLOps)实践指南(2023)
半导体:ChatGPT推动AI芯应用,算力提升终端多点开花
《IC板载系列报告合集》
(1):ABF板载国产化替代在即,先进封装注入新活力 (2):高端封装材料多点开花,业务协同加快国产化替代步伐
GPU研究框架(2023)
SOC芯片研究框架(2022)
从软件算法生态看GPU发展与局限
NVIDIA GPU架构白皮书
GPU技术专题下载链接
深度报告:GPU研究框架
CPU和GPU研究框架合集

一、DGX Cloud AI超级计算服务
DGX Cloud提供专用的NVIDIA DGX AI超级计算集群,搭配NVIDIA AI软件,可让企业立即访问为生成AI和其他突破性应用程序训练高级模型所需的基础设施和软件。该服务使每个企业都可以使用简单的网络浏览器访问自己的AI超级计算机,企业按月租用DGX Cloud集群,确保可快速轻松地扩展大型多节点训练工作负载的开发,而无需等待通常需求量很大的加速计算资源。
NVIDIA Base Command™平台软件:可使用其管理和监控DGX Cloud训练工作负载,该软件可在DGX Cloud以及本地NVIDIA DGX超级计算机上提供无缝的用户体验。使用Base Command Platform,客户可将其工作负载与每项工作所需的正确数量和类型的DGX基础设施相匹配。
DGX Cloud包括NVIDIA AI Enterprise,平台的软件层,提供端到端的AI框架和预训练模型。今日发布的NVIDIA AI Enterprise 3.1提供了新的预训练模型、优化框架和加速数据科学软件库,为开发人员的AI项目提供了额外的快速启动。
行业巨头案例:

①Amgen(世界领先的生物技术公司之一)正在使用DGX Cloud和NVIDIA BioNeMo™大型语言模型软件来加速药物发现,包括NVIDIA AI Enterprise软件,内含NVIDIA RAPIDS™数据科学加速库。

CCC Intelligent Solutions (领先的财产和意外伤害保险经济云平台,CCC)正在使用DGX Cloud来加速和扩展其AI模型的开发和培训。

③ServiceNow(数字业务平台提供商)将DGX Cloud与本地NVIDIA DGX超级计算机结合使用,以实现灵活、可扩展的混合云AI超级计算,这有助于推动其在大型语言模型、代码生成和因果分析方面的AI研究。
二、Picasso Service云服务

用途:用于构建和部署生成式AI驱动的图像、视频和3D应用程序,具有高级文本到图像、文本到视频和文本转3D功能,可通过简单云API提高创造力、设计和数字模拟的生产力。
用法:软件制造商、服务提供商和企业可使用Picasso在其专有数据上训练NVIDIA Edify基础模型,以构建使用自然文本提示的应用程序,从而为数百个用例快速创建和定制视觉内容,包括产品设计、数字孪生、讲故事和人物创作。
拓展:要构建自定义应用程序,企业还可以从Picasso的Edify模型集开始,这些模型使用完全许可的数据进行预训练,还可以使用Picasso来优化和运行生成式AI模型。
三、NVIDIA BioNeMo服务
BioNeMo Service是一种用于早期药物发现中生成AI的云服务,具有九种最先进的大型语言和扩散模型。可通过Web界面或完全托管的API访问,并且可以在NVIDIA DGX Cloud上进一步训练和优化,生物学生成式AI的工作流程得到了优化和统包。
BioNeMo服务具有九个AI生成模型,涵盖了开发AI药物发现管道的广泛应用:AlphaFold 2、ESMFold和OpenFold用于根据一级氨基酸序列预测3D蛋白质结构、用于蛋白质特性预测的ESM-1nv和ESM-2用于蛋白质生成的ProtGPT2、MegaMolBART和MoFlow用于小分子生成、用于预测小分子与蛋白质结合结构的DiffDock等。

四、推出四种配置:L4、L40、H100 NVL、Grace Hopper

L4:一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。
L40:针对Omniverse、图形渲染以及文本转图像和文本转视频等生成式AI,推出L40,其性能是云推理GPU T4的10倍。

H100 NVL:针对ChatGPT等大型语言模型的推理,推出Hopper GPU,配备双GPU NVLink的 PCIE H100 , H100 NVL配备94GB HBM3显存,可处理拥有1750亿参数的GPT-3, 同时还可支持商用PCIE服务器轻松扩展。

Grace Hopper:新超级芯片,通过900GB/秒高速一致性芯片到芯片接口,非常适合处理大型数据集,例如推荐系统和大型语言模型的AI数据库借助Grace Hopper,Grace可以查询嵌入表,并将结果直接传入到Hopper,速度比PCIE快7倍。

五、Omniverse应用
Omniverse是实现工业数字化的数字到物理操作系统,是云原生,同时不限平台,可让团队随时随地在我们的虚拟工场中展开协作。Omniverse网络中的网络正在呈指数级增长,还连接了Siemens Teamcenter、NX和Process Simulate、RockWell Automation Emulate3D、Cesium、Unity等许多应用。
应用于汽车企业数字化:
沃尔沃汽车公司和通用汽车使用Omniverse USD Composer连接和统一其资产工作流,并将汽车零部件在虚拟环境中组装成数字孪生汽车,在工程和仿真中, Omniverse将Powerflow空气动力学可视化。
②新一代梅赛德斯-奔驰和捷豹陆虎汽车,使用Omniverse Drive Sim生成,梅赛德斯奔驰使用Omniverse为新车型构建、优化和规划组装流水线。
③丰田公司使用Omniverse构建工厂的数字孪生。

三款专为Omniverse设计的系统:

①新工作站,由NVIDIA Ada RTX GPU和英特尔最新款CPU提供动力支持,适合光线追踪、物理仿真、神经图形和生成式AI,2023年3月起,BOXX、戴尔、惠普、联想将提供这款工作站。

②新型NVIDIA OVX服务器,由Omniverse优化而来,OVX由服务器GPU Ada RTX L40和BlueField-3组成,将由戴尔、HPE、Quanta、技嘉、联想和Supermicro提供。

③Omniverse Cloud,基于NVIDIA OVX运算系统推出, 每一层Omniverse堆栈包括芯片、系统、网络和软件都是新发明,正将Omniverse连接到微软365生产力套件。

六、超算及云服务

发布Grace、Grace-Hopper和BlueField-3三款新芯片,适用于超级节能加速数据中心,更新了100个加速库,包括用于量子计算的cuQuantum、用于组合优化的cuOpt、以及用于计算光刻的cuLitho(与台积电、ASML和Synopsys合作,达到2nm及更高制程),可将计算光刻用时提速40倍。
计算光刻:500套DGX H100(包含4000颗Hopper GPU)可完成与4万颗CPU运算服务器相同的工作量,但速度快40倍,功耗低9倍,即意味着GPU加速后,生产光掩模的计算光刻工作用时可以从几周减少到八小时。
NVIDIA DGX AI超级计算机是生成式大型言模型取得突破的引擎,DGX H100 AI超级计算机正在生产,并即将通过全球不断扩大的OEM和云服务合作伴网络面世。DGX没有止步于研究,正在成为现代化AI工厂,Nvidia通过与Azure、Google GCP、Oracle OCI合作,拓展NVIDIA DGX Cloud业务模式。

七、总结

英伟达推出了新的推理平台,包括四种配置和一个体系架构:

①适用于处理AI视频的8-GPU服务器L4。

②适用于Omniverse和图形渲染的L40。

③适用于扩展LLM推理的H100PCIE。

④适用于推荐系统和向量数据库的Grace-Hopper。
此外,通过与Google合作,Google GCP成为首款NVIDIA AI云,NVIDIA AI Foundations是一个云服务和代工厂,用于构建自定义语言模型和生成式AI,包括语言视觉和生物学模型构建服务。

Omniverse是实现工业数字化的数字到物理操作系统,可以统一端到端工作流,并将价值3万亿美元的汽车行业数字化;在Azure上进行托管,与微软合作,将Omniverse Cloud引入各行业。
整理:by浙商电子@蒋高振团队
来源:Nvidia 2023开发者大会

下载链接:

CPU和GPU研究框架合集
面向AIoT的RISC-V原生操作系统研究
深度报告:RISC-V异构IoT全新架构
RISC-V芯片产业指令集架构研究
玄铁C910实现RISC-V用户自定义指令
面向AIoT的RISC-V原生操作系统研究
RISC-V手册开源指令集指南
《RISC-V指令架构与实践(1)》
《RISC-V指令架构与实践(2)》
《RISC-V技术介绍及报告》
《RISC-V体系架构与实践(1)》
01 - RISC-V课程介绍 02 - RISC-V体系结构介绍 03- RISC-V处理器微架构介绍 04 - 搭建实验环境
《RISC-V体系架构与实践(2)》
05 - RISC-V指令集 06 - 函数调规范与栈 07 - GNU AS汇编器 08 - 链接器与链接脚本
《RISC-V体系架构与实践(3)》

09 - 内嵌汇编 10 - 异常处理 11 - 中断处理 12 - 内存管理

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“小程序链接”即可查看182页 PPT可编辑版本和PDF阅读版本详情。

服务器基础知识全解PPT(终极版)

服务器基础知识全解PDF(终极版)


温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • 光伏逆变器是一种高效的能量转换设备,它能够将光伏太阳能板(PV)产生的不稳定的直流电压转换成与市电频率同步的交流电。这种转换后的电能不仅可以回馈至商用输电网络,还能供独立电网系统使用。光伏逆变器在商业光伏储能电站和家庭独立储能系统等应用领域中得到了广泛的应用。光耦合器,以其高速信号传输、出色的共模抑制比以及单向信号传输和光电隔离的特性,在光伏逆变器中扮演着至关重要的角色。它确保了系统的安全隔离、干扰的有效隔离以及通信信号的精准传输。光耦合器的使用不仅提高了系统的稳定性和安全性,而且由于其低功耗的
    晶台光耦 2024-12-02 10:40 120浏览
  •         温度传感器的精度受哪些因素影响,要先看所用的温度传感器输出哪种信号,不同信号输出的温度传感器影响精度的因素也不同。        现在常用的温度传感器输出信号有以下几种:电阻信号、电流信号、电压信号、数字信号等。以输出电阻信号的温度传感器为例,还细分为正温度系数温度传感器和负温度系数温度传感器,常用的铂电阻PT100/1000温度传感器就是正温度系数,就是说随着温度的升高,输出的电阻值会增大。对于输出
    锦正茂科技 2024-12-03 11:50 111浏览
  • 最近几年,新能源汽车愈发受到消费者的青睐,其销量也是一路走高。据中汽协公布的数据显示,2024年10月,新能源汽车产销分别完成146.3万辆和143万辆,同比分别增长48%和49.6%。而结合各家新能源车企所公布的销量数据来看,比亚迪再度夺得了销冠宝座,其10月新能源汽车销量达到了502657辆,同比增长66.53%。众所周知,比亚迪是新能源汽车领域的重要参与者,其一举一动向来为外界所关注。日前,比亚迪汽车旗下品牌方程豹汽车推出了新车方程豹豹8,该款车型一上市就迅速吸引了消费者的目光,成为SUV
    刘旷 2024-12-02 09:32 119浏览
  • 学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&
    youyeye 2024-11-30 14:30 78浏览
  • 遇到部分串口工具不支持1500000波特率,这时候就需要进行修改,本文以触觉智能RK3562开发板修改系统波特率为115200为例,介绍瑞芯微方案主板Linux修改系统串口波特率教程。温馨提示:瑞芯微方案主板/开发板串口波特率只支持115200或1500000。修改Loader打印波特率查看对应芯片的MINIALL.ini确定要修改的bin文件#查看对应芯片的MINIALL.ini cat rkbin/RKBOOT/RK3562MINIALL.ini修改uart baudrate参数修改以下目
    Industio_触觉智能 2024-12-03 11:28 87浏览
  • 作为优秀工程师的你,已身经百战、阅板无数!请先醒醒,新的项目来了,这是一个既要、又要、还要的产品需求,ARM核心板中一个处理器怎么能实现这么丰富的外围接口?踌躇之际,你偶阅此文。于是,“潘多拉”的魔盒打开了!没错,USB资源就是你打开新世界得钥匙,它能做哪些扩展呢?1.1  USB扩网口通用ARM处理器大多带两路网口,如果项目中有多路网路接口的需求,一般会选择在主板外部加交换机/路由器。当然,出于成本考虑,也可以将Switch芯片集成到ARM核心板或底板上,如KSZ9897、
    万象奥科 2024-12-03 10:24 68浏览
  • 戴上XR眼镜去“追龙”是种什么体验?2024年11月30日,由上海自然博物馆(上海科技馆分馆)与三湘印象联合出品、三湘印象旗下观印象艺术发展有限公司(下简称“观印象”)承制的《又见恐龙》XR嘉年华在上海自然博物馆重磅开幕。该体验项目将于12月1日正式对公众开放,持续至2025年3月30日。双向奔赴,恐龙IP撞上元宇宙不久前,上海市经济和信息化委员会等部门联合印发了《上海市超高清视听产业发展行动方案》,特别提到“支持博物馆、主题乐园等场所推动超高清视听技术应用,丰富线下文旅消费体验”。作为上海自然
    电子与消费 2024-11-30 22:03 98浏览
  • RDDI-DAP错误通常与调试接口相关,特别是在使用CMSIS-DAP协议进行嵌入式系统开发时。以下是一些可能的原因和解决方法: 1. 硬件连接问题:     检查调试器(如ST-Link)与目标板之间的连接是否牢固。     确保所有必要的引脚都已正确连接,没有松动或短路。 2. 电源问题:     确保目标板和调试器都有足够的电源供应。     检查电源电压是否符合目标板的规格要求。 3. 固件问题: &n
    丙丁先生 2024-12-01 17:37 102浏览
  • 11-29学习笔记11-29学习笔记习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习笔记&记录学习习笔记&记学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&记录学习学习笔记&学习学习笔记&记录学习学习笔记&记录学习学习笔记&记
    youyeye 2024-12-02 23:58 73浏览
  • 当前,智能汽车产业迎来重大变局,随着人工智能、5G、大数据等新一代信息技术的迅猛发展,智能网联汽车正呈现强劲发展势头。11月26日,在2024紫光展锐全球合作伙伴大会汽车电子生态论坛上,紫光展锐与上汽海外出行联合发布搭载紫光展锐A7870的上汽海外MG量产车型,并发布A7710系列UWB数字钥匙解决方案平台,可应用于数字钥匙、活体检测、脚踢雷达、自动泊车等多种智能汽车场景。 联合发布量产车型,推动汽车智能化出海紫光展锐与上汽海外出行达成战略合作,联合发布搭载紫光展锐A7870的量产车型
    紫光展锐 2024-12-03 11:38 101浏览
  • TOF多区传感器: ND06   ND06是一款微型多区高集成度ToF测距传感器,其支持24个区域(6 x 4)同步测距,测距范围远达5m,具有测距范围广、精度高、测距稳定等特点。适用于投影仪的无感自动对焦和梯形校正、AIoT、手势识别、智能面板和智能灯具等多种场景。                 如果用ND06进行手势识别,只需要经过三个步骤: 第一步&
    esad0 2024-12-04 11:20 58浏览
  • 《高速PCB设计经验规则应用实践》+PCB绘制学习与验证读书首先看目录,我感兴趣的是这一节;作者在书中列举了一条经典规则,然后进行详细分析,通过公式推导图表列举说明了传统的这一规则是受到电容加工特点影响的,在使用了MLCC陶瓷电容后这一条规则已经不再实用了。图书还列举了高速PCB设计需要的专业工具和仿真软件,当然由于篇幅所限,只是介绍了一点点设计步骤;我最感兴趣的部分还是元件布局的经验规则,在这里列举如下:在这里,演示一下,我根据书本知识进行电机驱动的布局:这也算知行合一吧。对于布局书中有一句:
    wuyu2009 2024-11-30 20:30 125浏览
  • 艾迈斯欧司朗全新“样片申请”小程序,逾160种LED、传感器、多芯片组合等产品样片一触即达。轻松3步完成申请,境内免费包邮到家!本期热荐性能显著提升的OSLON® Optimal,GF CSSRML.24ams OSRAM 基于最新芯片技术推出全新LED产品OSLON® Optimal系列,实现了显著的性能升级。该系列提供五种不同颜色的光源选项,包括Hyper Red(660 nm,PDN)、Red(640 nm)、Deep Blue(450 nm,PDN)、Far Red(730 nm)及Ho
    艾迈斯欧司朗 2024-11-29 16:55 175浏览
  • 概述 说明(三)探讨的是比较器一般带有滞回(Hysteresis)功能,为了解决输入信号转换速率不够的问题。前文还提到,即便使能滞回(Hysteresis)功能,还是无法解决SiPM读出测试系统需要解决的问题。本文在说明(三)的基础上,继续探讨为SiPM读出测试系统寻求合适的模拟脉冲检出方案。前四代SiPM使用的高速比较器指标缺陷 由于前端模拟信号属于典型的指数脉冲,所以下降沿转换速率(Slew Rate)过慢,导致比较器检出出现不必要的问题。尽管比较器可以使能滞回(Hysteresis)模块功
    coyoo 2024-12-03 12:20 111浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦