从2023GTC谈NVIDIA硬核技术

智能计算芯世界 2023-03-28 00:00

2023 GTC 大会上,英伟达 CEO 发布了四个全新推理平台,每个平台都包含针对特定的 AIGC 推理工作负载优化的 NVIDIA GPU 以及专用软件:

1)用于图像渲染和 AI 视频的 L4L4 提供增强的视频解码/转码、视频流、增强现实以及生成 AI 视频等功能,可提供比 CPU 120 倍的 AI 视频性能,一台 8 L4 服务器能够替代 100 多台用于处理 AI 视频的双插槽 CPU 服务器。

2)用于 Omniverse、图像生成、文本转图像等各类生成式 AI L40L40 针对图形和支持 AI 2D、视频和 3D 图像生成进行了优化。L40 平台作为 Omniverse 的引擎,用于在数据中心构建和运行元宇宙应用程序,推理性能是云推理 GPU T4 10 倍。

3)用于大语言模型(LLM)推理的 H100 NVLH100 NVLGPU 适用于大规模部署 ChatGPT 等大型 LLMH100 NVL 通过 NVLINK 将两张 H100 PCIE 桥接在一起,其中的每张卡拥有 94GB HBM3 内存,同时内置 Transformer 引擎。与目前唯一可以在云上处理 GPT 模型的 HXG A100 相比,一台搭载四对 H100 NVL 和双 GPU NVLINK 的服务器可以将推理速度提高 10 倍。

4Grace Hopper Superchip 适用于推荐模型、向量数据库和大型语言模型的 AI 数据库,并通过 NVLink-C2C 技术为 Grace CPU Hopper GPU 之间提供高达 900GB/s 的高速连接,CPU 查询和存储巨型嵌入表,GPU 负责将收到的结果进行推理,整体是 PCIE 速度的 7 倍。

下载链接:
《143份重磅ChatGPT专业报告》
华为AI盘古大模型研究框架(2023)
英伟达GPU、DGX云、AI工厂三驾马车,AI算力和应用再迎跃进
从硬件、算法、应用角度看ChatGPT浪潮引领AIGC革新机遇
文心一言、GPT3.5及GPT-4的应用测评对比
从算力、算法、数据及应用看AIGC(2023)
人工智能深度:AIGC行业综述—开启AI新篇章(2023)
文心一言发布,国内厂商离复现ChatGPT走多远
Nvidia GTC 2023 Presentation
《英伟达GTC技术大会合集》
1、AIGC系列研究报告:从英伟达开发者大会看AI能做什么 2、英伟达GTC和Adobe发布新品,AIGC落地将提速 3、人工智能发展持续加速,从2023 GTC看电子发展新机遇
AI+平台化双轮驱动,云计算开启新纪元
人工智能研发运营体系(MLOps)实践指南(2023)
半导体:ChatGPT推动AI芯应用,算力提升终端多点开花
《IC板载系列报告合集》
(1):ABF板载国产化替代在即,先进封装注入新活力 (2):高端封装材料多点开花,业务协同加快国产化替代步伐
GPU研究框架(2023)
SOC芯片研究框架(2022)
从软件算法生态看GPU发展与局限
NVIDIA GPU架构白皮书
GPU技术专题下载链接
深度报告:GPU研究框架
CPU和GPU研究框架合集

一、DGX Cloud AI超级计算服务
DGX Cloud提供专用的NVIDIA DGX AI超级计算集群,搭配NVIDIA AI软件,可让企业立即访问为生成AI和其他突破性应用程序训练高级模型所需的基础设施和软件。该服务使每个企业都可以使用简单的网络浏览器访问自己的AI超级计算机,企业按月租用DGX Cloud集群,确保可快速轻松地扩展大型多节点训练工作负载的开发,而无需等待通常需求量很大的加速计算资源。
NVIDIA Base Command™平台软件:可使用其管理和监控DGX Cloud训练工作负载,该软件可在DGX Cloud以及本地NVIDIA DGX超级计算机上提供无缝的用户体验。使用Base Command Platform,客户可将其工作负载与每项工作所需的正确数量和类型的DGX基础设施相匹配。
DGX Cloud包括NVIDIA AI Enterprise,平台的软件层,提供端到端的AI框架和预训练模型。今日发布的NVIDIA AI Enterprise 3.1提供了新的预训练模型、优化框架和加速数据科学软件库,为开发人员的AI项目提供了额外的快速启动。
行业巨头案例:

①Amgen(世界领先的生物技术公司之一)正在使用DGX Cloud和NVIDIA BioNeMo™大型语言模型软件来加速药物发现,包括NVIDIA AI Enterprise软件,内含NVIDIA RAPIDS™数据科学加速库。

CCC Intelligent Solutions (领先的财产和意外伤害保险经济云平台,CCC)正在使用DGX Cloud来加速和扩展其AI模型的开发和培训。

③ServiceNow(数字业务平台提供商)将DGX Cloud与本地NVIDIA DGX超级计算机结合使用,以实现灵活、可扩展的混合云AI超级计算,这有助于推动其在大型语言模型、代码生成和因果分析方面的AI研究。
二、Picasso Service云服务

用途:用于构建和部署生成式AI驱动的图像、视频和3D应用程序,具有高级文本到图像、文本到视频和文本转3D功能,可通过简单云API提高创造力、设计和数字模拟的生产力。
用法:软件制造商、服务提供商和企业可使用Picasso在其专有数据上训练NVIDIA Edify基础模型,以构建使用自然文本提示的应用程序,从而为数百个用例快速创建和定制视觉内容,包括产品设计、数字孪生、讲故事和人物创作。
拓展:要构建自定义应用程序,企业还可以从Picasso的Edify模型集开始,这些模型使用完全许可的数据进行预训练,还可以使用Picasso来优化和运行生成式AI模型。
三、NVIDIA BioNeMo服务
BioNeMo Service是一种用于早期药物发现中生成AI的云服务,具有九种最先进的大型语言和扩散模型。可通过Web界面或完全托管的API访问,并且可以在NVIDIA DGX Cloud上进一步训练和优化,生物学生成式AI的工作流程得到了优化和统包。
BioNeMo服务具有九个AI生成模型,涵盖了开发AI药物发现管道的广泛应用:AlphaFold 2、ESMFold和OpenFold用于根据一级氨基酸序列预测3D蛋白质结构、用于蛋白质特性预测的ESM-1nv和ESM-2用于蛋白质生成的ProtGPT2、MegaMolBART和MoFlow用于小分子生成、用于预测小分子与蛋白质结合结构的DiffDock等。

四、推出四种配置:L4、L40、H100 NVL、Grace Hopper

L4:一台8-GPU L4服务器将取代一百多台用于处理AI视频的双插槽CPU服务器。
L40:针对Omniverse、图形渲染以及文本转图像和文本转视频等生成式AI,推出L40,其性能是云推理GPU T4的10倍。

H100 NVL:针对ChatGPT等大型语言模型的推理,推出Hopper GPU,配备双GPU NVLink的 PCIE H100 , H100 NVL配备94GB HBM3显存,可处理拥有1750亿参数的GPT-3, 同时还可支持商用PCIE服务器轻松扩展。

Grace Hopper:新超级芯片,通过900GB/秒高速一致性芯片到芯片接口,非常适合处理大型数据集,例如推荐系统和大型语言模型的AI数据库借助Grace Hopper,Grace可以查询嵌入表,并将结果直接传入到Hopper,速度比PCIE快7倍。

五、Omniverse应用
Omniverse是实现工业数字化的数字到物理操作系统,是云原生,同时不限平台,可让团队随时随地在我们的虚拟工场中展开协作。Omniverse网络中的网络正在呈指数级增长,还连接了Siemens Teamcenter、NX和Process Simulate、RockWell Automation Emulate3D、Cesium、Unity等许多应用。
应用于汽车企业数字化:
沃尔沃汽车公司和通用汽车使用Omniverse USD Composer连接和统一其资产工作流,并将汽车零部件在虚拟环境中组装成数字孪生汽车,在工程和仿真中, Omniverse将Powerflow空气动力学可视化。
②新一代梅赛德斯-奔驰和捷豹陆虎汽车,使用Omniverse Drive Sim生成,梅赛德斯奔驰使用Omniverse为新车型构建、优化和规划组装流水线。
③丰田公司使用Omniverse构建工厂的数字孪生。

三款专为Omniverse设计的系统:

①新工作站,由NVIDIA Ada RTX GPU和英特尔最新款CPU提供动力支持,适合光线追踪、物理仿真、神经图形和生成式AI,2023年3月起,BOXX、戴尔、惠普、联想将提供这款工作站。

②新型NVIDIA OVX服务器,由Omniverse优化而来,OVX由服务器GPU Ada RTX L40和BlueField-3组成,将由戴尔、HPE、Quanta、技嘉、联想和Supermicro提供。

③Omniverse Cloud,基于NVIDIA OVX运算系统推出, 每一层Omniverse堆栈包括芯片、系统、网络和软件都是新发明,正将Omniverse连接到微软365生产力套件。

六、超算及云服务

发布Grace、Grace-Hopper和BlueField-3三款新芯片,适用于超级节能加速数据中心,更新了100个加速库,包括用于量子计算的cuQuantum、用于组合优化的cuOpt、以及用于计算光刻的cuLitho(与台积电、ASML和Synopsys合作,达到2nm及更高制程),可将计算光刻用时提速40倍。
计算光刻:500套DGX H100(包含4000颗Hopper GPU)可完成与4万颗CPU运算服务器相同的工作量,但速度快40倍,功耗低9倍,即意味着GPU加速后,生产光掩模的计算光刻工作用时可以从几周减少到八小时。
NVIDIA DGX AI超级计算机是生成式大型言模型取得突破的引擎,DGX H100 AI超级计算机正在生产,并即将通过全球不断扩大的OEM和云服务合作伴网络面世。DGX没有止步于研究,正在成为现代化AI工厂,Nvidia通过与Azure、Google GCP、Oracle OCI合作,拓展NVIDIA DGX Cloud业务模式。

七、总结

英伟达推出了新的推理平台,包括四种配置和一个体系架构:

①适用于处理AI视频的8-GPU服务器L4。

②适用于Omniverse和图形渲染的L40。

③适用于扩展LLM推理的H100PCIE。

④适用于推荐系统和向量数据库的Grace-Hopper。
此外,通过与Google合作,Google GCP成为首款NVIDIA AI云,NVIDIA AI Foundations是一个云服务和代工厂,用于构建自定义语言模型和生成式AI,包括语言视觉和生物学模型构建服务。

Omniverse是实现工业数字化的数字到物理操作系统,可以统一端到端工作流,并将价值3万亿美元的汽车行业数字化;在Azure上进行托管,与微软合作,将Omniverse Cloud引入各行业。
整理:by浙商电子@蒋高振团队
来源:Nvidia 2023开发者大会

下载链接:

CPU和GPU研究框架合集
面向AIoT的RISC-V原生操作系统研究
深度报告:RISC-V异构IoT全新架构
RISC-V芯片产业指令集架构研究
玄铁C910实现RISC-V用户自定义指令
面向AIoT的RISC-V原生操作系统研究
RISC-V手册开源指令集指南
《RISC-V指令架构与实践(1)》
《RISC-V指令架构与实践(2)》
《RISC-V技术介绍及报告》
《RISC-V体系架构与实践(1)》
01 - RISC-V课程介绍 02 - RISC-V体系结构介绍 03- RISC-V处理器微架构介绍 04 - 搭建实验环境
《RISC-V体系架构与实践(2)》
05 - RISC-V指令集 06 - 函数调规范与栈 07 - GNU AS汇编器 08 - 链接器与链接脚本
《RISC-V体系架构与实践(3)》

09 - 内嵌汇编 10 - 异常处理 11 - 中断处理 12 - 内存管理

本号资料全部上传至知识星球,更多内容请登录智能计算芯知识(知识星球)星球下载全部资料。




免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言联系删除,谢谢。

电子书<服务器基础知识全解(终极版)>更新完毕。
获取方式:点击“小程序链接”即可查看182页 PPT可编辑版本和PDF阅读版本详情。

服务器基础知识全解PPT(终极版)

服务器基础知识全解PDF(终极版)


温馨提示:
请搜索“AI_Architect”或“扫码”关注公众号实时掌握深度技术分享,点击“阅读原文”获取更多原创技术干货。


智能计算芯世界 聚焦人工智能、芯片设计、异构计算、高性能计算等领域专业知识分享.
评论
  • Ubuntu20.04默认情况下为root账号自动登录,本文介绍如何取消root账号自动登录,改为通过输入账号密码登录,使用触觉智能EVB3568鸿蒙开发板演示,搭载瑞芯微RK3568,四核A55处理器,主频2.0Ghz,1T算力NPU;支持OpenHarmony5.0及Linux、Android等操作系统,接口丰富,开发评估快人一步!添加新账号1、使用adduser命令来添加新用户,用户名以industio为例,系统会提示设置密码以及其他信息,您可以根据需要填写或跳过,命令如下:root@id
    Industio_触觉智能 2025-01-17 14:14 122浏览
  • 数字隔离芯片是一种实现电气隔离功能的集成电路,在工业自动化、汽车电子、光伏储能与电力通信等领域的电气系统中发挥着至关重要的作用。其不仅可令高、低压系统之间相互独立,提高低压系统的抗干扰能力,同时还可确保高、低压系统之间的安全交互,使系统稳定工作,并避免操作者遭受来自高压系统的电击伤害。典型数字隔离芯片的简化原理图值得一提的是,数字隔离芯片历经多年发展,其应用范围已十分广泛,凡涉及到在高、低压系统之间进行信号传输的场景中基本都需要应用到此种芯片。那么,电气工程师在进行电路设计时到底该如何评估选择一
    华普微HOPERF 2025-01-20 16:50 73浏览
  • 高速先生成员--黄刚这不马上就要过年了嘛,高速先生就不打算给大家上难度了,整一篇简单但很实用的文章给大伙瞧瞧好了。相信这个标题一出来,尤其对于PCB设计工程师来说,心就立马凉了半截。他们辛辛苦苦进行PCB的过孔设计,高速先生居然说设计多大的过孔他们不关心!另外估计这时候就跳出很多“挑刺”的粉丝了哈,因为翻看很多以往的文章,高速先生都表达了过孔孔径对高速性能的影响是很大的哦!咋滴,今天居然说孔径不关心了?别,别急哈,听高速先生在这篇文章中娓娓道来。首先还是要对各位设计工程师的设计表示肯定,毕竟像我
    一博科技 2025-01-21 16:17 102浏览
  • 本文介绍瑞芯微开发板/主板Android配置APK默认开启性能模式方法,开启性能模式后,APK的CPU使用优先级会有所提高。触觉智能RK3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1Tops算力NPU,可应用于物联网网关、平板电脑、智能家居、教育电子、工业显示与控制等行业。源码修改修改源码根目录下文件device/rockchip/rk3562/package_performance.xml并添加以下内容,注意"+"号为添加内容,"com.tencent.mm"为AP
    Industio_触觉智能 2025-01-17 14:09 164浏览
  • 临近春节,各方社交及应酬也变得多起来了,甚至一月份就排满了各式约见。有的是关系好的专业朋友的周末“恳谈会”,基本是关于2025年经济预判的话题,以及如何稳定工作等话题;但更多的预约是来自几个客户老板及副总裁们的见面,他们为今年的经济预判与企业发展焦虑而来。在聊天过程中,我发现今年的聊天有个很有意思的“点”,挺多人尤其关心我到底是怎么成长成现在的多领域风格的,还能掌握一些经济趋势的分析能力,到底学过哪些专业、在企业管过哪些具体事情?单单就这个一个月内,我就重复了数次“为什么”,再辅以我上次写的:《
    牛言喵语 2025-01-22 17:10 43浏览
  •  万万没想到!科幻电影中的人形机器人,正在一步步走进我们人类的日常生活中来了。1月17日,乐聚将第100台全尺寸人形机器人交付北汽越野车,再次吹响了人形机器人疯狂进厂打工的号角。无独有尔,银河通用机器人作为一家成立不到两年时间的创业公司,在短短一年多时间内推出革命性的第一代产品Galbot G1,这是一款轮式、双臂、身体可折叠的人形机器人,得到了美团战投、经纬创投、IDG资本等众多投资方的认可。作为一家成立仅仅只有两年多时间的企业,智元机器人也把机器人从梦想带进了现实。2024年8月1
    刘旷 2025-01-21 11:15 412浏览
  • 现在为止,我们已经完成了Purple Pi OH主板的串口调试和部分配件的连接,接下来,让我们趁热打铁,完成剩余配件的连接!注:配件连接前请断开主板所有供电,避免敏感电路损坏!1.1 耳机接口主板有一路OTMP 标准四节耳机座J6,具备进行音频输出及录音功能,接入耳机后声音将优先从耳机输出,如下图所示:1.21.2 相机接口MIPI CSI 接口如上图所示,支持OV5648 和OV8858 摄像头模组。接入摄像头模组后,使用系统相机软件打开相机拍照和录像,如下图所示:1.3 以太网接口主板有一路
    Industio_触觉智能 2025-01-20 11:04 153浏览
  •     IPC-2581是基于ODB++标准、结合PCB行业特点而指定的PCB加工文件规范。    IPC-2581旨在替代CAM350格式,成为PCB加工行业的新的工业规范。    有一些免费软件,可以查看(不可修改)IPC-2581数据文件。这些软件典型用途是工艺校核。    1. Vu2581        出品:Downstream     
    电子知识打边炉 2025-01-22 11:12 55浏览
  • 2024年是很平淡的一年,能保住饭碗就是万幸了,公司业绩不好,跳槽又不敢跳,还有一个原因就是老板对我们这些员工还是很好的,碍于人情也不能在公司困难时去雪上加霜。在工作其间遇到的大问题没有,小问题还是有不少,这里就举一两个来说一下。第一个就是,先看下下面的这个封装,你能猜出它的引脚间距是多少吗?这种排线座比较常规的是0.6mm间距(即排线是0.3mm间距)的,而这个规格也是我们用得最多的,所以我们按惯性思维来看的话,就会认为这个座子就是0.6mm间距的,这样往往就不会去细看规格书了,所以这次的运气
    wuliangu 2025-01-21 00:15 186浏览
  • 嘿,咱来聊聊RISC-V MCU技术哈。 这RISC-V MCU技术呢,简单来说就是基于一个叫RISC-V的指令集架构做出的微控制器技术。RISC-V这个啊,2010年的时候,是加州大学伯克利分校的研究团队弄出来的,目的就是想搞个新的、开放的指令集架构,能跟上现代计算的需要。到了2015年,专门成立了个RISC-V基金会,让这个架构更标准,也更好地推广开了。这几年啊,这个RISC-V的生态系统发展得可快了,好多公司和机构都加入了RISC-V International,还推出了不少RISC-V
    丙丁先生 2025-01-21 12:10 115浏览
  •  光伏及击穿,都可视之为 复合的逆过程,但是,复合、光伏与击穿,不单是进程的方向相反,偏置状态也不一样,复合的工况,是正偏,光伏是零偏,击穿与漂移则是反偏,光伏的能源是外来的,而击穿消耗的是结区自身和电源的能量,漂移的载流子是 客席载流子,须借外延层才能引入,客席载流子 不受反偏PN结的空乏区阻碍,能漂不能漂,只取决于反偏PN结是否处于外延层的「射程」范围,而穿通的成因,则是因耗尽层的过度扩张,致使跟 端子、外延层或其他空乏区 碰触,当耗尽层融通,耐压 (反向阻断能力) 即告彻底丧失,
    MrCU204 2025-01-17 11:30 182浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦