2024云栖大会,和NVIDIA共同开启加速计算之旅

原创 英伟达NVIDIA中国 2024-09-19 11:30

今日,2024 云栖大会在杭州云栖小镇正式举行,NVIDIA 多位技术专家将在为期三天的主论坛、专场和并行话题演讲,分享加速计算技术和产业实践。

与此同时,2 号馆 NVIDIA 展区,将带来数据中心级的端到端技术栈、生态加速项目、LLM 技术演示、云上解决方案和用户实践,3 号馆 NVIDIA Inception Pavilion 展区邀请了 10 家亚太地区的 NVIDIA 初创加速计划会员企业展示前 AI 沿用。请跟随我们的脚步,先行了解 NVIDIA 如何亮相 2024 云栖大会!


NVIDIA 专场“大语言模型时代的加速计算”

9 月 20 日 14:00 - 17:45,A 馆 A1-1


在NVIDIA 专场,NVIDIA 和阿里云、埃森哲的技术专家将分享大语言模型落地的关键要素,并分享全栈加速计算的技术经验。

上下滑动查看演讲详情


NVIDIA 全球副总裁何涛将为专场观众致欢迎词,此后,NVIDIA 开发与技术部门亚太区资深总监李曦鹏将带来开场演讲 “大语言模型时代的加速计算”,鉴于加速计算是推动人工智能、视频处理和数据分析等领域发展的核心技术, NVIDIA 通过持续创新、CUDA、Tensor Core 和 NVLink 等不断引领加速计算的发展。不但提供了强大算力,也显著降低了能耗。本报告将分享大语言模型时代,加速计算的“变”与“不变”,并着重讲解我们对于大语言模型带来的新的技术调整和“解题思路”。

NVIDIA 解决方案架构师金国强阿里云智能集团弹性计算高级开发工程师刘霖将分享“让生成式 AI 触手可及:NVIDIA NIM 助力企业级大模型推理优化部署”,演讲将展示如何结合 NIM 和阿里云容器服务 ACK 提供一套开箱即用,可以快速构建高性能、可观测、灵活弹性的 LLM 推理服务最佳实践,为 LLM 服务部署简化流程,帮助企业客户加速部署生成式 AI 模型。

随着大语言模型的发展和生成式 AI 的逐步落地,算力需求也在爆发性的增长,加速计算的集群规模也越来越大。如何构建合适的集群,合理的使用集群是非常有挑战性的工作。NVIDIA 资深解决方案架构师刘功元将在题为“NVIDIA 加速计算助力生成式 AI”的演讲中,重点介绍 GPU 架构,GPU 集群 Scale-up 和 Scale-out 的演进,以及助力生成式 AI 的落地的最佳实践。

大语言模型的训练和推理是 AI 应用的核心,它对 AI 框架在 GPU 上运行的吞吐和时延提出了更高的要求。因此加速计算是保障 LLM 应用成本控制和用户体验的基础。

NVIDIA GPU 计算专家张顺康将分享“NVIDIA Megatron-Core MoE:架构、特性与性能优化”,Megatron-Core(简称 MCore)是 NVIDIA 开发的专注于 LLM 训练的 GPU 优化技术和系统级创新的分布式训练框架。用户不仅可以直接使用 MCore 进行 LLM 的大规模训练,也可以基于 MCore 构建客制化的训练框架,以满足各种特定需求。Megatron-Core MoE(简称 MCore MoE)作为 MCore 的核心组件,专门针对 MoE 训练场景提供灵活并行支持和性能优化策略。本次演讲将重点介绍 MCore MoE 的技术特性及性能优化,并以 Qwen2 MoE 模型为例,分享性能调优的最佳实践。

NVIDIA GPU 计算专家王猛讲分享“NVIDIA TensorRT-LLM:大模型推理优化最佳实践”,虽然 LLM 已经在许多应用领域证明了其强大的理解和生成能力,但要落地到具体应用,还需要克服推理成本高、延迟长的问题,并拥有易开发、易调试的工具。为了在 GPU 上取得更低的成本、更快的推理速度,NVIDIA 推出了 TensorRT-LLM (TRT-LLM) 来协助使用者能轻松、快速的用低成本进行 LLM 推理。本次演讲将重点介绍 TensorRT-LLM 的基础组件,FP8 量化,并以 Qwen 模型为例,分享推理性能的最佳实践。

生成式 AI 落地需要加速计算和云计算以及生态系统的合作创新。

因此,专场邀请阿里云智能集团算法专家李鹏,以“PAI-Megatron-Patch:围绕 Megatron-Core 打造大语言模型训练加速生态”为主题,分享阿里云 PAI 人工智能平台算法团队和 NVIDIA DevTech 团队深入合作,基于 MCore 框架解决的 Qwen2 以及 LLama3.1 开源 LLM 训练加速技术落地时遇到的加速开关鲁棒性,以及收敛精度等核心问题。演讲将以接入最新的开源 LLama3.1 场景为例,首先展示从 HuggingFace 模型继续预训练或者微调时权重转换过程中遇到的精度对齐问题,接着介绍 NVIDIA 前沿架构下最新的 FlashAttention-3,分布式通信优化以及 offloading 技术。

专场也邀请了阿里云智能集团高级技术专家张杰(王林)带来以“PAI-ChatLearn:借助 Megatron-LM 实现高效 Alignment 训练”的分享, PAI-ChatLearn 是阿里云 PAI 团队自研并开源的、灵活易用的、大规模 Alignment 高效训练的框架。支持 RLHF、DPO、OnlineDPO、GRPO 等 Alignment 训练。本次演讲主要介绍 PAI-ChatLearn 架构、如何协同 Megatron-LM 等 backend 来进行 Alignment 训练加速、性能和效果等。专场最后,NVIDIA 亚太区企业级软件负责人张旭埃森哲大中华区技术服务事业部资深解决方案架构师杨阳阿里云智能集团弹性计算开发工程师高涵将以 “NVIDIA AI Enterprise 助力传统企业 LLM 上云” 为主题,分享如何基于定制企业专有数据和微调模型,助力打造定制化的企业级解决方案。


NVIDIA 展区汇聚前沿加速计算技术和实践

2 号馆 2-12


基于 CUDA 的加速计算,是大语言模型时代下,AI 落地和产业焕新的技术底座;数据中心正在演变为由成千上万 GPU 构建的 AI 工厂,推动新一轮生成式 AI 的突破。

左右滑动,查看更多展位图片


在 NVIDIA 展区,NVIDIA 将展示在计算各个层级上的加速计算技术,包括 NVIDIA RAPIDS cuDFNeMoMegatron-CoreTensorRT-LLMTriton™ 推理服务器NIM 预构建容器工具、Spectrum-4 SN5600 网络交换机 BlueField®-3 网络平台、基于 NVIDIA Spectrum-4 的阿里云白盒以太网交换机 ,以及  Omniverse 等。


精彩技术演示


大会观众在 NVIDIA  LLM 互动技术演示区大排长龙。我们展示了由 Inworld AI 与 NVIDIA 合作创建的动态 NPC 交互技术演示,它集成 NVIDIA Riva 自动语音识别功能以实现准确的语音转文本,并使用 NVIDIA Audio2Face 提供逼真的面部动画。

另一个使用 Stable Diffusion ComfyUI 应用的图像生成技术演示,借助 NVIDIA RTX 实现了 10 倍更快的图像生成和一步式训练 ControlNets,ComfyUI 通过 TensorRT 加速,可将图像和视频生成速度提高 60%,体验者能够基于即时自拍照,来创建超级英雄形象并在几秒钟内完成。


学习资源分享


NVIDIA 初创加速计划致力于培养颠覆行业格局的优秀创业公司,其展示内容将在现场开放。此外,您还会看到 NVIDIA 企业开发者社区NVIDIA 深度学习培训中心(DLI),为创业者、开发者和学习者提供丰富的资源和支持。到访“NVIDIA 实战培训”互动体验区,您可以现场体验 NVIDIA 培训配备云端实验环境的在线自学课程,并从 50 门课程中自由选择领取多门免费课程。到访观众还有特别培训课程的免费兑换权益。此外,“NVIDIA AI 小课堂”也将如期而至,为参会者提供与讲师互动的机会,让您亲身感受 AI 技术带来的魅力与变革。


客户用例展示


此外,在 NVIDIA 展区您还可以看到云上解决方案和客户用例,包括:

  • 猿辅导集团:Motiff 妙多 AI 时代设计工具,基于 NVIDIA 加速计算,驱动 AI 直接生成产品界面。
  • 吉利集团:极氪浩瀚智驾 2.0 启动端到端大模型,基于 NVIDIA 芯片,打造智驾新体验,自研域控,行车,泊车与主动安全全场景覆盖,城市领航功能全国都能用。
  • 阿里云容器服务(ACK):在阿里云容器服务 ACK 集群上部署 NIM 预构建容器工具,使用其云原生 AI 套件,开源的 KServe 等组件和 Prometheus 监控服务,以及 NIM 提供的丰富监控指标,快速拉起高性能、可实时观测、极致弹性的模型推理服务。
  • 魔搭社区:魔搭社区上线 TensorRT-LLM,支持主流 LLM 推理优化和常用量化方法,并适配不同环境,其中使用 FP8 量化,可获得相比 HuggingFace 基准,最高 8.6 倍的整体推理性能提升。
  • 蚂蚁集团:图谱自动构建和可信问答,基于 LLM 的私域知识库自动图谱构建和可信问答。
  • 阿里云云工开物校园云:NVIDIA 与阿里云支持中国高校 AI 通识教育。
  • 阿里云函数计算(FC):阿里云与 NVIDIA 共同打造更高效的推理平台,推理速度提升 30%。
  • 月之暗面:Kimi 底层推理平台 Mooncake——基于 KVCache 的分离式推理架构。
  • 阿里云计算巢服务:NVIDIA AI Enterprise 结合计算巢实现 LLM 快速 SaaS 化和软件一站式上云。
  • vGPU:按 “虚” 而动,大势所趋,NVIDIA vGPU 解决方案助力阿里云弹性计算。


来 NVIDIA Inception Pavilion 展区

一览前沿 AI 应用

3 号馆 3-11K


NVIDIA 初创加速计划致力于培养颠覆行业格局的优秀创业公司。今年,10 家 NVIDIA 初创加速计划会员企业亮相大会,其中 4 家亚太区域会员企业更是首次亮相云栖大会。欢迎您探展 NVIDIA Inception Pavilion 展区,了解来自不同国家和地区的创业企业的最新技术突破。

参展企业:


  • 6Estates

  • FathomX Pte.Ltd.

  • MetaLearner

  • 8glabs Inc.

  • WeShop

  • 深圳幻影未来信息科技有限公司

  • 万生华态科技有限公司

  • 北京睿甄创新科技有限公司

  • 酷牛创新技术(深圳)有限公司

  • 埃罗科技(上海)有限公司


精彩进行时


在 2024 云栖大会的首日,NVIDIA 丰富多元的展示和演讲为大会增添了一道靓丽的 “加速计算”风景线。欢迎您持续关注 NVIDIA 在 2024 云栖大会的精彩呈现。



GTC 2025 内容征集现已开放点击“阅读原文”,或扫描下方海报二维码即可提交。2025 年 3 月,在圣何塞向全世界分享您的成就。

评论
  • 新年伊始,又到了对去年做总结,对今年做展望的时刻 不知道你在2024年初立的Flag都实现了吗? 2025年对自己又有什么新的期待呢? 2024年注定是不平凡的一年, 一年里我测评了50余块开发板, 写出了很多科普文章, 从一个小小的工作室成长为科工公司。 展望2025年, 中国香河英茂科工, 会继续深耕于,具身机器人、飞行器、物联网等方面的研发, 我觉得,要向未来学习未来, 未来是什么? 是掌握在孩子们生活中的发现,和精历, 把最好的技术带给孩子,
    丙丁先生 2025-01-11 11:35 443浏览
  • ARMv8-A是ARM公司为满足新需求而重新设计的一个架构,是近20年来ARM架构变动最大的一次。以下是对ARMv8-A的详细介绍: 1. 背景介绍    ARM公司最初并未涉足PC市场,其产品主要针对功耗敏感的移动设备。     随着技术的发展和市场需求的变化,ARM开始扩展到企业设备、服务器等领域,这要求其架构能够支持更大的内存和更复杂的计算任务。 2. 架构特点    ARMv8-A引入了Execution State(执行状
    丙丁先生 2025-01-12 10:30 450浏览
  • 随着通信技术的迅速发展,现代通信设备需要更高效、可靠且紧凑的解决方案来应对日益复杂的系统。中国自主研发和制造的国产接口芯片,正逐渐成为通信设备(从5G基站到工业通信模块)中的重要基石。这些芯片凭借卓越性能、成本效益及灵活性,满足了现代通信基础设施的多样化需求。 1. 接口芯片在通信设备中的关键作用接口芯片作为数据交互的桥梁,是通信设备中不可或缺的核心组件。它们在设备内的各种子系统之间实现无缝数据传输,支持高速数据交换、协议转换和信号调节等功能。无论是5G基站中的数据处理,还是物联网网关
    克里雅半导体科技 2025-01-10 16:20 433浏览
  • 在不断发展的电子元件领域,继电器——作为切换电路的关键设备,正在经历前所未有的技术变革。固态继电器(SSR)和机械继电器之间的争论由来已久。然而,从未来发展的角度来看,固态继电器正逐渐占据上风。本文将从耐用性、速度和能效三个方面,全面剖析固态继电器为何更具优势,并探讨其在行业中的应用与发展趋势。1. 耐用性:经久耐用的设计机械继电器:机械继电器依靠物理触点完成电路切换。然而,随着时间的推移,这些触点因电弧、氧化和材料老化而逐渐磨损,导致其使用寿命有限。因此,它们更适合低频或对切换耐久性要求不高的
    腾恩科技-彭工 2025-01-10 16:15 97浏览
  • 随着数字化的不断推进,LED显示屏行业对4K、8K等超高清画质的需求日益提升。与此同时,Mini及Micro LED技术的日益成熟,推动了间距小于1.2 Pitch的Mini、Micro LED显示屏的快速发展。这类显示屏不仅画质卓越,而且尺寸适中,通常在110至1000英寸之间,非常适合应用于电影院、监控中心、大型会议、以及电影拍摄等多种室内场景。鉴于室内LED显示屏与用户距离较近,因此对于噪音控制、体积小型化、冗余备份能力及电气安全性的要求尤为严格。为满足这一市场需求,开关电源技术推出了专为
    晶台光耦 2025-01-13 10:42 485浏览
  •   在信号处理过程中,由于信号的时域截断会导致频谱扩展泄露现象。那么导致频谱泄露发生的根本原因是什么?又该采取什么样的改善方法。本文以ADC性能指标的测试场景为例,探讨了对ADC的输出结果进行非周期截断所带来的影响及问题总结。 两个点   为了更好的分析或处理信号,实际应用时需要从频域而非时域的角度观察原信号。但物理意义上只能直接获取信号的时域信息,为了得到信号的频域信息需要利用傅里叶变换这个工具计算出原信号的频谱函数。但对于计算机来说实现这种计算需要面对两个问题: 1.
    TIAN301 2025-01-14 14:15 92浏览
  • 根据Global Info Research(环洋市场咨询)项目团队最新调研,预计2030年全球无人机电池和电源产值达到2834百万美元,2024-2030年期间年复合增长率CAGR为10.1%。 无人机电池是为无人机提供动力并使其飞行的关键。无人机使用的电池类型因无人机的大小和型号而异。一些常见的无人机电池类型包括锂聚合物(LiPo)电池、锂离子电池和镍氢(NiMH)电池。锂聚合物电池是最常用的无人机电池类型,因为其能量密度高、设计轻巧。这些电池以输出功率大、飞行时间长而著称。不过,它们需要
    GIRtina 2025-01-13 10:49 164浏览
  • 电动汽车(EV)正在改变交通运输,为传统内燃机提供更清洁、更高效的替代方案。这种转变的核心是电力电子和能源管理方面的创新,而光耦合器在其中发挥着关键作用。这些不起眼的组件可实现可靠的通信、增强安全性并优化电动汽车系统的性能,使其成为正在进行的革命中不可或缺的一部分。光耦合器,也称为光隔离器,是一种使用光传输电信号的设备。通过隔离高压和低压电路,光耦合器可确保安全性、减少干扰并保持信号完整性。这些特性对于电动汽车至关重要,因为精确控制和安全性至关重要。 光耦合器在电动汽车中的作用1.电池
    腾恩科技-彭工 2025-01-10 16:14 71浏览
  • 随着全球向绿色能源转型的加速,对高效、可靠和环保元件的需求从未如此强烈。在这种背景下,国产固态继电器(SSR)在实现太阳能逆变器、风力涡轮机和储能系统等关键技术方面发挥着关键作用。本文探讨了绿色能源系统背景下中国固态继电器行业的前景,并强调了2025年的前景。 1.对绿色能源解决方案日益增长的需求绿色能源系统依靠先进的电源管理技术来最大限度地提高效率并最大限度地减少损失。固态继电器以其耐用性、快速开关速度和抗机械磨损而闻名,正日益成为传统机电继电器的首选。可再生能源(尤其是太阳能和风能
    克里雅半导体科技 2025-01-10 16:18 319浏览
  • 01. 什么是过程能力分析?过程能力研究利用生产过程中初始一批产品的数据,预测制造过程是否能够稳定地生产符合规格的产品。可以把它想象成一种预测。通过历史数据的分析,推断未来是否可以依赖该工艺持续生产高质量产品。客户可能会要求将过程能力研究作为生产件批准程序 (PPAP) 的一部分。这是为了确保制造过程能够持续稳定地生产合格的产品。02. 基本概念在定义制造过程时,目标是确保生产的零件符合上下规格限 (USL 和 LSL)。过程能力衡量制造过程能多大程度上稳定地生产符合规格的产品。核心概念很简单:
    优思学院 2025-01-12 15:43 492浏览
  • 流量传感器是实现对燃气、废气、生活用水、污水、冷却液、石油等各种流体流量精准计量的关键手段。但随着工业自动化、数字化、智能化与低碳化进程的不断加速,采用传统机械式检测方式的流量传感器已不能满足当代流体计量行业对于测量精度、测量范围、使用寿命与维护成本等方面的精细需求。流量传感器的应用场景(部分)超声波流量传感器,是一种利用超声波技术测量流体流量的新型传感器,其主要通过发射超声波信号并接收反射回来的信号,根据超声波在流体中传播的时间、幅度或相位变化等参数,间接计算流体的流量,具有非侵入式测量、高精
    华普微HOPERF 2025-01-13 14:18 460浏览
  • PNT、GNSS、GPS均是卫星定位和导航相关领域中的常见缩写词,他们经常会被用到,且在很多情况下会被等同使用或替换使用。我们会把定位导航功能测试叫做PNT性能测试,也会叫做GNSS性能测试。我们会把定位导航终端叫做GNSS模块,也会叫做GPS模块。但是实际上他们之间是有一些重要的区别。伴随着技术发展与越发深入,我们有必要对这三个词汇做以清晰的区分。一、什么是GPS?GPS是Global Positioning System(全球定位系统)的缩写,它是美国建立的全球卫星定位导航系统,是GNSS概
    德思特测试测量 2025-01-13 15:42 463浏览
我要评论
0
点击右上角,分享到朋友圈 我知道啦
请使用浏览器分享功能 我知道啦