2024云栖大会，和NVIDIA共同开启加速计算之旅

原创英伟达NVIDIA中国 2024-09-19 11:30 819浏览 0评论 0点赞

汽车智能照明背后的“黑科技”传感器，你知道吗？ STM32峰会2025：AI与GUI开发的未来，就在这里！

今日，2024 云栖大会在杭州云栖小镇正式举行，NVIDIA 多位技术专家将在为期三天的主论坛、专场和并行话题演讲，分享加速计算技术和产业实践。

与此同时，2 号馆 NVIDIA 展区，将带来数据中心级的端到端技术栈、生态加速项目、LLM 技术演示、云上解决方案和用户实践，3 号馆 NVIDIA Inception Pavilion 展区邀请了 10 家亚太地区的 NVIDIA 初创加速计划会员企业展示前 AI 沿用。请跟随我们的脚步，先行了解 NVIDIA 如何亮相 2024 云栖大会！

NVIDIA 专场“大语言模型时代的加速计算”

9 月 20 日 14:00 - 17:45，A 馆 A1-1

在NVIDIA 专场，NVIDIA 和阿里云、埃森哲的技术专家将分享大语言模型落地的关键要素，并分享全栈加速计算的技术经验。

上下滑动查看演讲详情

NVIDIA 全球副总裁何涛将为专场观众致欢迎词，此后，NVIDIA 开发与技术部门亚太区资深总监李曦鹏将带来开场演讲 “大语言模型时代的加速计算”，鉴于加速计算是推动人工智能、视频处理和数据分析等领域发展的核心技术， NVIDIA 通过持续创新、CUDA、Tensor Core 和 NVLink 等不断引领加速计算的发展。不但提供了强大算力，也显著降低了能耗。本报告将分享大语言模型时代，加速计算的“变”与“不变”，并着重讲解我们对于大语言模型带来的新的技术调整和“解题思路”。

NVIDIA 解决方案架构师金国强和阿里云智能集团弹性计算高级开发工程师刘霖将分享“让生成式 AI 触手可及：NVIDIA NIM 助力企业级大模型推理优化部署”，演讲将展示如何结合 NIM 和阿里云容器服务 ACK 提供一套开箱即用，可以快速构建高性能、可观测、灵活弹性的 LLM 推理服务最佳实践，为 LLM 服务部署简化流程，帮助企业客户加速部署生成式 AI 模型。

随着大语言模型的发展和生成式 AI 的逐步落地，算力需求也在爆发性的增长，加速计算的集群规模也越来越大。如何构建合适的集群，合理的使用集群是非常有挑战性的工作。NVIDIA 资深解决方案架构师刘功元将在题为“NVIDIA 加速计算助力生成式 AI”的演讲中，重点介绍 GPU 架构，GPU 集群 Scale-up 和 Scale-out 的演进，以及助力生成式 AI 的落地的最佳实践。

大语言模型的训练和推理是 AI 应用的核心，它对 AI 框架在 GPU 上运行的吞吐和时延提出了更高的要求。因此加速计算是保障 LLM 应用成本控制和用户体验的基础。

NVIDIA GPU 计算专家张顺康将分享“NVIDIA Megatron-Core MoE：架构、特性与性能优化”，Megatron-Core（简称 MCore）是 NVIDIA 开发的专注于 LLM 训练的 GPU 优化技术和系统级创新的分布式训练框架。用户不仅可以直接使用 MCore 进行 LLM 的大规模训练，也可以基于 MCore 构建客制化的训练框架，以满足各种特定需求。Megatron-Core MoE（简称 MCore MoE）作为 MCore 的核心组件，专门针对 MoE 训练场景提供灵活并行支持和性能优化策略。本次演讲将重点介绍 MCore MoE 的技术特性及性能优化，并以 Qwen2 MoE 模型为例，分享性能调优的最佳实践。

NVIDIA GPU 计算专家王猛讲分享“NVIDIA TensorRT-LLM：大模型推理优化最佳实践”，虽然 LLM 已经在许多应用领域证明了其强大的理解和生成能力，但要落地到具体应用，还需要克服推理成本高、延迟长的问题，并拥有易开发、易调试的工具。为了在 GPU 上取得更低的成本、更快的推理速度，NVIDIA 推出了 TensorRT-LLM (TRT-LLM) 来协助使用者能轻松、快速的用低成本进行 LLM 推理。本次演讲将重点介绍 TensorRT-LLM 的基础组件，FP8 量化，并以 Qwen 模型为例，分享推理性能的最佳实践。

生成式 AI 落地需要加速计算和云计算以及生态系统的合作创新。

因此，专场邀请阿里云智能集团算法专家李鹏，以“PAI-Megatron-Patch：围绕 Megatron-Core 打造大语言模型训练加速生态”为主题，分享阿里云 PAI 人工智能平台算法团队和 NVIDIA DevTech 团队深入合作，基于 MCore 框架解决的 Qwen2 以及 LLama3.1 开源 LLM 训练加速技术落地时遇到的加速开关鲁棒性，以及收敛精度等核心问题。演讲将以接入最新的开源 LLama3.1 场景为例，首先展示从 HuggingFace 模型继续预训练或者微调时权重转换过程中遇到的精度对齐问题，接着介绍 NVIDIA 前沿架构下最新的 FlashAttention-3，分布式通信优化以及 offloading 技术。

专场也邀请了阿里云智能集团高级技术专家张杰（王林）带来以“PAI-ChatLearn：借助 Megatron-LM 实现高效 Alignment 训练”的分享， PAI-ChatLearn 是阿里云 PAI 团队自研并开源的、灵活易用的、大规模 Alignment 高效训练的框架。支持 RLHF、DPO、OnlineDPO、GRPO 等 Alignment 训练。本次演讲主要介绍 PAI-ChatLearn 架构、如何协同 Megatron-LM 等 backend 来进行 Alignment 训练加速、性能和效果等。专场最后，NVIDIA 亚太区企业级软件负责人张旭、埃森哲大中华区技术服务事业部资深解决方案架构师杨阳和阿里云智能集团弹性计算开发工程师高涵将以 “NVIDIA AI Enterprise 助力传统企业 LLM 上云” 为主题，分享如何基于定制企业专有数据和微调模型，助力打造定制化的企业级解决方案。

NVIDIA 展区汇聚前沿加速计算技术和实践

2 号馆 2-12

基于 CUDA 的加速计算，是大语言模型时代下，AI 落地和产业焕新的技术底座；数据中心正在演变为由成千上万 GPU 构建的 AI 工厂，推动新一轮生成式 AI 的突破。

左右滑动，查看更多展位图片

在 NVIDIA 展区，NVIDIA 将展示在计算各个层级上的加速计算技术，包括 NVIDIA RAPIDS™ cuDF、NeMo™、 Megatron-Core、TensorRT-LLM、Triton™ 推理服务器、NIM 预构建容器工具、Spectrum-4 SN5600 网络交换机、 BlueField®-3 网络平台、基于 NVIDIA Spectrum-4 的阿里云白盒以太网交换机，以及 Omniverse™ 等。

精彩技术演示

大会观众在 NVIDIA LLM 互动技术演示区大排长龙。我们展示了由 Inworld AI 与 NVIDIA 合作创建的动态 NPC 交互技术演示，它集成 NVIDIA Riva 自动语音识别功能以实现准确的语音转文本，并使用 NVIDIA Audio2Face 提供逼真的面部动画。

另一个使用 Stable Diffusion ComfyUI 应用的图像生成技术演示，借助 NVIDIA RTX 实现了 10 倍更快的图像生成和一步式训练 ControlNets，ComfyUI 通过 TensorRT 加速，可将图像和视频生成速度提高 60%，体验者能够基于即时自拍照，来创建超级英雄形象并在几秒钟内完成。

学习资源分享

NVIDIA 初创加速计划致力于培养颠覆行业格局的优秀创业公司，其展示内容将在现场开放。此外，您还会看到 NVIDIA 企业开发者社区和 NVIDIA 深度学习培训中心（DLI），为创业者、开发者和学习者提供丰富的资源和支持。到访“NVIDIA 实战培训”互动体验区，您可以现场体验 NVIDIA 培训配备云端实验环境的在线自学课程，并从 50 门课程中自由选择领取多门免费课程。到访观众还有特别培训课程的免费兑换权益。此外，“NVIDIA AI 小课堂”也将如期而至，为参会者提供与讲师互动的机会，让您亲身感受 AI 技术带来的魅力与变革。

客户用例展示

此外，在 NVIDIA 展区您还可以看到云上解决方案和客户用例，包括：

猿辅导集团：Motiff 妙多 AI 时代设计工具，基于 NVIDIA 加速计算，驱动 AI 直接生成产品界面。
吉利集团：极氪浩瀚智驾 2.0 启动端到端大模型，基于 NVIDIA 芯片，打造智驾新体验，自研域控，行车，泊车与主动安全全场景覆盖，城市领航功能全国都能用。
阿里云容器服务（ACK）：在阿里云容器服务 ACK 集群上部署 NIM 预构建容器工具，使用其云原生 AI 套件，开源的 KServe 等组件和 Prometheus 监控服务，以及 NIM 提供的丰富监控指标，快速拉起高性能、可实时观测、极致弹性的模型推理服务。
魔搭社区：魔搭社区上线 TensorRT-LLM，支持主流 LLM 推理优化和常用量化方法，并适配不同环境，其中使用 FP8 量化，可获得相比 HuggingFace 基准，最高 8.6 倍的整体推理性能提升。
蚂蚁集团：图谱自动构建和可信问答，基于 LLM 的私域知识库自动图谱构建和可信问答。
阿里云云工开物校园云：NVIDIA 与阿里云支持中国高校 AI 通识教育。
阿里云函数计算（FC）：阿里云与 NVIDIA 共同打造更高效的推理平台，推理速度提升 30%。
月之暗面：Kimi 底层推理平台 Mooncake——基于 KVCache 的分离式推理架构。
阿里云计算巢服务：NVIDIA AI Enterprise 结合计算巢实现 LLM 快速 SaaS 化和软件一站式上云。
vGPU：按 “虚” 而动，大势所趋，NVIDIA vGPU 解决方案助力阿里云弹性计算。